一,绪论部分
绪论部分简单讲解了强化学习的应用场景和一些方向。
方向:多智能体强化学习,从数据中学习,探索策略,实时环境,多任务强化学习。
多智能体强化学习:与单智能体不同,环境的状态还收其他智能体的动作影响。也存在许多问题,比如信号问题,分配问题。
从数据中学习:就是字面意思从数据中进行学习和训练,我的理解就是神经网络的加强版,但又有所不同,还有模仿学习等。
二,马尔科夫决策过程
马尔可夫决策过程是强化学习的基本问题模型之一,它能够以数学的形式来描述智能体在与环境交互的过程中学到一个目标的过程。大体来说就是通过弹钢琴,我们通过当前的行为例如通过判断这一次弹的好不好,来决定下次的行为。
交互的这个过程我们一般叫离散的时步,用t来表示,当前环境状态为St,根据这个状态执行St执行at,这又会得到一个奖励Rt+1,之后状态和动作更新,大致如图
马尔可夫性质:
这个公式的意思就是在给定历史状态S0,S1,⋯,St的情况下,某个状态的未来只与当前状态St有关,与历史的状态无关。
棋盘问题就是一个简单的例子,当前状态也包括历史所有信息,其实也是满足该性质。
回报:
马尔可夫决策过程中智能体的目标时最大化累积的奖励,通常我们把这个累积的奖励称为回报
如果是没有终止状态的,是可持续性任务就会增加折扣因子。
其中折扣因子 取值范围在 0 到 1 之间,它表示了我们在考虑未来奖励时的重要程度
当 折扣因子=0 时,我们只会关心当前的奖励,而不会关心将来的任何奖励。而当折扣因子接近 1 时,我们会对所有未来奖励都给予较高的关注度
这样做的好处是会让当前时步的回报 跟下一个时步 的回报是有所关联的
马尔可夫链:
截至目前,我们讲的都是有限状态马尔可夫决策过程( finite MDP ),这指的是状态的数量必须是有限的(无论是离散的还是连续的。如果状态数是无限的,通常会使用另一种方式来对问题建模,称为泊松( Poisson )过程。这个过程又被称为连续时间马尔可夫过程,它允许发生无限次事件,每个事件发生的机会相对较小,但当时间趋近于无穷大时,这些事件以极快的速度发生。
既然状态数是有限的,那其实我们可以用一种状态流向图来表示智能体与环境交互过程中的走向。
往往智能体和环境都是相互的。
整张图表示了马尔可夫决策过程中的状态流向,这其实跟数字电路中有限状态机的概念是一样的。严格意义上来讲,这张图中并没有完整地描述出马尔可夫决策过程,因为没有包涵动作、奖励等元素,所以一般我们称之为马尔可夫链(Markov Chain),又叫做离散时间的马尔可夫过程(Markov Process),跟马尔可夫决策过程一样,都需要满足马尔可夫性质。因此我们可以用一个概率来表示状态之间的切换,
三,动态规划
状态价值函数:
在马尔可夫决策过程中,每个状态是有一定的价值的,可以定义为:
这就是状态价值函数(state-value function),从特定状态出发,按照某种策略Π进行决策所能得到的回报期望值,注意这里的回报是带有折扣因子的
另外引入动作的元素后会有一个 Q 函数,也叫做 动作价值函数(action-value function),即
动作价值函数和状态价值函数会有一个关系:
贝尔曼方程:
对于上述两个函数公式的推导
最优贝尔曼方程:
策略迭代:
首先固定策略Π不变,然后估计对应的状态价值函数V,这一叫做策略估计
然后根据估计好的状态价值函数,结合策略推算出动作价值函数,并对该 函数优化然后进一步改进策略,这一步叫策略改进
价值迭代: