一、马尔可夫决策过程
1.马尔可夫决策过程
马尔可夫决策过程是强化学习基础问题模型之一,主要描述智能体在与环境的交互过程中学到一个目标的过程,而这个目标大部分时候是最大化奖励。
马尔可夫性质是指在某个确定状态的未来只和当前状态有关,与历史的状态无关。
回报是交互过程中积累的最大化的奖励
折扣因子:权衡当前奖励和未来奖励,体现对未来的关注度
2.状态转移矩阵
在状态数有限时,状态之间切换的概率组合成的矩阵就是状态转移矩阵,而这个概率称为状态转移概率,状态转移概率通常简写成,同时状态转移矩阵是环境的一部分,和智能体没什么关系。
马尔可夫链:没有包含动作和奖励等元素的马尔可夫决策过程
马尔可夫奖励过程:在马尔可夫链的基础上加上奖励元素
二、动态规划
动态规划三大性质:
最优化原理:如果问题的最优解所包含的子问题的解也是最优的,就称该问题具有最优子结构
无后效性:某阶段状态一旦确定,就不受这个状态以后决策的影响,也就是马尔可夫性质
有重叠子问题:并非必要条件
1.状态价值函数、动作价值函数
1.1状态价值函数:
定义:从状态s开始,遵循策略π所能得到的策略回报
V(s)是状态s之后的动作序列上的累积奖励Gt的数学期望
Gt是带有折扣因子的累积回报
1.2动作价值函数:
定义:在状态价值函数的基础上加上动作元素
动作价值函数和状态价值函数的关系:
在状态s下,所有动作价值函数乘以动作的概率就等于状态价值函数,运用了全概率公式
2.贝尔曼方程:
2.1状态价值函数贝尔曼方程:
前一个状态的状态价值函数=奖励函数+后一个状态的状态价值函数*状态转移概率*折扣因子
2.2动作价值函数贝尔曼方程:
前一个状态的动作价值函数=奖励函数R(s,a)+后一个状态的动作价值函数*状态转移概率*状态s'下选择动作a'的概率π(a',s')*折扣因子
3.策略迭代:
策略迭代分为2步:策略估计和策略改进
先根据策略π估计对应的状态价值函数V,再结合策略π推算出动作价值函数Q,并对Q函数优化,通常使用贪婪策略,取能收获最大收益的Q值来优化,再进行新一轮迭代,一轮一轮迭代,最后达到最佳策略和最优状态和动作价值函数
4.价值迭代:
直接通过公式来更新
先将所有的状态价值初始化,然后不停地对每个状态迭代,直到收敛到最优价值,并且根据最优价值推算出最优策略
通过借助策略,策略迭代跳过了价值迭代所要经过的所有点,所以策略迭代要比价值迭代要快