马尔可夫决策过程通过对智能体与环境的交互过程进行建模,从而达到求解最优策略的问题。
1、马尔可夫性质:
2、满足马尔可夫性质的状态序列,通过状态转移矩阵来表示状态之间的变化:
状态转移函数:
状态转移矩阵:
3、通过定义状态价值函数,来评估:从当前状态开始,之后可能获得的价值量
折扣回报(discounted return):
折扣的作用只是为了对未来的回报进行加权,来增加现有奖励的影响。
在有模型的强化学习问题中,马尔可夫决策过程满足最优子结构和重叠子问题,因此可以使用动态规划算法来精简模型的求解。在无模型的强化学习算法中,智能体与环境交互过程在完成之前,回报始终是一个未知的量,通过蒙特卡洛算法来计算随机抽样后的回报期望,来解决回报未知的问题。
因此我们需要定义状态价值函数,即当前状态对于后续回报的期望:
4、通过贝尔曼方程的数学推导,来给状态价值函数的迭代计算提供数学基础:
对于 时刻的状态
,智能体从动作集合
中采取一个动作
。
智能体通过决定一个策略来从这个集合中选择出一个动作,因此可以用一个概率的形式来表示智能体的策略:
因此在状态 和动作
发生后,根据一定概率使得状态变为
,满足下述公式:
在 时刻到达状态
后,智能体通过策略
来选择动作
,后续的回报期望由于动作
的引入而发生了变化,因此比照状态价值函数来定义动作价值函数:
状态价值函数是对动作集合 中每个动作及后续的动作价值函数的总和:
5、根据回报的递归形式来推导状态价值函数的递归形式:
根据折扣回报的定义,我们有:
因此对应的状态价值函数,我们有:
其中 为
状态下的即时奖励:
根据状态转移函数的定义,我们有:
因此可以得到状态价值函数的递归形式:
6、根据回报的递归形式来推导动作价值函数的递归形式:
同样的,我们对动作价值函数有如下推导:
等式的最后一步,在 时刻,状态为
,智能体根据策略
来做出动作
,对于
时刻的回报函数求期望,相当于对
时刻的状态集合的每个状态
的状态价值函数求和。
因此我们可以得到:
7、结合状态价值函数及动作价值函数之间的关系公式,我们可以得到贝尔曼期望方程:
根据第4步中的结论:
以及第6步中的结论:
将两式结合,可以得到状态价值函数及动作价值函数在状态 和动作
的情况下的最终迭代形式:
注:本文参考《蘑菇书EasyRL》第二章内容