强化学习笔记：Sutton-Book第三章小结

笨牛慢耕

已于 2022-03-16 07:07:05 修改

阅读量646

点赞数 2

分类专栏：强化学习文章标签：强化学习马尔科夫决策过程贝尔曼方程价值函数回报

于 2022-02-23 17:56:11 首次发布

本文链接：https://blog.csdn.net/chenxy_bwave/article/details/123091810

版权

强化学习专栏收录该内容

27 篇文章

订阅专栏

本文详细介绍了强化学习中的agent-environment接口、马尔科夫决策过程(MDP)、回报概念、价值函数与贝尔曼方程，探讨了最优策略的求解方法。涵盖了状态价值、动作价值、贝尔曼最优方程等内容，适合深入理解强化学习理论。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 强化学习的agent-environment接口模型

2. 马尔科夫决策过程 MDP：Markov Decision Process

1. 强化学习的agent-environment接口模型

强化学习是从交互(interaction)中学习如何达成某个目的。

智能体agent和环境environment以时间离散的方式进行交互，每次交互称为1个time step。agent-environment接口包含以下几个要素：

行动，action：在每个time-step，agent选择某个行动（施加于环境）
状态，state：环境的状态，agent进行行动选择的依据
奖励，reward：环境针对action以及由action所导致的状态变化而给与智能体的即时反馈

智能体内部状态都是已知且可控，而环境的状态则不完全可控，也可能不完全可知。智能体与环境之间的分界线依赖于任务特征。

策略（policy）是一种随机性规则，智能体基于环境的状态并根据策略进行行动选择。

智能体的目标是获得长期回报的最大化（instead of instantaneous reward!）.

2. 马尔科夫决策过程 MDP：Markov Decision Process

以上所描述的强化学习问题，假定满足马尔科夫性，用良好定义的（well-defines）转移概率来描述的话，构成马尔科夫决策过程。具有有限的状态、行动和奖励集合的马尔科夫决策过程称为有限马尔科夫决策过程(finite MDP)。当前的强化学习理论大多限定于有限马尔科夫决策过程，但是其中的方法和思想则具有更广泛的通用性。

3. 回报 return

回报是关于所有未来的奖励的函数，是智能体寻求最大化的对象。基于任务是回合制还是连续性的，以及是否采用折扣(discounted)计算等，回报具有几种不同的定义。

无折扣计算方法适用于回合制任务（episodic tasks）。在回合制任务，智能体与环境的交互自然地地分隔成一个个相互（相对）独立的时间区间，称为回合，比如说智能体学习下围棋。而折扣计算方法则适用于连续性任务(continuing tasks)，智能体与环境的交互一直连续地持续下去直到永远。当然，回合制任务也可以采用折扣计算方法。但通常连续性任务不会采用无折扣计算方法。

定义一套方程同时适用于回合制任务和连续性任务是很有意义的事情（科学家对‘统一’有一种天然的嗜好^-^）。

4. 价值函数及贝尔曼方程

一种策略的价值函数是关于一个状态的预期回报（expected return from that state）或者关于一个状态-动作对的预期回报（expected return from that state-action pair），分别记为 $gif.latex?v_%7B%5Cpi%7D%28s%29%2C%5C%20q_%7B%5Cpi%7D%28s%2Ca%29$ ，前者称为状态价值函数，后者称为动作价值函数。

最优价值函数则是指在任何可能的策略下所能获得的最大的价值，即 $gif.latex?%5Cbegin%7Balign%7D%20v_*%28s%29%26%3D%5Cmax%5Climits_%7B%5Cpi%7Dv_%7B%5Cpi%7D%28s%29%20%5C%5C%20q_*%28s%2Ca%29%26%3D%5Cmax%5Climits_%7B%5Cpi%7Dq_%7B%5Cpi%7D%28s%2Ca%29%20%5Cend%7Balign%7D$

对应最优价值函数的策略称为最优策略。

对于给定的MDP问题，对于给定状态或状态-动作对的最优价值函数是唯一的，但是最优策略通常并不具有唯一性。好比说，全班同学的身高最大值一定是唯一的，但是身高等于这个最大值的同学可能有多个。

状态价值函数和动作价值函数可以相互表达。从备份图（backup diagram）出发可以很方便地构造出两者相互表达的关系。从两者相互表达的方程出发，通过消元法可以得到各自的递归关系方程，称为贝尔曼方程。

从贝尔曼方程出发，考虑价值函数的最优性可以得到贝尔曼最优方程。贝尔曼最优方程定义了最优价值函数必须满足的特殊的一致性条件。理论上可以通过求解贝尔曼最优方程得到最优价值函数，并进而得到最优策略。

5. 其它

强化学习问题的定义取决于智能体是否掌握完全的关于环境的知识。

如果环境是一个MDP，该模型的动力学机制完全由p(s,s',a,r)决定。智能体没有关于环境的完全的知识，意味着没有关于环境的完备(complete and perfect)的模型。

即便智能体拥有关于环境的完备而精确的模型，由于计算资源的局限，智能体通常也难以充分利用它，尤其是通常现实问题都具有太多的状态。绝大部分情况下都必须只能退而求其次追求近似解。

6. 主要公式

MDP动力学函数

$gif.latex?p%28s%27%2Cr%7Cs%2Ca%29%20%5Cdoteq%20Pr%5C%7BS_t%3Ds%27%2CR_t%3Dr%7CS_%7Bt-1%7D%3Ds%2CA_%7Bt-1%7D%3Da%5C%7D$

$gif.latex?%5Csum%5Climits_%7Bs%27%5Cin%20%5Cmathcal%7BS%7D%7D%5Csum%5Climits_%7Br%5Cin%20%5Cmathcal%7BR%7D%7Dp%28s%27%2Cr%7Cs%2Ca%29%3D1%2C%5C%20%5Cforall%20s%5Cin%20%5Cmathcal%7BS%7D%2C%5C%20a%5Cin%20%5Cmathcal%7BA%7D%28s%29$

$gif.latex?p%28s%27%7Cs%2Ca%29%5Cdoteq%20Pr%5C%7BS_t%3Ds%27%7CS_%7Bt-1%7D%3Ds%2C%5C%20A_%7Bt-1%7D%3Da%5C%7D%3D%5Csum%5Climits_%7Br%5Cin%20%5Cmathcal%7BR%7D%7Dp%28s%27%2Cr%7Cs%2Ca%29$

$gif.latex?r%28s%2Ca%29%5Cdoteq%20%5Cmathbb%7BE%7D%5BR_t%7CS_%7Bt-1%7D%2C%5C%20A_%7Bt-1%7D%3Da%5D%3D%5Csum%5Climits_%7Br%5Cin%20%5Cmathcal%7BR%7D%7Dr%20%5Csum%5Climits_%7Bs%27%5Cin%20%5Cmathcal%7BS%7D%7Dp%28s%27%2Cr%7Cs%2Ca%29$

$gif.latex?r%28s%2Ca%2Cs%27%29%5Cdoteq%20%5Cmathbb%7BE%7D%5BR_t%7CS_%7Bt-1%7D%2C%5C%20A_%7Bt-1%7D%3Da%2CS_t%3Ds%27%5D%3D%5Csum%5Climits_%7Br%5Cin%20%5Cmathcal%7BR%7D%7Dr%20%5Cfrac%7Bp%28s%27%2Cr%7Cs%2Ca%29%7D%7Bp%28s%27%7Cs%2Ca%29%7D$

回报

$gif.latex?G_t%20%5Cdoteq%20R_%7Bt+1%7D+R_%7Bt+2%7D+R_%7Bt+3%7D+%5Ccdots+R_T$

$gif.latex?G_t%20%5Cdoteq%20R_%7Bt+1%7D+%5Cgamma%20R_%7Bt+2%7D+%5Cgamma%5E2%20R_%7Bt+3%7D+%5Ccdots%20%3D%20%5Csum%5Climits_%7B0%7D%5Climits%5E%7B%5Cinfty%7D%5Cgamma%5Ek%20R_%7Bt+k+1%7D%2C%20%5Cquad%200%20%5Cleq%20%5Cgamma%20%5Cleq%201$

$gif.latex?G_t%20%3D%20R_%7Bt+1%7D%20+%20%5Cgamma%20G_%7Bt+1%7D$

$gif.latex?G_t%20%5Cdoteq%20%5Csum%5Climits_%7Bk%3Dt+1%7D%5Climits%5E%7B%5Cinfty%7D%5Cgamma%5E%7Bk-t-1%7DR_k%2C%5C%5C%20T%3D%5Cinfty%28%20continuous%20%5C%20tasks%29%20%5C%20or%5C%20%5Cgamma%3D1%28episodic%5C%20taks%29%2C%20but%5C%20not%5C%20both$

价值函数

$gif.latex?v_%7B%5Cpi%7D%28s%29%5Cdoteq%20%5Cmathbb%7BE%7D_%7B%5Cpi%7D%5BG_t%7CS_t%3Ds%5D%3D%5Cmathbb%7BE%7D_%7B%5Cpi%7D%5Cbigg%5B%5Csum%5Climits_%7Bk%3D0%7D%5Climits%5E%7B%5Cinfty%7D%5Cgamma%5Ek%20R_%7Bt+k+1%7D%7CS_t%3Ds%5Cbigg%5D%2C%20%5C%20%5Cforall%20s%5Cin%20%5Cmathcal%28S%29$

$gif.latex?q_%7B%5Cpi%7D%28s%2Ca%29%5Cdoteq%20%5Cmathbb%7BE%7D_%7B%5Cpi%7D%5BG_t%7CS_t%3Ds%2CA_t%3Da%5D%20%5C%5C%3D%5Cmathbb%7BE%7D_%7B%5Cpi%7D%5Cbigg%5B%5Csum%5Climits_%7Bk%3D0%7D%5Climits%5E%7B%5Cinfty%7D%5Cgamma%5Ek%20R_%7Bt+k+1%7D%7CS_t%3Ds%2CA_t%3Da%5Cbigg%5D%2C%20%5C%20%5Cforall%20s%5Cin%20%5Cmathcal%28S%29%2C%20a%5Cin%20%5Cmathcal%7BA%7D%28s%29$

贝尔曼方程

$gif.latex?v_%7B%5Cpi%7D%28s%29%3D%5Csum%5Climits_%7Ba%7D%5Cpi%28a%7Cs%29%5Csum%5Climits_%7Bs%27%2Cr%7Dp%28s%27%2Cr%7Cs%2Ca%29%5Cbigg%5Br+%5Cgamma%20v_%7B%5Cpi%7D%28s%27%29%5Cbigg%5D%2C%20%5Cquad%20%5Cforall%20x%5Cin%20%5Cmathcal%28S%29$

$gif.latex?q_%7B%5Cpi%7D%28s%2Ca%29%3D%5Csum%5Climits_%7Br%2Cs%27%7Dp%28r%2Cs%27%7Cs%2Ca%29%5Cbig%28r%20+%20%5Cgamma%20%5Csum%5Climits_%7Ba%27%7D%5Cpi%28a%27%7Cs%27%29q_%7B%5Cpi%7D%28s%27%2Ca%27%29%5Cbig%29$

贝尔曼最优方程

$gif.latex?v_*%28s%29%3D%5Cmax%5Climits_%7Ba%7D%5Csum%5Climits_%7Bs%27%2Cr%7Dp%28s%27%2Cr%7Cs%2Ca%29%5Cbig%5Br%20+%20%5Cgamma%20v_*%28s%27%29%5Cbig%5D$

$gif.latex?q_*%28s%2Ca%29%3D%5Csum%5Climits_%7Bs%27%2Cr%7Dp%28s%27%2Cr%7Cs%2Ca%29%5Cbigg%5Br+%5Cgamma%20%5Cmax%5Climits_%7Ba%27%7Dq_*%28s%27%2Ca%27%29%5Cbigg%5D$