强化学习笔记:Sutton-Book第三章小结

本文详细介绍了强化学习中的agent-environment接口、马尔科夫决策过程(MDP)、回报概念、价值函数与贝尔曼方程,探讨了最优策略的求解方法。涵盖了状态价值、动作价值、贝尔曼最优方程等内容,适合深入理解强化学习理论。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

1. 强化学习的agent-environment接口模型

2. 马尔科夫决策过程 MDP:Markov Decision Process

3. 回报 return

4. 价值函数及贝尔曼方程

5. 其它

6. 主要公式

MDP动力学函数

回报

价值函数

 贝尔曼方程

贝尔曼最优方程


 

1. 强化学习的agent-environment接口模型

        强化学习是从交互(interaction)中学习如何达成某个目的。

        智能体agent和环境environment以时间离散的方式进行交互,每次交互称为1个time step。agent-environment接口包含以下几个要素:

  1. 行动,action: 在每个time-step,agent选择某个行动(施加于环境)
  2. 状态,state: 环境的状态,agent进行行动选择的依据
  3. 奖励,reward:环境针对action以及由action所导致的状态变化而给与智能体的即时反馈

        智能体内部状态都是已知且可控,而环境的状态则不完全可控,也可能不完全可知。智能体与环境之间的分界线依赖于任务特征。

策略(policy)是一种随机性规则,智能体基于环境的状态并根据策略进行行动选择。

智能体的目标是获得长期回报的最大化(instead of instantaneous reward!).

 

2. 马尔科夫决策过程 MDP:Markov Decision Process

        以上所描述的强化学习问题,假定满足马尔科夫性,用良好定义的(well-defines)转移概率来描述的话,构成马尔科夫决策过程。具有有限的状态、行动和奖励集合的马尔科夫决策过程称为有限马尔科夫决策过程(finite MDP)。当前的强化学习理论大多限定于有限马尔科夫决策过程,但是其中的方法和思想则具有更广泛的通用性。

3. 回报 return

        回报是关于所有未来的奖励的函数,是智能体寻求最大化的对象。基于任务是回合制还是连续性的,以及是否采用折扣(discounted)计算等,回报具有几种不同的定义。

        无折扣计算方法适用于回合制任务(episodic tasks)。在回合制任务,智能体与环境的交互自然地地分隔成一个个相互(相对)独立的时间区间,称为回合,比如说智能体学习下围棋。而折扣计算方法则适用于连续性任务(continuing tasks),智能体与环境的交互一直连续地持续下去直到永远。当然,回合制任务也可以采用折扣计算方法。但通常连续性任务不会采用无折扣计算方法。

        定义一套方程同时适用于回合制任务和连续性任务是很有意义的事情(科学家对‘统一’有一种天然的嗜好^-^)。

 

4. 价值函数及贝尔曼方程

        一种策略的价值函数是关于一个状态的预期回报(expected return from that state)或者关于一个状态-动作对的预期回报(expected return from that state-action pair),分别记为gif.latex?v_%7B%5Cpi%7D%28s%29%2C%5C%20q_%7B%5Cpi%7D%28s%2Ca%29,前者称为状态价值函数,后者称为动作价值函数。

        最优价值函数则是指在任何可能的策略下所能获得的最大的价值,即                                                  ​​​​​​​        ​​​​​​​        gif.latex?%5Cbegin%7Balign%7D%20v_*%28s%29%26%3D%5Cmax%5Climits_%7B%5Cpi%7Dv_%7B%5Cpi%7D%28s%29%20%5C%5C%20q_*%28s%2Ca%29%26%3D%5Cmax%5Climits_%7B%5Cpi%7Dq_%7B%5Cpi%7D%28s%2Ca%29%20%5Cend%7Balign%7D

        对应最优价值函数的策略称为最优策略。

        对于给定的MDP问题,对于给定状态或状态-动作对的最优价值函数是唯一的,但是最优策略通常并不具有唯一性。好比说,全班同学的身高最大值一定是唯一的,但是身高等于这个最大值的同学可能有多个。

        状态价值函数和动作价值函数可以相互表达。从备份图(backup diagram)出发可以很方便地构造出两者相互表达的关系。从两者相互表达的方程出发,通过消元法可以得到各自的递归关系方程,称为贝尔曼方程。

        从贝尔曼方程出发,考虑价值函数的最优性可以得到贝尔曼最优方程。贝尔曼最优方程定义了最优价值函数必须满足的特殊的一致性条件。理论上可以通过求解贝尔曼最优方程得到最优价值函数,并进而得到最优策略。        

5. 其它

        强化学习问题的定义取决于智能体是否掌握完全的关于环境的知识。

        如果环境是一个MDP,该模型的动力学机制完全由p(s,s',a,r)决定。智能体没有关于环境的完全的知识,意味着没有关于环境的完备(complete and perfect)的模型。

        即便智能体拥有关于环境的完备而精确的模型,由于计算资源的局限,智能体通常也难以充分利用它,尤其是通常现实问题都具有太多的状态。绝大部分情况下都必须只能退而求其次追求近似解。

 

6. 主要公式

 

MDP动力学函数

gif.latex?p%28s%27%2Cr%7Cs%2Ca%29%20%5Cdoteq%20Pr%5C%7BS_t%3Ds%27%2CR_t%3Dr%7CS_%7Bt-1%7D%3Ds%2CA_%7Bt-1%7D%3Da%5C%7D

gif.latex?%5Csum%5Climits_%7Bs%27%5Cin%20%5Cmathcal%7BS%7D%7D%5Csum%5Climits_%7Br%5Cin%20%5Cmathcal%7BR%7D%7Dp%28s%27%2Cr%7Cs%2Ca%29%3D1%2C%5C%20%5Cforall%20s%5Cin%20%5Cmathcal%7BS%7D%2C%5C%20a%5Cin%20%5Cmathcal%7BA%7D%28s%29

gif.latex?p%28s%27%7Cs%2Ca%29%5Cdoteq%20Pr%5C%7BS_t%3Ds%27%7CS_%7Bt-1%7D%3Ds%2C%5C%20A_%7Bt-1%7D%3Da%5C%7D%3D%5Csum%5Climits_%7Br%5Cin%20%5Cmathcal%7BR%7D%7Dp%28s%27%2Cr%7Cs%2Ca%29

gif.latex?r%28s%2Ca%29%5Cdoteq%20%5Cmathbb%7BE%7D%5BR_t%7CS_%7Bt-1%7D%2C%5C%20A_%7Bt-1%7D%3Da%5D%3D%5Csum%5Climits_%7Br%5Cin%20%5Cmathcal%7BR%7D%7Dr%20%5Csum%5Climits_%7Bs%27%5Cin%20%5Cmathcal%7BS%7D%7Dp%28s%27%2Cr%7Cs%2Ca%29

 gif.latex?r%28s%2Ca%2Cs%27%29%5Cdoteq%20%5Cmathbb%7BE%7D%5BR_t%7CS_%7Bt-1%7D%2C%5C%20A_%7Bt-1%7D%3Da%2CS_t%3Ds%27%5D%3D%5Csum%5Climits_%7Br%5Cin%20%5Cmathcal%7BR%7D%7Dr%20%5Cfrac%7Bp%28s%27%2Cr%7Cs%2Ca%29%7D%7Bp%28s%27%7Cs%2Ca%29%7D

回报

 gif.latex?G_t%20%5Cdoteq%20R_%7Bt+1%7D+R_%7Bt+2%7D+R_%7Bt+3%7D+%5Ccdots+R_T

gif.latex?G_t%20%5Cdoteq%20R_%7Bt+1%7D+%5Cgamma%20R_%7Bt+2%7D+%5Cgamma%5E2%20R_%7Bt+3%7D+%5Ccdots%20%3D%20%5Csum%5Climits_%7B0%7D%5Climits%5E%7B%5Cinfty%7D%5Cgamma%5Ek%20R_%7Bt+k+1%7D%2C%20%5Cquad%200%20%5Cleq%20%5Cgamma%20%5Cleq%201

gif.latex?G_t%20%3D%20R_%7Bt+1%7D%20+%20%5Cgamma%20G_%7Bt+1%7D

gif.latex?G_t%20%5Cdoteq%20%5Csum%5Climits_%7Bk%3Dt+1%7D%5Climits%5E%7B%5Cinfty%7D%5Cgamma%5E%7Bk-t-1%7DR_k%2C%5C%5C%20T%3D%5Cinfty%28%20continuous%20%5C%20tasks%29%20%5C%20or%5C%20%5Cgamma%3D1%28episodic%5C%20taks%29%2C%20but%5C%20not%5C%20both

价值函数

gif.latex?v_%7B%5Cpi%7D%28s%29%5Cdoteq%20%5Cmathbb%7BE%7D_%7B%5Cpi%7D%5BG_t%7CS_t%3Ds%5D%3D%5Cmathbb%7BE%7D_%7B%5Cpi%7D%5Cbigg%5B%5Csum%5Climits_%7Bk%3D0%7D%5Climits%5E%7B%5Cinfty%7D%5Cgamma%5Ek%20R_%7Bt+k+1%7D%7CS_t%3Ds%5Cbigg%5D%2C%20%5C%20%5Cforall%20s%5Cin%20%5Cmathcal%28S%29

 gif.latex?q_%7B%5Cpi%7D%28s%2Ca%29%5Cdoteq%20%5Cmathbb%7BE%7D_%7B%5Cpi%7D%5BG_t%7CS_t%3Ds%2CA_t%3Da%5D%20%5C%5C%3D%5Cmathbb%7BE%7D_%7B%5Cpi%7D%5Cbigg%5B%5Csum%5Climits_%7Bk%3D0%7D%5Climits%5E%7B%5Cinfty%7D%5Cgamma%5Ek%20R_%7Bt+k+1%7D%7CS_t%3Ds%2CA_t%3Da%5Cbigg%5D%2C%20%5C%20%5Cforall%20s%5Cin%20%5Cmathcal%28S%29%2C%20a%5Cin%20%5Cmathcal%7BA%7D%28s%29

 贝尔曼方程

gif.latex?v_%7B%5Cpi%7D%28s%29%3D%5Csum%5Climits_%7Ba%7D%5Cpi%28a%7Cs%29%5Csum%5Climits_%7Bs%27%2Cr%7Dp%28s%27%2Cr%7Cs%2Ca%29%5Cbigg%5Br+%5Cgamma%20v_%7B%5Cpi%7D%28s%27%29%5Cbigg%5D%2C%20%5Cquad%20%5Cforall%20x%5Cin%20%5Cmathcal%28S%29

gif.latex?q_%7B%5Cpi%7D%28s%2Ca%29%3D%5Csum%5Climits_%7Br%2Cs%27%7Dp%28r%2Cs%27%7Cs%2Ca%29%5Cbig%28r%20+%20%5Cgamma%20%5Csum%5Climits_%7Ba%27%7D%5Cpi%28a%27%7Cs%27%29q_%7B%5Cpi%7D%28s%27%2Ca%27%29%5Cbig%29

贝尔曼最优方程

 gif.latex?v_*%28s%29%3D%5Cmax%5Climits_%7Ba%7D%5Csum%5Climits_%7Bs%27%2Cr%7Dp%28s%27%2Cr%7Cs%2Ca%29%5Cbig%5Br%20+%20%5Cgamma%20v_*%28s%27%29%5Cbig%5D

gif.latex?q_*%28s%2Ca%29%3D%5Csum%5Climits_%7Bs%27%2Cr%7Dp%28s%27%2Cr%7Cs%2Ca%29%5Cbigg%5Br+%5Cgamma%20%5Cmax%5Climits_%7Ba%27%7Dq_*%28s%27%2Ca%27%29%5Cbigg%5D

 

回到本笔记系列总目录:强化学习笔记总目录https://chenxiaoyuan.blog.csdn.net/article/details/121715424​​​​​​​

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

笨牛慢耕

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值