深入浅出强化学习_强化学习(三)--值函数和贝尔曼方程

ec3f24264afc5fc257251acf5b3ead59.png

1.策略

强化学习的目标是给定一个马尔可夫决策过程,寻找最优策略。所谓策略,是指状态到动作的映射,也就是策略在每个状态指定一个动作概率,策略常用符号π表示,即

当给定策略π时,假设从

状态出发,状态序列有多个可能值:

... ...

此时,状态C1下的累积奖赏有多个可能值,我们需要一个确定的量来描述C1状态的价值,但累积奖赏不是一个确定的值,所以无法描述,但期望是一个确定的值,可以作为状态值函数的定义。

注:期望是每次可能的结果的概率乘以其结果的总和。

2.状态值函数

当Agent采用策略π时,累计回报服从一个分布,累计回报在状态

处的期望值定义为状态值函数。

公式:

相应地,状态-行为值函数公式:

以上是状态值函数和状态-行为值函数的定义式,但在实际编程中不能按照定义式来编程,所以需要对应的贝尔曼方程。

3.贝尔曼方程

Bellman方程:与当前状态的价值、下一步的价值、当前reward有关。

价值函数分解为当前reward和下一步reward。

状态值函数的贝尔曼方程:

状态-行为值函数的贝尔曼方程:

4.最优值函数

计算状态值函数的目的是为了构建学习算法从数据中得到最优策略。每个策略对应着一个状态值函数,最优策略自然对应着最优状态值函数。

最优状态值函数:

最优状态-行为值函数:

最优状态值函数的贝尔曼方程:

最优状态-行为值函数的贝尔曼方程:

若已知最优状态-行为值函数,最优策略可通过直接最大化

来决定。

此篇笔记参考了郭宪和方勇纯老师的《深入浅出强化学习:原理入门》“马尔科夫决策过程理论讲解”部分,这本书对强化学习理论的介绍很透彻。在听David Silver英文课程和Richard S. Sutton有疑惑的时候,这本书真的很友好~~

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值