深入浅出强化学习_强化学习(三)--值函数和贝尔曼方程

最新推荐文章于 2024-03-20 11:31:07 发布

weixin_39822493

最新推荐文章于 2024-03-20 11:31:07 发布

阅读量760

点赞数

文章标签：深入浅出强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39822493/article/details/111382554

版权

1.策略

强化学习的目标是给定一个马尔可夫决策过程，寻找最优策略。所谓策略，是指状态到动作的映射，也就是策略在每个状态指定一个动作概率，策略常用符号π表示，即

当给定策略π时，假设从

状态出发，状态序列有多个可能值：

... ...

此时，状态C1下的累积奖赏有多个可能值，我们需要一个确定的量来描述C1状态的价值，但累积奖赏不是一个确定的值，所以无法描述，但期望是一个确定的值，可以作为状态值函数的定义。

注：期望是每次可能的结果的概率乘以其结果的总和。

2.状态值函数

当Agent采用策略π时，累计回报服从一个分布，累计回报在状态

处的期望值定义为状态值函数。

公式：

相应地，状态-行为值函数公式：

以上是状态值函数和状态-行为值函数的定义式，但在实际编程中不能按照定义式来编程，所以需要对应的贝尔曼方程。

3.贝尔曼方程

Bellman方程：与当前状态的价值、下一步的价值、当前reward有关。

价值函数分解为当前reward和下一步reward。

状态值函数的贝尔曼方程：

状态-行为值函数的贝尔曼方程：

4.最优值函数

计算状态值函数的目的是为了构建学习算法从数据中得到最优策略。每个策略对应着一个状态值函数，最优策略自然对应着最优状态值函数。

最优状态值函数：

最优状态-行为值函数：

最优状态值函数的贝尔曼方程：

最优状态-行为值函数的贝尔曼方程：

若已知最优状态-行为值函数，最优策略可通过直接最大化

来决定。

此篇笔记参考了郭宪和方勇纯老师的《深入浅出强化学习：原理入门》“马尔科夫决策过程理论讲解”部分，这本书对强化学习理论的介绍很透彻。在听David Silver英文课程和Richard S. Sutton有疑惑的时候，这本书真的很友好~~

weixin_39822493

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
深入浅出强化学习_强化学习(三)--值函数和贝尔曼方程

1.策略强化学习的目标是给定一个马尔可夫决策过程，寻找最优策略。所谓策略，是指状态到动作的映射，也就是策略在每个状态指定一个动作概率，策略常用符号π表示，即当给定策略π时，假设从状态出发，状态序列有多个可能值： ... ...此时，状态C1下的累积奖赏有多个可能值，我们需要一个确定的量来描述C1状态的价值，但累积奖赏不是一个确定的值，所以无法描述，但期望是一个确定的值，可以...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。