强化学习 | 课堂笔记 | 第二课 DPP/近似DPP/Q函数

最新推荐文章于 2024-06-15 23:36:03 发布

Charlie_1541

最新推荐文章于 2024-06-15 23:36:03 发布

阅读量295

点赞数

分类专栏：强化学习文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_46219381/article/details/129242427

版权

一、动态规划原理

1.1 马尔科夫性

马尔科夫性是可以用动态规划的前提，即：

1.2 贝尔曼最优性原理

这里假设π是固定动作，且奖励和状态转移没有随机性。

蘑菇书EasyRL中的公式(2.3.12价值迭代)在此基础上增加了状态转移的随机性，其他并无变化，见☆☆式

1.2.1 remark

第二条，固定π时的方程即为贝尔曼方程

二、随机结构

引入不确定性：Pr(r|St,At)和Ps(s|St,At)以及π(a|s)，此时贝尔曼方程发生了变化&#

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习 | 课堂笔记 | 第二课 DPP/近似DPP/Q函数

Q：贝尔曼方程和贝尔曼最优方程都可以用迭代的方法求解。解贝尔曼方程是为了评估一个给定的策略，评估完之后可以去优化这个策略，这是策略迭代的方法。解贝尔曼最优方程是为了找到一个最优的价值函数，进而找到最优的策略，是价值迭代的方法。总之，策略迭代使用贝尔曼方程，价值迭代使用贝尔曼最优方程。压缩映像原理：x=J(x)存在唯一不动点的充分条件是：||J(x)-J(y)||≤λ||x-y||, λ
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。