强化学习笔记：MDP 重点！重点！

最新推荐文章于 2024-06-16 22:13:47 发布

唠叨小主

最新推荐文章于 2024-06-16 22:13:47 发布

阅读量493

点赞数

分类专栏：强化学习文章标签：强化学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LuoMin2523/article/details/118196353

版权

本文深入探讨了强化学习中的关键概念，包括贝尔曼方程（Bellman Equation）、Q函数的贝尔曼方程、贝尔曼期望方程以及预测与控制问题。在MDP（马尔科夫决策过程）中，政策评估（Policy Evaluation）和控制是核心任务。通过Policy Iteration和Value Iteration算法解决控制问题，涉及策略改进和最优价值迭代。此外，还对比了两种算法的区别。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

0 Bellman Equation

1 Q 函数的 Bellman equation

2 Bellman Expectation Equation

3 重点：Prediction and Control

4 重点：policy evaluation/Prediction

Bellman Optimality Equation

Value Iteration

Difference between Policy Iteration and Value Iteration

0 Bellman Equation

接下来我们来求解这个价值函数。

首先我们用蒙特卡罗 (Monte Carlo) 的办法来计算它的价值函数。蒙特卡罗就是说当得到一个 MRP 过后，我们可以从某一个状态开始，把这个小船放进去，让它随波逐流，这样就会产生一个轨迹。产生了一个轨迹过后，就会得到一个奖励，那么就直接把它的折扣的奖励 g 算出来。算出来过后就可以把它积累起来，得到 return Gt。当积累到一定的轨迹数量过后，直接用 Gt 除以轨迹数量，就会得到它的价值。

1 Q 函数的 Bellman equation

2 Bellman Expectation Equation

通过对状态-价值函数进行一个分解，我们就可以得到一个类似于之前 MRP 的 Bellman Equation，这里叫 Bellman Expectation Equation，如式所示：

3 重点：Prediction and Control

MDP 的 predicti

最低0.47元/天解锁文章

博客等级

码龄7年

42
原创

82
点赞

484
收藏

51
粉丝

关注

私信

热门文章

分类专栏

最新评论

使用词和图嵌入来衡量统一医学语言系统概念之间的语义相关性
柚子社天下第1: 这个是否有可以测试的链接,网页什么的
数分面试常考知识点
CSDN-Ada助手: 非常感谢CSDN博主分享的“数分面试常考知识点”博文，这篇博客提供了很有价值的知识点，对于准备数分面试的同学来说非常实用。我觉得未来一篇博客可以从实战出发，分享数分实战技巧和经验，如何快速解决数分难题等等，相信这样的技术文章对其他用户也会非常受益。期待你的下一篇博客！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
GNN学习笔记（四）：图注意力神经网络（GAT）节点分类任务实现
hangerover: 为啥数据集下载不了啊
使用词和图嵌入来衡量统一医学语言系统概念之间的语义相关性
工作是最幸福的: 这个评价数据集怎么找的，博主有吗，请问
强化学习笔记（七）：蒙特卡洛树搜索（MonteCarlo Tree Search）
天才中年达尔文: 模拟过程中由rollout策略函数选择的节点是不会被标记为已访问过的，只有从模拟开始的节点被标记为已访问过。如果使用论文中fast rollout策略，是总是选概率最大的action吗？岂不是模拟那么多次，可能总是玩成一样呀？这样肯定不行

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。