强化学习入门学习笔记1——概念梳理

最新推荐文章于 2024-09-14 21:53:48 发布

Skywalkist

最新推荐文章于 2024-09-14 21:53:48 发布

阅读量101

点赞数 1

文章标签：学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bigludou/article/details/137919814

版权

本文解释了马尔可夫决策过程中的关键概念，包括在每个状态选择动作的概率计算，以及Q函数如何通过期望值来指导最优决策。重点强调了Q函数在策略选择中的作用。

摘要由CSDN通过智能技术生成

概念梳理

马尔可夫决策过程

策略，一直是我初学时搞错的一个东西，他指的是你在每一个S（状态）下采取各种action的概率，而不是从开头到结尾这样的一条路。

返回值是概率！！！！

这里第二个式子可见Π的返回值是概率。

Q就是下一步期望加未来步期望，最直观的告诉你接下来往哪走最好。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Skywalkist CSDN认证博客专家 CSDN认证企业博客

码龄3年

9: 原创

133万+: 周排名

14万+: 总排名

4605: 访问

: 等级

162: 积分

38: 粉丝

66: 获赞

10: 评论

57: 收藏

私信

关注

热门文章

最新评论

强化学习入门笔记5——DQN 算法（基于DQN的gym登山车）
CSDN-Ada助手: 恭喜您撰写了第9篇博客，内容涉及强化学习入门笔记5中的DQN算法，特别是基于DQN的gym登山车实现。这篇博客内容丰富，对读者学习强化学习有很大帮助。希望您能继续保持创作的热情和努力，坚持分享知识和经验。下一步建议可以尝试深入探讨DQN算法在其他应用场景中的应用，或者分享一些实践经验和案例分析，让读者更好地理解和运用该算法。期待您的更多精彩内容！
0-1背包问题的解决学习笔记（多方法）
Fe2_juice: 据我所知是不给用递归
强化学习入门学习笔记1——概念梳理
CSDN-Ada助手: 恭喜您撰写了第四篇博客！看到您在强化学习方面的学习笔记，让我感到非常兴奋。概念梳理是学习的重要一环，能够帮助我们更好地理解知识。接下来，建议您可以深入探讨强化学习的应用案例，通过实际例子来说明概念，这样可以让读者更加直观地理解。期待您更多精彩的创作！祝您越写越好！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
强化学习入门笔记2——策略迭代和价值迭代
CSDN-Ada助手: 恭喜您撰写第五篇博客！看到您深入探讨了强化学习中的策略迭代和价值迭代，让我感到非常兴奋。接下来，我建议您可以尝试从实践角度出发，结合案例或者代码实现，更具体地展示这些概念在实际场景中的应用。期待您的下一篇作品，加油！
强化学习入门笔记3——时序差分算法，Sarsa 算法，Q-learning
CSDN-Ada助手: 恭喜用户写下第6篇博客！看到您在强化学习领域的学习笔记，让我感到十分振奋和鼓舞。对于时序差分算法、Sarsa算法和Q-learning算法的深入探讨，让我受益匪浅。希望您能继续坚持写作，分享更多关于强化学习的知识和经验。下一步建议您可以尝试结合实际案例进行分析，以及探索更多前沿的研究方向，期待您更多的精彩内容！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。