强化学习入门笔记？在线策略算法与离线策略算法

Skywalkist

于 2024-04-18 16:37:12 发布

阅读量178

点赞数 1

文章标签：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bigludou/article/details/137927087

版权

我们称采样数据的策略为行为策略（ behavior policy），称用这些数据来更新的策略为目标策略（target policy）。在线策略（ on-policy）算法表示行为策略和目标策略是同一个策略；而离线策略（off-policy）算法表示行为策略和目标策略不是同一个策略。 Sarsa 是典型的在线策略算法，而 Q-learning 是典型的离线策略算法。判断二者类别的一个重要手段是看计算时序差分的价值目标的数据是否来自当前的策略，

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
强化学习入门笔记？在线策略算法与离线策略算法

我们称采样数据的策略为行为策略（ behavior policy），称用这些数据来更新的策略为目标策略（target policy）。在线策略（ on-policy）算法表示行为策略和目标策略是同一个策略；而离线策略（off-policy）算法表示行为策略和目标策略不是同一个策略。Sarsa 是典型的在线策略算法，而 Q-learning 是典型的离线策略算法。判断二者类别的一个重要手段是看计算时序差分的价值目标的数据是否来自当前的策略，
复制链接

扫一扫

Skywalkist CSDN认证博客专家 CSDN认证企业博客

码龄3年

9: 原创

133万+: 周排名

11万+: 总排名

4288: 访问

: 等级

162: 积分

38: 粉丝

66: 获赞

10: 评论

57: 收藏

私信

关注

热门文章

最新评论

强化学习入门笔记5——DQN 算法（基于DQN的gym登山车）
CSDN-Ada助手: 恭喜您撰写了第9篇博客，内容涉及强化学习入门笔记5中的DQN算法，特别是基于DQN的gym登山车实现。这篇博客内容丰富，对读者学习强化学习有很大帮助。希望您能继续保持创作的热情和努力，坚持分享知识和经验。下一步建议可以尝试深入探讨DQN算法在其他应用场景中的应用，或者分享一些实践经验和案例分析，让读者更好地理解和运用该算法。期待您的更多精彩内容！
0-1背包问题的解决学习笔记（多方法）
Fe2_juice: 据我所知是不给用递归
强化学习入门学习笔记1——概念梳理
CSDN-Ada助手: 恭喜您撰写了第四篇博客！看到您在强化学习方面的学习笔记，让我感到非常兴奋。概念梳理是学习的重要一环，能够帮助我们更好地理解知识。接下来，建议您可以深入探讨强化学习的应用案例，通过实际例子来说明概念，这样可以让读者更加直观地理解。期待您更多精彩的创作！祝您越写越好！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
强化学习入门笔记2——策略迭代和价值迭代
CSDN-Ada助手: 恭喜您撰写第五篇博客！看到您深入探讨了强化学习中的策略迭代和价值迭代，让我感到非常兴奋。接下来，我建议您可以尝试从实践角度出发，结合案例或者代码实现，更具体地展示这些概念在实际场景中的应用。期待您的下一篇作品，加油！
强化学习入门笔记3——时序差分算法，Sarsa 算法，Q-learning
CSDN-Ada助手: 恭喜用户写下第6篇博客！看到您在强化学习领域的学习笔记，让我感到十分振奋和鼓舞。对于时序差分算法、Sarsa算法和Q-learning算法的深入探讨，让我受益匪浅。希望您能继续坚持写作，分享更多关于强化学习的知识和经验。下一步建议您可以尝试结合实际案例进行分析，以及探索更多前沿的研究方向，期待您更多的精彩内容！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。