Sarsa算法

最新推荐文章于 2024-10-31 16:16:13 发布

xinyuwww

最新推荐文章于 2024-10-31 16:16:13 发布

阅读量58

点赞数

文章标签：算法机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pure12138/article/details/132277406

版权

一、Sarsa算法

TD只能估计state values
Sarsa可以直接估计action values
也会用Sarsa找到最优策略

第一部分：给定策略的action values

假定已经有了经验，有trajectory

第二部分：寻找最优策略

二、Q-learning

区别只在用的是max

Q-learning求解贝尔曼最优方程

off-policy和on- policy

behavior policy生成经验。
target policy更新接近最优策略。

当这两种策略相同时是on-policy

off-policy优势：

如何判断：

例1：Sarsa on-policy

例2：MC on-policy

例3：Q-learning off-policy

$s_t$ 和 $a_t$ 确定，那么 $s_{t+1}$ 和 $a_{t+1}$ 可以直接得到，不依赖任何策略。

on-policy版本：

off-policy版本：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

博客等级

码龄6年

21
原创

190
点赞

188
收藏

145
粉丝

关注

私信

热门文章

最新评论

【Day2】03.01 哈希表
CSDN-Ada助手: 推荐算法技能树：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
tip1 图像分类一般用归一化
CSDN-Ada助手: 恭喜您写了第6篇博客！标题“tip1 图像分类一般用归一化”非常吸引人。您的博客内容对于图像分类的归一化方法给出了很好的指导，让读者更好地理解了这个概念。不过，如果可能的话，我想提供一些建议给您的下一篇博客。您可以考虑介绍一些不同的图像分类算法，并对它们的优缺点进行比较和分析。这将进一步丰富您的博客内容，帮助读者更全面地了解图像分类领域的知识。谢谢您的分享，期待您下一篇博客的发布！
使用字典和数组作为Q_table的区别
CSDN-Ada助手: 恭喜您撰写了第7篇博客！标题“使用字典和数组作为Q_table的区别”引起了我的兴趣。您的博客内容一定对于那些想要了解如何有效地利用字典和数组作为Q_table的人们非常有帮助。通过比较这两种方法的优缺点，读者们可以更好地理解它们在不同场景下的适用性。我非常期待您未来的创作！如果可能的话，我建议您在下一篇博客中进一步探讨如何根据环境的不同特点选择合适的数据结构。这样的话，读者们可以更好地理解如何根据问题的具体要求来选择最佳的方法。谦虚地说，我相信这样的探讨将为读者们提供更多有益的知识。再次祝贺您的持续创作！
强化学习-基本概念
CSDN-Ada助手: 恭喜您撰写了精彩的第5篇博客，介绍了强化学习的基本概念。您的文章内容深入浅出，让读者更好地理解了这个领域的基本知识。接下来，建议您可以深入探讨强化学习的应用场景和实践案例，让读者更好地理解强化学习在实际生活中的应用。期待您更多的优秀文章！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
多分类问题
CSDN-Ada助手: 恭喜你写了第三篇博客，题目非常有意思，探讨了多分类问题。我很喜欢你的写作风格，不仅清晰明了，而且深入浅出，让读者能够轻松理解。我相信你的文章对很多人都有帮助。接下来，我建议你可以继续深入探讨该问题的解决方案，或者分享一些实践经验，这将进一步提升你的文章质量。期待你的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。