Sarsa/Sarsa(lambda)介绍、算法、以及与Q-Learning的对比

最新推荐文章于 2023-10-07 22:02:35 发布

志远1997

最新推荐文章于 2023-10-07 22:02:35 发布

阅读量956

点赞数 1

分类专栏：强化学习文章标签：强化学习 Sarsa Q-Learning Sarsaλ

本文链接：https://blog.csdn.net/qq_33302004/article/details/114888696

版权

Sarsa与Q-Learning的主要区别在于更新方式，Sarsa采用实际行动的价值更新Q表，形成在线学习过程，而Q-Learning则依据最大预期价值更新，为离线学习。Sarsa(lambda)结合了单步和回合更新，通过lambda参数调整不同步长的权重，优化奖励更新效率。eligibility_trace在Sarsa(lambda)中记录了每一步的重要性，用于更精确的Q值更新。

摘要由CSDN通过智能技术生成

学习过程来自莫烦大神的视频：
https://www.bilibili.com/video/BV13W411Y75P?p=9

1. Sarsa与Q-Learning对比

两者决策部分相同，都是在Q表中选择价值较大的动作
两者更新方式不同：
- QL的 Q现实 = R + γ * maxQ(s2)，使用s2状态下的最大价值更新Q表，但是在下一步的s2状态下，不一定使用这个产生最大价值的动作（原因有两点：①存在随机取值的情况；②Q表更新了，所以下一步产生最大价值的动作可能换了）。
- Sarsa的 Q现实 = R + γ * Q(s2, a2)，使用下一步的动作对应产生的价值，更新Q表。
所以Sarsa说到做到，是一个online学习过程。
而Q-Learning说到不一定做到，是一个offline学习过程。
【不太理解为什么Sarsa更爱回避风险】QL会选择最近的一条通往成功的道路，无论多危险；而Sarsa会选择离危险最远的一条道路，价值是次要的，安全的最重要的。

最低0.47元/天解锁文章

志远1997

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
Sarsa/Sarsa(lambda)介绍、算法、以及与Q-Learning的对比

学习过程来自莫烦大神的视频：https://www.bilibili.com/video/BV13W411Y75P?p=9文章目录1. Sarsa与Q-Learning对比2. Sarsa(lambda)介绍3. Sarsa(lambda)算法1. Sarsa与Q-Learning对比两者决策部分相同，都是在Q表中选择价值较大的动作两者更新方式不同：QL的 Q现实 = R + γ * maxQ(s2)，使用s2状态下的最大价值更新Q表，但是在下一步的s2状态下，不一定使用这个产生最大价值的动
复制链接

扫一扫