Sarsa/Sarsa(lambda)介绍、算法、以及与Q-Learning的对比

Sarsa与Q-Learning的主要区别在于更新方式,Sarsa采用实际行动的价值更新Q表,形成在线学习过程,而Q-Learning则依据最大预期价值更新,为离线学习。Sarsa(lambda)结合了单步和回合更新,通过lambda参数调整不同步长的权重,优化奖励更新效率。eligibility_trace在Sarsa(lambda)中记录了每一步的重要性,用于更精确的Q值更新。
摘要由CSDN通过智能技术生成

学习过程来自莫烦大神的视频:
https://www.bilibili.com/video/BV13W411Y75P?p=9

1. Sarsa与Q-Learning对比

  • 两者决策部分相同,都是在Q表中选择价值较大的动作
  • 两者更新方式不同:
    • QL的 Q现实 = R + γ * maxQ(s2),使用s2状态下的最大价值更新Q表,但是在下一步的s2状态下,不一定使用这个产生最大价值的动作(原因有两点:①存在随机取值的情况;②Q表更新了,所以下一步产生最大价值的动作可能换了)。
    • Sarsa的 Q现实 = R + γ * Q(s2, a2),使用下一步的动作对应产生的价值,更新Q表。
  • 所以Sarsa说到做到,是一个online学习过程。
  • 而Q-Learning说到不一定做到,是一个offline学习过程。
  • 不太理解为什么Sarsa更爱回避风险】QL会选择最近的一条通往成功的道路,无论多危险;而Sarsa会选择离危险最远的一条道路,价值是次要的,安全的最重要的。
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值