SARSA 和 Q-learning 的区别

下面这张图截取自书上的,SARSA算法是在线算法,Q-learn是离线算法。两者的第一步选择动作都是epsilon-greedy,而第二部更新Q函数的时候,Q-learning 直接选择用最优的动作a去更新Q函数,而SARSA选择用之前的策略采样出来的A‘去更新Q函数。

这就是为什么叫SARSA在线算法,因为更新策略用的A’和上一步的A都是由一个policy 产生的。

而Q-learning中,更新用的a来自贪心,A才是由之前的策略产生的。

这样子说起来好像没什么区别,书上有个例子,看一下就知道了。

书上的cliff的例子中蓝线是SARSA, 红线是Q-learning。SARSA找到的线离悬崖更远一些,因为SARSA中,A和A‘的产生用的都是epsilon-greedy,即使是很后期的时候,也会由于随机动作掉到悬崖里,从而导致对临近悬崖处的Q函数值较小。而Q-learning直接选择最大的action a',在他眼里,只有最优选择才会影响Q值,自然不会管边上那个cliff,因为cliff永远不会是那个选出来的最优动作a,自然也不会参与Q函数更新。

总结一下就是,因为Q-learning总是选择最有动作去更新,他选出来的路会喜欢“行险”,对Q-learning来说,只有一条生路和四处都是生路是一样的。而SARSA不同,他偏向于找康庄大道,四处都安全。所以SARSA选出的路离峭壁更远。

 

下面这张图是两个实验的结果,这是对采样的所有epsode求平均的结果。我们发现Q-learning的rewards更少。这是由于,epsilon-greedy有时候会出现随机行为。这样的随机行为在险地,也就是离峭壁更近的地方,容易跳进去,造成奖励减少。书中也说了,当epsilon减小的时候,两者曲线会接近。

当然我还有个问题,什么情况下SARSA表现会比Q-learning好。

  • 6
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值