SARSA 和 Q-learning 的区别

最新推荐文章于 2024-05-27 18:13:59 发布

Uncle_Sugar

最新推荐文章于 2024-05-27 18:13:59 发布

阅读量2.9k

点赞数 6

分类专栏：机器学习算法

本文链接：https://blog.csdn.net/sinat_29278271/article/details/105444337

版权

机器学习算法专栏收录该内容

2 篇文章 0 订阅

订阅专栏

下面这张图截取自书上的，SARSA算法是在线算法，Q-learn是离线算法。两者的第一步选择动作都是epsilon-greedy,而第二部更新Q函数的时候，Q-learning 直接选择用最优的动作a去更新Q函数，而SARSA选择用之前的策略采样出来的A‘去更新Q函数。

这就是为什么叫SARSA在线算法，因为更新策略用的A’和上一步的A都是由一个policy 产生的。

而Q-learning中，更新用的a来自贪心，A才是由之前的策略产生的。

这样子说起来好像没什么区别，书上有个例子，看一下就知道了。

书上的cliff的例子中蓝线是SARSA, 红线是Q-learning。SARSA找到的线离悬崖更远一些，因为SARSA中，A和A‘的产生用的都是epsilon-greedy，即使是很后期的时候，也会由于随机动作掉到悬崖里，从而导致对临近悬崖处的Q函数值较小。而Q-learning直接选择最大的action a'，在他眼里，只有最优选择才会影响Q值，自然不会管边上那个cliff,因为cliff永远不会是那个选出来的最优动作a，自然也不会参与Q函数更新。

总结一下就是，因为Q-learning总是选择最有动作去更新，他选出来的路会喜欢“行险”，对Q-learning来说，只有一条生路和四处都是生路是一样的。而SARSA不同，他偏向于找康庄大道，四处都安全。所以SARSA选出的路离峭壁更远。

下面这张图是两个实验的结果，这是对采样的所有epsode求平均的结果。我们发现Q-learning的rewards更少。这是由于，epsilon-greedy有时候会出现随机行为。这样的随机行为在险地，也就是离峭壁更近的地方，容易跳进去，造成奖励减少。书中也说了，当epsilon减小的时候，两者曲线会接近。

当然我还有个问题，什么情况下SARSA表现会比Q-learning好。

Uncle_Sugar

关注

6
点赞
踩
25

收藏

觉得还不错? 一键收藏
4
评论
SARSA 和 Q-learning 的区别

下面这张图截取自书上的，SARSA算法是在线算法，Q-learn是离线算法。两者的第一步选择动作都是epsilon-greedy,而第二部更新Q函数的时候，Q-learning 直接选择用最优的动作a去更新Q函数，而SARSA选择用之前的策略采样出来的A‘去更新Q函数。这就是为什么叫SARSA在线算法，因为更新策略用的A’和上一步的A都是由一个policy 产生的。而Q-learning中...
复制链接

扫一扫