Q-learning和Sarsa的区别

最新推荐文章于 2024-07-31 19:57:57 发布

weixin_30518397

最新推荐文章于 2024-07-31 19:57:57 发布

阅读量261

点赞数

原文链接：http://www.cnblogs.com/hellojiaojiao/p/11353118.html

版权

Q-learning和Sarsa的区别

Q-learning是off-policy，而Sarsa是on-policy学习。

Q-learning在更新Q table时，它只会需要Q值最大，但是不一定会选择使这个Q值最大的动作，因为选择哪个动作是由其他的策略决定的，但是Sarsa在更新Q table时，不一定是Q最大的那个，而且接下来会选择此Q对应的action。Q-learning属于勇敢型，无论前方的路上有什么危险，它都会直接走过去，而Sarsa比较保守，一般只是会远远的躲过危险。