讲解Q-Learning和Sarsa 之间的区别: https://blog.csdn.net/u010223750/article/details/78955807
(这篇是上述连接的补充:https://blog.csdn.net/qq_39004117/article/details/81705845 还没看完,,,,,)
Q-learning算法则是一个off-policy的方法,其原始策略和值函数更新策略不一致,同样的也不需要进行采样一个轨迹进行策略更新。
和Sarsa算法不一样的是,Q-learning在更新值函数的时候使用的是贪心策略,而不是ϵ-greedy策略。
强化学习中on-policy 与off-policy有什么区别?https://www.zhihu.com/question/57159315