saras是on-policy学习,q-learning是off-policy学习。sarsa的学习比较保守稳健,每一个episode和每个episode的每个step都会执行episilon-greedy探索;q-learning则倾向于利用经验的累积,学习到最优策略。在悬崖行走曲线上,q-learning方法是optimal的,但会有风险,sarsa方法是安全的,但学习的episode曲线也被拉长了。
SARSA和Q Learning的区别理解
最新推荐文章于 2023-10-11 15:30:09 发布