SARSA和Q Learning的区别理解

最新推荐文章于 2023-10-11 15:30:09 发布

HeegerGAO

最新推荐文章于 2023-10-11 15:30:09 发布

阅读量867

点赞数

分类专栏：强化学习

本文链接：https://blog.csdn.net/weixin_40019546/article/details/108808577

版权

强化学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

saras是on-policy学习，q-learning是off-policy学习。sarsa的学习比较保守稳健，每一个episode和每个episode的每个step都会执行episilon-greedy探索；q-learning则倾向于利用经验的累积，学习到最优策略。在悬崖行走曲线上，q-learning方法是optimal的，但会有风险，sarsa方法是安全的，但学习的episode曲线也被拉长了。