Sarsa

最新推荐文章于 2024-08-05 06:30:00 发布

枫^.^

最新推荐文章于 2024-08-05 06:30:00 发布

阅读量853

点赞数

分类专栏：强化学习文章标签： RL sarsa

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/vmxhc1314/article/details/82107701

版权

强化学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Sarsa的决策部分与Q-Learning一样，使用Q表形式，挑选值较大的动作施加在环境中来换取奖惩，但sarsa的更新方式不同。其更新准则如下：

同样, 在时挑选一个带来最大潜在奖励的动作 a2 $\rightarrow$ 继续写作业状态 s2。

此时, 如果是 Q learning, 首先会观看一下在 s2 上选取哪一个动作会带来最大的奖励, 但是在真正要做决定时, 却不一定会选取到那个带来最大奖励的动作, Q-learning 在这一步只是估计了一下接下来的动作值. 而 Sarsa 在 s2 这一步估算的动作也是接下来要做的动作. 所以 Q(s1, a2) 现实的计算值, 也会稍稍改动, 去掉maxQ, 取而代之的是在 s2 上选取的 a2 的 Q 值. 最后像 Q learning 一样, 求出现实和估计的差距并更新 Q 表里的 Q(s1, a2).

sarsa与Q-learning的算法对比如下：

Q-learning永远都会选择通往成功最近的道路而不顾危险；sarsa则会离危险远远的而把成功放在第二位。

（图片来源于莫烦python）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。