Sarsa(lambda)

最新推荐文章于 2023-01-03 12:54:20 发布

刘德志jenkin

最新推荐文章于 2023-01-03 12:54:20 发布

阅读量471

点赞数

文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_25475917/article/details/119088076

版权

Sarsa(λ)是强化学习中的一种算法，通过衰减率λ进行回合制更新。λ值在0到1之间，影响着更新的权重。当λ为0时，采用单步更新；λ为1时，则为回合更新，但会引入衰减因子。该算法考虑了路径上的所有步骤，λ值越小，远离终点的步骤影响越小。

摘要由CSDN通过智能技术生成

Sarsa(lambda)是一种基于衰减率λ的回合制更新算法。
λ属于[0,1]，是到最终结果状态后往前一步一步更新的时候所乘的衰减率，sarsa(0)就是单步更新，sarsa(1)就是回合更新，且没有衰减。

单步更新学习效率较低，因为第一轮只能更新结果状态前一步的Q表，之后的每一轮也只能更新下一步有Q值的Q表。
而回合制就不一样了，到了结果状态之后，可以逐一更新之前走过的每一步。

但是回合制更新也有缺点，就是在开始的探索过程中，可能走过很多弯路，所以都一视同仁的更新显然不合适，所以引入了一个λ。这样在更新Q表的时候，越往前的步就衰减的越厉害。

不同的λ对更新的影响，λ越趋近于0，离终点远的步得到的奖励越少。

最低0.47元/天解锁文章

刘德志jenkin

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。