Sarsa(lambda)

Sarsa(λ)是强化学习中的一种算法,通过衰减率λ进行回合制更新。λ值在0到1之间,影响着更新的权重。当λ为0时,采用单步更新;λ为1时,则为回合更新,但会引入衰减因子。该算法考虑了路径上的所有步骤,λ值越小,远离终点的步骤影响越小。
摘要由CSDN通过智能技术生成

Sarsa(lambda)是一种基于衰减率λ的回合制更新算法。
λ属于[0,1],是到最终结果状态后往前一步一步更新的时候所乘的衰减率,sarsa(0)就是单步更新,sarsa(1)就是回合更新,且没有衰减。


单步更新学习效率较低,因为第一轮只能更新结果状态前一步的Q表,之后的每一轮也只能更新下一步有Q值的Q表。
而回合制就不一样了,到了结果状态之后,可以逐一更新之前走过的每一步。

但是回合制更新也有缺点,就是在开始的探索过程中,可能走过很多弯路,所以都一视同仁的更新显然不合适,所以引入了一个λ。这样在更新Q表的时候,越往前的步就衰减的越厉害。

 不同的λ对更新的影响,λ越趋近于0,离终点远的步得到的奖励越少。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值