Sarsa(lambda)是一种基于衰减率λ的回合制更新算法。
λ属于[0,1],是到最终结果状态后往前一步一步更新的时候所乘的衰减率,sarsa(0)就是单步更新,sarsa(1)就是回合更新,且没有衰减。
单步更新学习效率较低,因为第一轮只能更新结果状态前一步的Q表,之后的每一轮也只能更新下一步有Q值的Q表。
而回合制就不一样了,到了结果状态之后,可以逐一更新之前走过的每一步。
但是回合制更新也有缺点,就是在开始的探索过程中,可能走过很多弯路,所以都一视同仁的更新显然不合适,所以引入了一个λ。这样在更新Q表的时候,越往前的步就衰减的越厉害。
不同的λ对更新的影响,λ越趋近于0,离终点远的步得到的奖励越少。