sarsa(lambda)是sarsa的升级版,当智能体获得奖励时,对当前路径中所有走过的元素进行更新sarsa为什么是on-policy方法:因为sarsa策略根据Q表和e-greedy选择s的动作a,也根据相同的Q表以及e-greedy选择s’的动作a‘,因此采样策略和训练策略都是相同的,因此为on-policy