我们称采样数据的策略为行为策略( behavior policy), 称用这些数据来更新的策略为目标策略(target policy)。 在线策略( on-policy) 算法表示行为策略和目标策略是同一个策略; 而离线策略(off-policy) 算法表示行为策略和目标策略不是同一个策略。 Sarsa 是典型的在线策略算法, 而 Q-learning 是典型的离线策略算法。 判断二者类别的一个重要手段是看计算时序差分的价值目标的数据是否来自当前的策略,
“相关推荐”对你有帮助么?
-
非常没帮助
-
没帮助
-
一般
-
有帮助
-
非常有帮助
提交