相关概念
Prediction和Control
预测问题:
- 输入:MDP 〈S,A,P,R,γ〉 和策略 π
- 输出:状态值函数 或者状态动作值函数
控制问题
- 输入:MDP 〈S,A,P,R,γ〉
- 输出:最优状态值函数 或者最优状态动作值函数 ,和最优策略
时序差分
- 特点:是免模型的,不需要马尔可夫决策过程的转移矩阵和奖励函数。此外,时序差分方法可以从不完整的回合中学习,
并且结合了自举的思想。 - 目的:对于某个给定的策略π,在线(online)地算出它的价值函数,即一步一步地(step-by-step)算。
一步时序差分(TD(0))
step1:时序差分预测
其中: 被称为时序差分目标(TD target),即回报值,时序差分目标是带衰减的未来奖励的总和。根据公式可以看出,在进行TD预测时,只需要等到跳转到下一个状态时,便可得知当前状态的状态值。
时序差分误差(TD error):
时序差分目标是估计有两个原因:
(1)时序差分方法对期望值进行采样;
(2)时序差分方法使用当前估计的V 而不是真实的。
n步时序差分(TD(n))