时序差分价值迭代 T D ( n s t e p ) TD(n_{step}) TD(nstep)
不需要环境模型,所以只有价值迭代;
采用了动态规划中“自益”的思想,所以不需要回合结束,所以可以用于连续型任务。
同策时序差分
- 更新目标
单步:
U t : t + 1 ( q ) = R t + γ ⋅ q ( S t + 1 , A t + 1 ) U_{t:t+1}^{(q)}=R_{t} + \gamma·q(S_{t+1}, A_{t+1}) Ut:t+1(q)=Rt+γ⋅q(St+1,At+1)
多步:
U t : t + n ( q ) = R t + R