时序差分(Temporal Difference, TD)学习的详细介绍
时序差分(Temporal Difference, TD)是一种强化学习中重要的价值函数估计方法,结合了动态规划(Dynamic Programming)和蒙特卡洛方法(Monte Carlo)的优点。它通过从经验中直接学习预测值,而不需要完整的回报序列,能够高效地处理马尔科夫决策过程(Markov Decision Process, MDP)。
以下内容将从原理、数学推导、TD方法的种类、优缺点及应用场景等方面详细介绍时序差分学习。
1. 时序差分学习的基本思想
时序差分学习的目标是估计价值函数。价值函数可以是:
- 状态值函数:( V^\pi(s) ),即从状态 ( s ) 开始按照策略 ( \pi ) 行动所能获得的期望累计奖励。
[
V^\pi(s) = \mathbb{E}\pi \left[ \sum{k=0}^\infty \gamma^k r_{t+k+1} \mid s_t = s \right]
] - 状态-动作值函数:( Q^\pi(s, a) ),即从状态 ( s ) 开始执行动作 ( a ),后续按照策略 ( \pi ) 行动所能获得的期望累计奖励。
[
Q^\pi(s, a) = \mathbb{E}\pi \left[ \sum{k=0}^\infty \gamma^k r_{t+k+1} \mid s_t = s, a_t = a \right]
]
核心思想:
- TD方法不需要等到整个回报序列结束才进行更新(如蒙特卡洛方法需要等到回合结束)。
- 它通过当前奖励 ( r_t ) 和对下一状态的价值估计 ( V(s_{t+1}) ) 来更新当前状态的价值函数 ( V(s_t) )。