【强化学习】时间差分（Temporal Difference, TD）

浪啦里格朗

于 2025-04-08 17:55:32 发布

阅读量962

点赞数 29

分类专栏：强化学习文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/songxia928_928/article/details/147074052

版权

强化学习专栏收录该内容

12 篇文章

订阅专栏

时间差分（Temporal Difference, TD）

文章目录

时间差分（Temporal Difference, TD）

强化学习中的时间差分（TD）学习结合了蒙特卡洛方法和动态规划的一些特点。TD 学习在估计值函数时采用了类似蒙特卡洛方法的采样方式，因为更新价值函数的过程就是一个采样过程，同时又借鉴了动态规划中基于贝尔曼方程的 “引导” 思想来更新值函数，从而结合了两者的一些优点，成为强化学习中一种重要且有效的学习方法。

时间差分（TD）方法有多种形式，下面为你详细介绍常见的 TD(0) 和 TD(λ) 两种形式的公式。

一、TD(0)

TD(0) 是最基础的时间差分方法，也被称作单步时间差分。它借助当前时刻的奖励与下一时刻状态值函数的估计来更新当前状态值函数的估计。

"1"

1.1 状态值函数 $V (s)$ 的更新公式

设 $V (s)$ 为状态 $s$ 的值函数估计，在智能体从状态 $s_t$ 执行动作 $a_t$ 后转移到状态 $s_{t + 1}$ 并获得奖励 $r_{t+1}$ 时，更新公式如下：
$V(s_t) \leftarrow V(s_t) + \alpha [r_{t + 1} + \gamma V(s_{t + 1}) - V(s_t)]$

其中：

$\alpha$ 是学习率，其取值范围为 $(0, 1]$ ，它控制着每次更新时对估计值调整的幅度。 $\alpha$ 越大，更新的步长就越大；反之则越小。
$\gamma$ 是折扣因子，取值范围为 $[0, 1]$ ，它用于衡量未来奖励的重要程度。 $\gamma$ 越接近 1，就表示更看重未来的奖励；越接近 0，则更关注即时奖励。
$r_{t + 1} + \gamma V(s_{t + 1})$ 被称为 TD 目标（差分目标），它是对 $V(s_t)$ 的一个新的估计。
$r_{t + 1} + \gamma V(s_{t + 1}) - V(s_t)$ 被称为 TD 误差（差分误差），记为 $\delta_t$ ，它反映了当前估计值与新估计值之间的差异。

只看上面的公式不太好理解时间差分（TD），下面通过一个简单的走迷宫例子来帮助你理解。

A. 例子：走迷宫

假设一个机器人在一个简单的迷宫中移动，迷宫有多个房间，分别标记为 $S_1$ 、 $S_2$ 、 $S_3$ 等，机器人的目标是找到出口获得奖励。机器人在每个房间都有不同的行动选择，比如向前、向后、向左或向右移动，并且在从一个房间移动到另一个房间时，会得到不同的奖励反馈。

具体过程：

初始化：
- 首先，我们初始化每个房间的价值函数 $V (s)$ 为0，这里 $s$ 代表不同的房间状态。例如 $V(S_1)=0$ ， $V(S_2)=0$ 等。
交互过程：
- 假设机器人当前处于房间 $S_1$ ，它选择了向右移动，然后到达了房间 $S_2$ ，并从环境中获得了一个奖励 $r = 1$ （因为到达 $S_2$ 离出口更近了一些）。
- 根据TD公式 $V(s_t) \leftarrow V(s_t) + \alpha [r_{t + 1}+\gamma V(s_{t + 1}) - V(s_t)]$ ，这里 $s_t = S_1$ ， $r_{t + 1}=1$ ， $s_{t + 1}=S_2$ ， $\alpha$ 是学习率（假设 $\alpha = 0.5$ ）， $\gamma$ 是折扣因子（假设 $\gamma = 0.9$ ）。
- 我们来计算 $V(S_1)$ 的更新值：
  $\begin{align*} V(S_1)&\leftarrow V(S_1) + \alpha [r_{t + 1}+\gamma V(s_{t + 1}) - V(s_t)]\\ &= 0 + 0.5\times[1 + 0.9\times0 - 0]\\ &= 0.5\times1\\ &= 0.5 \end{align*}$
- 现在 $V(S_1)$ 的值更新为 $0.5$ ，这意味着机器人根据这次的经历，认为房间 $S_1$ 的价值有所提升，因为它通过从 $S_1$ 移动到 $S_2$ 获得了奖励。
持续学习：
- 接着，机器人从房间 $S_2$ 继续行动，假设它向上移动到了房间 $S_3$ ，获得了一个奖励 $r = 2$ 。
- 然后我们用同样的公式来更新 $V(S_2)$ ：
  $\begin{align*} V(S_2)&\leftarrow V(S_2) + \alpha [r_{t + 1}+\gamma V(s_{t + 1}) - V(s_t)]\\ &= 0 + 0.5\times[2 + 0.9\times0 - 0]\\ &= 0.5\times2\\ &= 1 \end{align*}$
- 此时 $V(S_2)$ 更新为 $1$ ，并且由于 $V(S_2)$ 发生了变化，当我们再次回到 $S_1$ 并计算 $V(S_1)$ 时， $V(S_1)$ 也会受到影响。例如，机器人又从 $S_1$ 移动到 $S_2$ ，此时 $V(S_1)$ 的更新计算如下：
  $\begin{align*} V(S_1)&\leftarrow V(S_1) + \alpha [r_{t + 1}+\gamma V(s_{t + 1}) - V(s_t)]\\ &= 0.5 + 0.5\times[1 + 0.9\times1 - 0.5]\\ &= 0.5 + 0.5\times(1 + 0.9 - 0.5)\\ &= 0.5 + 0.5\times1.4\\ &= 0.5 + 0.7\\ &= 1.2 \end{align*}$

通过不断地在迷宫中移动，与环境进行交互，获得奖励并根据TD公式更新每个状态（房间）的价值函数，机器人逐渐学会了评估每个房间的价值，知道哪些房间对于到达出口更有帮助，从而能够选择更优的路径来达到目标。随着学习的进行，价值函数会逐渐收敛到一个稳定的值，此时机器人就对迷宫环境有了较好的理解和认知。

1.2 动作值函数 $Q (s, a)$ 的更新公式

对于动作值函数 $Q (s, a)$ ，当智能体从状态 - 动作对 $s_t, a_t)$ 转移到 $s_{t + 1}, a_{t + 1})$ 并获得奖励 $r_{t+1}$ 时，更新公式为：
$Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha [r_{t + 1} + \gamma Q(s_{t + 1}, a_{t + 1}) - Q(s_t, a_t)]$

TD 公式中，当前状态价值的更新既考虑了当前的奖励（类似当前的观测信息），又结合了之前对状态价值的估计（历史信息）。是不是和kalman更新的方式有些像。卡尔曼滤波也是将上一时刻的状态估计（历史信息）与当前的测量值（当前信息）进行融合，以得到更准确的状态估计，当然卡尔曼不仅有估计结果，还有实时测量结果。

二、TD(λ)

TD(λ) 是 TD(0) 的推广形式，它通过引入一个衰减因子 $\lambda$ 来综合考虑多步的信息。

2.1 状态值函数 $V (s)$ 的更新公式

TD(λ) 使用资格迹（Eligibility Traces） $E_t(s)$ 来更新状态值函数，资格迹记录了每个状态在过去一段时间内的“活跃度”。

资格迹更新：
$E_t(s) = \begin{cases} \gamma \lambda E_{t - 1}(s) + 1, & \text{if } s = s_t \\ \gamma \lambda E_{t - 1}(s), & \text{if } s \neq s_t \end{cases}$
状态值函数更新：
$\leftarrow V(s) + \alpha \delta_t E_t(s)$
其中， $\delta_t = r_{t + 1} + \gamma V(s_{t + 1}) - V(s_t)$ 是 TD 误差。

2.2 动作值函数 $Q (s, a)$ 的更新公式

类似地，对于动作值函数 $Q (s, a)$ ，资格迹 $E_t(s, a)$ 的更新为：
$E_t(s, a) = \begin{cases} \gamma \lambda E_{t - 1}(s, a) + 1, & \text{if } (s, a) = (s_t, a_t) \\ \gamma \lambda E_{t - 1}(s, a), & \text{if } (s, a) \neq (s_t, a_t) \end{cases}$
动作值函数的更新公式为：
$\leftarrow Q(s, a) + \alpha \delta_t E_t(s, a)$
其中， $\delta_t = r_{t + 1} + \gamma Q(s_{t + 1}, a_{t + 1}) - Q(s_t, a_t)$ 。