行为克隆 (BC)：被低估的“模仿大师”与它的天花板

原创于 2025-12-19 00:30:33 发布 · 561 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#网络 #机器学习 #人工智能

Offline RL 专栏收录该内容

7 篇文章

订阅专栏

摘要：
在离线强化学习（Offline RL）的复杂算法（如 CQL, IQL）面前，行为克隆（Behavioral Cloning, BC） 显得朴实无华。它不计算 Q 值，不推导 Bellman 方程，仅仅是把 RL 问题看作监督学习问题。然而，BC 却是 Offline RL 领域最重要的下限（Lower Bound）。本文将深入探讨 BC 的数学原理，揭示它为什么“极其稳定但上限极低”，解释著名的 Covariate Shift（协变量偏移） 问题，并展示如何从 BC 平滑过渡到强大的 Offline RL 算法。

目录 (Table of Contents)

什么是行为克隆 (BC)？
- 定义：把 RL 变成监督学习
- 代码实现：几行搞定
BC 的致命伤：复合误差与协变量偏移
- 为什么“一步错，步步错”？
- $O (T)$ vs $O(T^2)$ 的数学悲剧
为什么 BC 又是“定海神针”？
- 稳定性碾压 Q-Learning
- 什么时候 BC 反而是最优解？
从 BC 到真正的 Offline RL
- BC 是保守的极致
- TD3+BC：加上一点点贪婪
总结

1. 什么是行为克隆 (BC)？

1.1 基本原理

行为克隆的核心思想简单粗暴：不要问为什么，照着做就行。
给定一个静态数据集 $\mathcal{D} = \{(s_i, a_i)\}_{i=1}^N$ ，BC 并不关心奖励 $r$ 是多少，它假设数据集里的策略就是好策略。

它的目标是训练一个策略网络 $\pi_\theta(s)$ ，使其输出尽可能接近数据集中的动作 $a$ 。这完全是一个标准的**监督学习（Supervised Learning）**问题：

输入：状态 $s$
标签：动作 $a$
Loss：最大似然估计（MLE）

对于连续动作空间，通常最小化均方误差（MSE）：
$\mathcal{L}_{BC}(\theta) = \mathbb{E}_{(s,a) \sim \mathcal{D}} \left[ || \pi_\theta(s) - a ||^2 \right]$

对于离散动作空间，使用交叉熵损失（Cross-Entropy）。

1.2 PyTorch 代码实现

BC 的实现简单到令人发指，不需要 Target Network，不需要 Replay Buffer 的采样逻辑：

# 简单的 BC 训练循环
for state, true_action in dataloader:
    # 1. 预测动作
    pred_action = policy_net(state)
    
    # 2. 计算监督学习 Loss
    loss = nn.MSELoss()(pred_action, true_action)
    
    # 3. 梯度下降
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

2. BC 的致命伤：复合误差与协变量偏移

既然 BC 这么简单且训练极快，为什么还需要复杂的 Offline RL？因为 BC 有一个无法克服的理论缺陷：协变量偏移 (Covariate Shift) 导致的复合误差 (Compound Error)。

2.1 什么是 Covariate Shift？

训练时：策略 $\pi_\theta$ 是在数据集的状态分布 $P_{data}(s)$ 上训练的。
测试时：策略 $\pi_\theta$ 自己产生的动作会决定下一个状态。一旦策略犯了一个小错误，进入了一个数据集里没见过的状态 $s_{new}$ （Out-of-Distribution），策略就会懵圈，产生更大的错误动作，导致偏离更远。

这就像走钢丝：专家（数据集）一直在钢丝正中间走。BC 学会了在中间怎么走。但如果在第 $t$ 步，BC 稍微歪了一点点（误差 $\epsilon$ ），它进入了“稍微偏离中心”的状态。因为专家从没歪过，BC 没见过这个状态，不知道怎么修整，于是它歪得更厉害了，最终掉下去。

2.2 $O(T^2)$ 的误差累积

Ross & Bagnell (2010) 的理论证明了这一点：

如果策略的单步误差是 $\epsilon$ 。
在 $T$ 步的时间范围内：
- 监督学习（i.i.d假设） 的累积误差是线性增长的： $O(T\epsilon)$ 。
- 行为克隆（序列决策） 的累积误差是平方级增长的： $O(T^2\epsilon)$ 。

这就是为什么 BC 在长序列任务（如自动驾驶长距离导航）中往往表现不佳的原因。

3. 为什么 BC 又是“定海神针”？

虽然有上限，但在 Offline RL 的实战中，BC 往往是第一个要跑的 Baseline，甚至经常打败复杂的 CQL。

3.1 极致的稳定性

Offline RL 的核心难题是 OOD (Out-of-Distribution) 动作导致的 Q 值高估。

Q-Learning 算法（如 DQN）总是想尝试“更好的动作”，结果容易踩雷（OOD）。
BC 只做数据集里有的动作。它天然地避免了所有 OOD 陷阱。它不会试图去“探索”或“改进”，所以它绝对安全。

结论：如果你的 Offline RL 算法跑崩了，Reward 极差，回头看看 BC。BC 的表现通常是 Offline RL 的下限。如果你的算法连 BC 都打不过，那这就是个失败的算法。

3.2 什么时候 BC 是最优解？

专家数据极其完美：如果数据集是由 AlphaGo 产生的，且覆盖率极高，那么模仿 AlphaGo 就是最优解。你不需要改进它，只需要成为它。
数据分布狭窄：如果任务很简单，或者状态空间很小，BC 没有机会遇到未见过的状态。
Transformer 的崛起：最近大火的 Decision Transformer (DT)，本质上就是 Sequence Modeling，也就是高级版的 BC。在某些设定下，通过 Transformer 强大的拟合能力，BC 甚至能表现出惊人的泛化性。

4. 从 BC 到真正的 Offline RL

我们想要比 BC 更强。我们不仅想模仿专家，还想从糟糕的数据中提炼出比原数据更好的策略。这就是 Offline RL 的价值。

4.1 思路转变：从“模仿”到“择优”

如果数据集中既有高分片段，也有低分片段：

BC：不管是好是坏，平均着学。最后学成一个平庸的 Agent。
Offline RL：识别出哪些动作导致了高分，只模仿那些好的，避开那些差的。

4.2 经典过渡算法：TD3+BC

这是目前最优雅、最直观的 Offline RL 算法之一 [Fujimoto et al., 2021]。它的思想非常朴素：
在最大化 Q 值（贪婪）的同时，加一个正则项，别让策略偏离数据太远（保守）。

$\pi = \underset{\pi}{\operatorname{argmax}} \mathbb{E}_{(s,a) \sim \mathcal{D}} [\underbrace{Q(s, \pi(s))}_{\text{想变强}} - \lambda \underbrace{||\pi(s) - a||^2}_{\text{别乱跑 (BC Term)}}]$

当 $\lambda \to \infty$ 时，算法退化为 BC。
当 $\lambda \to 0$ 时，算法退化为标准的 TD3 (Off-policy RL)。
TD3+BC 选取一个中间值，既利用了 Q 值的指导来择优，又利用了 BC 的约束来避免 OOD。

5. 总结

维度	行为克隆 (BC)	真正的 Offline RL (e.g., CQL, IQL)
核心逻辑	监督学习 (Supervised)	动态规划 (Dynamic Programming)
是否利用 Reward	否 (忽略 Reward)	是 (最大化 Reward)
对数据质量要求	高 (需要专家数据)	低 (可以是混合质量数据)
能否超越数据集	不能 (只能逼近专家)	能 (缝合出超越专家的策略)
主要风险	协变量偏移 (Covariate Shift)	分布外动作 (OOD Extrapolation)