RL-算法-20250815：CHORD中的CHORD-φ【把SFT（离策略、基于专家示范）与RL（在策略、基于回报）真正融合，把 SFT 视作在 RL 过程中的辅助项，不是独立阶段】

原创已于 2025-11-11 01:20:03 修改 · 746 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #机器学习 #深度学习

于 2025-11-11 01:15:30 首次发布

RL/强化学习专栏收录该内容

74 篇文章

订阅专栏

CHORD论文：《On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting》

把 CHORD-φ 精确地看成：在不改 SFT 目标结构的前提下，把每个专家 token 的损失项按“当前策略对该 token 的不确定度”动态加权，再与 on-policy RL 的 GRPO 损失做加权混合。

一、论文概述

论文（arXiv:2508.11408，v2 更新于 2025-10-10）最核心的点压缩成一页读懂版：

1、在解决什么问题

把SFT（离策略、基于专家示范）与RL（在策略、基于回报）真正融合。作者发现传统的“SFT→再RL”两阶段流程常出现策略迁移—再适配—过拟合的模式，甚至不如纯 RL 稳定与有效。(arXiv)

2、他们的做法：CHORD 框架（双重控制）

统一视角：把 SFT 视作在 RL 过程中的辅助项，不是独立阶段。总损失用全局系数控制两者配比：
$\mathcal{L}_{\text{Hybrid}}=(1-\mu)\mathcal{L}_{\text{GRPO}}+\mu\,\mathcal{L}_{\text{SFT}}$ 。(arXiv)
细粒度稳定器（CHORD-ϕ）：把 SFT 的每个“专家 token”按当前策略概率 $p_t$ 赋动态权重
$\phi(y_t^*;\pi_\theta)=p_t(1-p_t)$ ，在 $p_t\!\approx\!0.5$ 时最重、在两端趋零；据此把 SFT 改成
$\mathcal{L}_{\text{SFT-}\phi}=-\sum_t \phi(\cdot)\log \pi_\theta(y_t^*|\cdot)$ 。它抑制高/低概率两端，集中学“不确定”且信息量大的 token。(arXiv)

直观理解： $\mu$ 负责宏观配重（从模仿到探索的过渡）， $\phi$ 负责微观筛选（避免熵塌陷与被分布外示范扰乱）。(arXiv)

3、实验怎么说

设置：数学推理用 OpenR1-Math-220k（SFT 5k、RL 20k），策略模型 Qwen2.5-7B-Instruct；工具使用任务用 ToolAce，策略模型 LLaMA3.2-3B-Instruct；专家示范由 DeepSeek-R1 生成。(arXiv)
主结果（Table 1）：在 AMC/AIME24/AIME25/MMLU-Pro 与 **BFCL（工具使用）**上，
CHORD-μ 超过强力的 “SFT-best+RL”；CHORD-ϕ 进一步拿到最好总体分数（例如 BFCL-Overall 78.5 vs 77.1 的纯 RL）。(arXiv)
训练动态：引入 $\phi$ 后，熵更平稳、奖励持续上升；当用 $\phi$ 做细粒度控制时， $\mu$ 不再需要复杂日程，固定值即可稳定工作。(arXiv)

4、一句话结论

CHORD 用“全局 $\mu$ +token 级 $\phi$ ”把离策略的专家示范温和、可控地注入在策略 RL，既保留探索，又吸收有益模式，整体优于两阶段 SFT→RL 及多种混合基线。代码已开源（Trinity-RFT/mix_chord）。(arXiv)

二、从原始 SFT 到按 token 加权的CHORD-φ

1) 从原始 SFT 到按 token 加权的 SFT-φ

原始 SFT（teacher forcing）对样本 $x, y^*)$ 的损失是

$\mathcal L_{\text{SFT}}(x,y^*) \;=\; -\,\frac{1}{T}\sum_{t=1}^{T}\log \pi_\theta\!\big(y_t^*\mid x, y_{<t}^*\big),$

论文在“Preliminaries”把它写成对 batch/序列求平均的标准 NLL（式(1)）。(arXiv)

CHORD-φ 保留这套结构，只把每个 token 的项乘上一个动态权重

$w_t \;=\; \phi\!\big(p_t\big),\qquad p_t=\pi_\theta\!\big(y_t^*\mid x, y_{<t}^*\big),$

并取

$\phi(p_t)=p_t\,(1-p_t)\ \ (\text{抛物线，}\ p\!\approx\!0.5\ \text{最大，}p\!\to\!0/1\ \text{趋零}),$

于是得到按 token 加权的 SFT：

$\boxed{\ \mathcal L_{\text{SFT-}\phi}\;=\;-\frac{1}{T}\sum_{t=1}^{T}\phi(p_t)\,\log \pi_\theta(y_t^*|x,y_{<t}^*)\ }.$

论文在 §3.3 明确给出“在两端（极高/极低概率）下调，聚焦中间不确定 token”的定义与直觉，并给出该 $\phi$ 的形式与更新后的 SFT 目标（文中式(5)(6)）。(ar5iv)

直觉：高概率 token 本来就“会”，继续强压会熵塌陷、压制探索；极低概率 token 往往分布冲突、噪声大，强学会扰乱既有策略。把学习火力集中在模型最不确定的位置更稳健。论文也从信息论角度把 $p (1 - p)$ 解释为“生成该 token 的二元事件不确定度”。(ar5iv)

2) 与 CHORD 总目标的关系

CHORD 把 on-policy 的 GRPO 与 off-policy 的 SFT 放进一个混合损失（式(3)）：

$\mathcal L_{\text{CHORD}}=(1-\mu)\,\mathcal L_{\text{GRPO}}+\mu\,\mathcal L_{\text{SFT}}.$

在 CHORD-φ 中，仅把上式里的 $\mathcal L_{\text{SFT}}$ 替换为 $\mathcal L_{\text{SFT-}\phi}$ ，形成“全局系数 $\mu$ +细粒度 $\phi$ ”的双重控制；论文也明确写到“用 $\mathcal L_{\text{SFT-}\phi}$ 取代静态的 $\mathcal L_{\text{SFT}}$ 得到最终目标”。(arXiv)

$\mu$ ：全局权重，控制“从模仿到探索”的宏观过渡；可以固定或按日程衰减（CHORD-μ）。(arXiv)
$\phi$ ：token-级权重，提供微观稳定，抑制两端 token 的干扰（CHORD-φ）。两者可并用。(ar5iv)

3) 与“原始 SFT 梯度”的对比（为什么更稳）

原始 SFT 对第 $t$ 个 token 的梯度（对 logits）本质是 $(\text{softmax}-\text{onehot})$ 。在 CHORD-φ 中，这个梯度会被再乘上 $\phi(p_t)$ ：

当 $p_t\!\approx\!1$ ： $\phi\!\approx\!0$ ，避免把“已会的模式”越拉越紧（防熵塌陷）。
当 $p_t\!\approx\!0$ ： $\phi\!\approx\!0$ ，避免“分布外 token”把策略拉崩。
当 $p_t\!\approx\!0.5$ ： $\phi$ 最大，优先学习“最有信息增益”的 token。
论文的训练曲线也展示：加了 $\phi$ 后，熵更平稳、奖励更连续上升，从而能在 on-/off-policy 混合训练中保持探索与稳定的平衡。(ar5iv)

4) 放到实现视角的“一步到位”公式

把上面的三步合起来，CHORD-φ在一次更新中的目标就是：

$\boxed{\ \mathcal L(\theta)=(1-\mu)\,\mathcal L_{\text{GRPO}}(\theta)+\mu\left[-\frac{1}{T}\sum_{t=1}^{T}\underbrace{p_t(1-p_t)}_{\phi(p_t)}\,\log \pi_\theta(y_t^*|x,y_{<t}^*)\right]\ }.$

其中 $\mathcal L_{\text{GRPO}}$ 采用论文 §2 的无 KL、分组标准化优势、clip 比例形式； $\phi$ 与替换后的 $\mathcal L_{\text{SFT-}\phi}$ 来自 §3.3。(arXiv)

一句话再总结：相对“原始 SFT=平均交叉熵”，CHORD-φ 仅做一件事——把每个专家 token 的交叉熵乘上 $\phi(p)=p(1-p)$ ；然后用 $(1-\mu)$ 与 $\mu$ 把它和 GRPO 混合。这个“全局 $\mu$ + token 级 $\phi$ ”的双重控制，使 off-policy 专家信号既能“输血”，又不打乱 on-policy 探索的节奏。(arXiv)

三、专家 token

在这篇 CHORD 论文里，“专家 token”指的是专家示范序列 $y^*$ 中的逐个词元 $y^*_t$ ——也就是 SFT 数据集 $D_{\text{SFT}}$ 里由“专家”生成（离线、off-policy）的参考答案的每个 token，而不是当前策略在 on-policy rollout 中产生的 token。论文将 SFT 看作“学习专家示范 $y^*$ 的辅助目标”，并在公式里直接用到这些 $y^*_t$ 。(arxiv.org)

在 CHORD-ϕ 变体中，针对每个专家 token $y^*_t$ ，都会根据当前策略对该 token 的概率
$p_t=\pi_\theta(y^*_t \mid x, y^*_{<t})$ 赋予一个token 级动态权重 $\phi(y^*_t;\pi_\theta)=p_t(1-p_t)$ ，以弱化“极高/极低概率”的 token 学习信号、聚焦在模型最不确定的位置。(arxiv.org)