把 CHORD-φ 精确地看成:在不改 SFT 目标结构的前提下,把每个专家 token 的损失项按“当前策略对该 token 的不确定度”动态加权,再与 on-policy RL 的 GRPO 损失做加权混合。
一、论文概述
论文(arXiv:2508.11408,v2 更新于 2025-10-10)最核心的点压缩成一页读懂版:
1、在解决什么问题
把SFT(离策略、基于专家示范)与RL(在策略、基于回报)真正融合。作者发现传统的“SFT→再RL”两阶段流程常出现策略迁移—再适配—过拟合的模式,甚至不如纯 RL 稳定与有效。(arXiv)
2、他们的做法:CHORD 框架(双重控制)
- 统一视角:把 SFT 视作在 RL 过程中的辅助项,不是独立阶段。总损失用全局系数控制两者配比:
L Hybrid = ( 1 − μ ) L GRPO + μ L SFT \mathcal{L}_{\text{Hybrid}}=(1-\mu)\mathcal{L}_{\text{GRPO}}+\mu\,\mathcal{L}_{\text{SFT}} LHybrid=(1−μ)LGRPO+μLSFT。(arXiv) - 细粒度稳定器(CHORD-ϕ):把 SFT 的每个“专家 token”按当前策略概率
p
t
p_t
pt 赋动态权重
ϕ ( y t ∗ ; π θ ) = p t ( 1 − p t ) \phi(y_t^*;\pi_\theta)=p_t(1-p_t) ϕ(yt∗;πθ)=pt(1−pt),在 p t ≈ 0.5 p_t\!\approx\!0.5 pt≈0.5 时最重、在两端趋零;据此把 SFT 改成
L SFT- ϕ = − ∑ t ϕ ( ⋅ ) log π θ ( y t ∗ ∣ ⋅ ) \mathcal{L}_{\text{SFT-}\phi}=-\sum_t \phi(\cdot)\log \pi_\theta(y_t^*|\cdot) LSFT-ϕ=−∑tϕ(⋅)logπθ(yt∗∣⋅)。它抑制高/低概率两端,集中学“不确定”且信息量大的 token。(arXiv)
直观理解: μ \mu μ 负责宏观配重(从模仿到探索的过渡), ϕ \phi ϕ 负责微观筛选(避免熵塌陷与被分布外示范扰乱)。(arXiv)
3、实验怎么说
- 设置:数学推理用 OpenR1-Math-220k(SFT 5k、RL 20k),策略模型 Qwen2.5-7B-Instruct;工具使用任务用 ToolAce,策略模型 LLaMA3.2-3B-Instruct;专家示范由 DeepSeek-R1 生成。(arXiv)
- 主结果(Table 1):在 AMC/AIME24/AIME25/MMLU-Pro 与 **BFCL(工具使用)**上,
CHORD-μ 超过强力的 “SFT-best+RL”;CHORD-ϕ 进一步拿到最好总体分数(例如 BFCL-Overall 78.5 vs 77.1 的纯 RL)。(arXiv) - 训练动态:引入 ϕ \phi ϕ 后,熵更平稳、奖励持续上升;当用 ϕ \phi ϕ 做细粒度控制时, μ \mu μ 不再需要复杂日程,固定值即可稳定工作。(arXiv)
4、一句话结论
CHORD 用“全局 μ \mu μ+token 级 ϕ \phi ϕ”把离策略的专家示范温和、可控地注入在策略 RL,既保留探索,又吸收有益模式,整体优于两阶段 SFT→RL 及多种混合基线。代码已开源(Trinity-RFT/mix_chord)。(arXiv)
二、从原始 SFT 到按 token 加权的CHORD-φ
1) 从原始 SFT 到按 token 加权的 SFT-φ
原始 SFT(teacher forcing)对样本 ( x , y ∗ ) (x, y^*) (x,y∗) 的损失是
L SFT ( x , y ∗ ) = − 1 T ∑ t = 1 T log π θ ( y t ∗ ∣ x , y < t ∗ ) , \mathcal L_{\text{SFT}}(x,y^*) \;=\; -\,\frac{1}{T}\sum_{t=1}^{T}\log \pi_\theta\!\big(y_t^*\mid x, y_{<t}^*\big), LSFT(x,y∗)=−T1t=1∑Tlogπθ(yt∗∣x,y<t∗),
论文在“Preliminaries”把它写成对 batch/序列求平均的标准 NLL(式(1))。(arXiv)
CHORD-φ 保留这套结构,只把每个 token 的项乘上一个动态权重
w t = ϕ ( p t ) , p t = π θ ( y t ∗ ∣ x , y < t ∗ ) , w_t \;=\; \phi\!\big(p_t\big),\qquad p_t=\pi_\theta\!\big(y_t^*\mid x, y_{<t}^*\big), wt=ϕ(pt),pt=πθ(yt∗∣x,y<t∗),
并取
ϕ ( p t ) = p t ( 1 − p t ) ( 抛物线, p ≈ 0.5 最大, p → 0 / 1 趋零 ) , \phi(p_t)=p_t\,(1-p_t)\ \ (\text{抛物线,}\ p\!\approx\!0.5\ \text{最大,}p\!\to\!0/1\ \text{趋零}), ϕ(pt)=pt(1−pt) (抛物线, p≈0.5 最大,p→0/1 趋零),
于是得到按 token 加权的 SFT:
L SFT- ϕ = − 1 T ∑ t = 1 T ϕ ( p t ) log π θ ( y t ∗ ∣ x , y < t ∗ ) . \boxed{\ \mathcal L_{\text{SFT-}\phi}\;=\;-\frac{1}{T}\sum_{t=1}^{T}\phi(p_t)\,\log \pi_\theta(y_t^*|x,y_{<t}^*)\ }. LSFT-ϕ=−T1t=1∑Tϕ(pt)logπθ(yt∗∣x,y<t∗) .
论文在 §3.3 明确给出“在两端(极高/极低概率)下调,聚焦中间不确定 token”的定义与直觉,并给出该 ϕ \phi ϕ 的形式与更新后的 SFT 目标(文中式(5)(6))。(ar5iv)
直觉:高概率 token 本来就“会”,继续强压会熵塌陷、压制探索;极低概率 token 往往分布冲突、噪声大,强学会扰乱既有策略。把学习火力集中在模型最不确定的位置更稳健。论文也从信息论角度把 p ( 1 − p ) p(1-p) p(1−p) 解释为“生成该 token 的二元事件不确定度”。(ar5iv)
2) 与 CHORD 总目标的关系
CHORD 把 on-policy 的 GRPO 与 off-policy 的 SFT 放进一个混合损失(式(3)):
L CHORD = ( 1 − μ ) L GRPO + μ L SFT . \mathcal L_{\text{CHORD}}=(1-\mu)\,\mathcal L_{\text{GRPO}}+\mu\,\mathcal L_{\text{SFT}}. LCHORD=(1−μ)LGRPO+μLSFT.
在 CHORD-φ 中,仅把上式里的 L SFT \mathcal L_{\text{SFT}} LSFT 替换为 L SFT- ϕ \mathcal L_{\text{SFT-}\phi} LSFT-ϕ,形成“全局系数 μ \mu μ+细粒度 ϕ \phi ϕ”的双重控制;论文也明确写到“用 L SFT- ϕ \mathcal L_{\text{SFT-}\phi} LSFT-ϕ 取代静态的 L SFT \mathcal L_{\text{SFT}} LSFT 得到最终目标”。(arXiv)
- μ \mu μ:全局权重,控制“从模仿到探索”的宏观过渡;可以固定或按日程衰减(CHORD-μ)。(arXiv)
- ϕ \phi ϕ:token-级权重,提供微观稳定,抑制两端 token 的干扰(CHORD-φ)。两者可并用。(ar5iv)
3) 与“原始 SFT 梯度”的对比(为什么更稳)
原始 SFT 对第 t t t 个 token 的梯度(对 logits)本质是 ( softmax − onehot ) (\text{softmax}-\text{onehot}) (softmax−onehot)。在 CHORD-φ 中,这个梯度会被再乘上 ϕ ( p t ) \phi(p_t) ϕ(pt):
- 当 p t ≈ 1 p_t\!\approx\!1 pt≈1: ϕ ≈ 0 \phi\!\approx\!0 ϕ≈0,避免把“已会的模式”越拉越紧(防熵塌陷)。
- 当 p t ≈ 0 p_t\!\approx\!0 pt≈0: ϕ ≈ 0 \phi\!\approx\!0 ϕ≈0,避免“分布外 token”把策略拉崩。
- 当
p
t
≈
0.5
p_t\!\approx\!0.5
pt≈0.5:
ϕ
\phi
ϕ 最大,优先学习“最有信息增益”的 token。
论文的训练曲线也展示:加了 ϕ \phi ϕ 后,熵更平稳、奖励更连续上升,从而能在 on-/off-policy 混合训练中保持探索与稳定的平衡。(ar5iv)
4) 放到实现视角的“一步到位”公式
把上面的三步合起来,CHORD-φ在一次更新中的目标就是:
L ( θ ) = ( 1 − μ ) L GRPO ( θ ) + μ [ − 1 T ∑ t = 1 T p t ( 1 − p t ) ⏟ ϕ ( p t ) log π θ ( y t ∗ ∣ x , y < t ∗ ) ] . \boxed{\ \mathcal L(\theta)=(1-\mu)\,\mathcal L_{\text{GRPO}}(\theta)+\mu\left[-\frac{1}{T}\sum_{t=1}^{T}\underbrace{p_t(1-p_t)}_{\phi(p_t)}\,\log \pi_\theta(y_t^*|x,y_{<t}^*)\right]\ }. L(θ)=(1−μ)LGRPO(θ)+μ −T1t=1∑Tϕ(pt) pt(1−pt)logπθ(yt∗∣x,y<t∗) .
其中 L GRPO \mathcal L_{\text{GRPO}} LGRPO 采用论文 §2 的无 KL、分组标准化优势、clip 比例形式; ϕ \phi ϕ 与替换后的 L SFT- ϕ \mathcal L_{\text{SFT-}\phi} LSFT-ϕ 来自 §3.3。(arXiv)
一句话再总结:相对“原始 SFT=平均交叉熵”,CHORD-φ 仅做一件事——把每个专家 token 的交叉熵乘上 ϕ ( p ) = p ( 1 − p ) \phi(p)=p(1-p) ϕ(p)=p(1−p);然后用 ( 1 − μ ) (1-\mu) (1−μ) 与 μ \mu μ 把它和 GRPO 混合。这个“全局 μ \mu μ + token 级 ϕ \phi ϕ”的双重控制,使 off-policy 专家信号既能“输血”,又不打乱 on-policy 探索的节奏。(arXiv)
三、专家 token
在这篇 CHORD 论文里,“专家 token”指的是专家示范序列 y ∗ y^* y∗ 中的逐个词元 y t ∗ y^*_t yt∗——也就是 SFT 数据集 D SFT D_{\text{SFT}} DSFT 里由“专家”生成(离线、off-policy)的参考答案的每个 token,而不是当前策略在 on-policy rollout 中产生的 token。论文将 SFT 看作“学习专家示范 y ∗ y^* y∗ 的辅助目标”,并在公式里直接用到这些 y t ∗ y^*_t yt∗。(arxiv.org)
在 CHORD-ϕ 变体中,针对每个专家 token
y
t
∗
y^*_t
yt∗,都会根据当前策略对该 token 的概率
p
t
=
π
θ
(
y
t
∗
∣
x
,
y
<
t
∗
)
p_t=\pi_\theta(y^*_t \mid x, y^*_{<t})
pt=πθ(yt∗∣x,y<t∗) 赋予一个token 级动态权重
ϕ
(
y
t
∗
;
π
θ
)
=
p
t
(
1
−
p
t
)
\phi(y^*_t;\pi_\theta)=p_t(1-p_t)
ϕ(yt∗;πθ)=pt(1−pt),以弱化“极高/极低概率”的 token 学习信号、聚焦在模型最不确定的位置。(arxiv.org)
论文的实验里,这些“专家示范/轨迹”具体来自更强的外部模型(如 DeepSeek-R1)生成的答案,因此相应的 专家 tokens 就是这些答案序列中的词元。(arxiv.org)
1071

被折叠的 条评论
为什么被折叠?



