RL-算法-20250815:CHORD中的CHORD-φ【把SFT(离策略、基于专家示范)与RL(在策略、基于回报)真正融合,把 SFT 视作在 RL 过程中的辅助项,不是独立阶段】

CHORD论文:《On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting》

CHORD-φ 精确地看成:在不改 SFT 目标结构的前提下,把每个专家 token 的损失项按“当前策略对该 token 的不确定度”动态加权,再与 on-policy RL 的 GRPO 损失做加权混合。

一、论文概述

论文(arXiv:2508.11408,v2 更新于 2025-10-10)最核心的点压缩成一页读懂版:

1、在解决什么问题

SFT(离策略、基于专家示范)RL(在策略、基于回报)真正融合。作者发现传统的“SFT→再RL”两阶段流程常出现策略迁移—再适配—过拟合的模式,甚至不如纯 RL 稳定与有效。(arXiv)

2、他们的做法:CHORD 框架(双重控制)

  • 统一视角:把 SFT 视作在 RL 过程中的辅助项,不是独立阶段。总损失用全局系数控制两者配比:
    L Hybrid = ( 1 − μ ) L GRPO + μ   L SFT \mathcal{L}_{\text{Hybrid}}=(1-\mu)\mathcal{L}_{\text{GRPO}}+\mu\,\mathcal{L}_{\text{SFT}} LHybrid=(1μ)LGRPO+μLSFT。(arXiv)
  • 细粒度稳定器(CHORD-ϕ):把 SFT 的每个“专家 token”按当前策略概率 p t p_t pt动态权重
    ϕ ( y t ∗ ; π θ ) = p t ( 1 − p t ) \phi(y_t^*;\pi_\theta)=p_t(1-p_t) ϕ(yt;πθ)=pt(1pt),在 p t  ⁣ ≈  ⁣ 0.5 p_t\!\approx\!0.5 pt0.5 时最重、在两端趋零;据此把 SFT 改成
    L SFT- ϕ = − ∑ t ϕ ( ⋅ ) log ⁡ π θ ( y t ∗ ∣ ⋅ ) \mathcal{L}_{\text{SFT-}\phi}=-\sum_t \phi(\cdot)\log \pi_\theta(y_t^*|\cdot) LSFT-ϕ=tϕ()logπθ(yt)。它抑制高/低概率两端,集中学“不确定”且信息量大的 token。(arXiv)

直观理解: μ \mu μ 负责宏观配重(从模仿到探索的过渡), ϕ \phi ϕ 负责微观筛选(避免熵塌陷与被分布外示范扰乱)。(arXiv)

3、实验怎么说

  • 设置:数学推理用 OpenR1-Math-220k(SFT 5k、RL 20k),策略模型 Qwen2.5-7B-Instruct;工具使用任务用 ToolAce,策略模型 LLaMA3.2-3B-Instruct;专家示范由 DeepSeek-R1 生成。(arXiv)
  • 主结果(Table 1):在 AMC/AIME24/AIME25/MMLU-Pro 与 **BFCL(工具使用)**上,
    CHORD-μ 超过强力的 “SFT-best+RL”;CHORD-ϕ 进一步拿到最好总体分数(例如 BFCL-Overall 78.5 vs 77.1 的纯 RL)。(arXiv)
  • 训练动态:引入 ϕ \phi ϕ 后,熵更平稳、奖励持续上升;当用 ϕ \phi ϕ 做细粒度控制时, μ \mu μ 不再需要复杂日程,固定值即可稳定工作。(arXiv)

4、一句话结论

CHORD 用“全局 μ \mu μ+token 级 ϕ \phi ϕ”把离策略的专家示范温和、可控地注入在策略 RL,既保留探索,又吸收有益模式,整体优于两阶段 SFT→RL 及多种混合基线。代码已开源(Trinity-RFT/mix_chord)。(arXiv)

二、从原始 SFT 到按 token 加权的CHORD-φ

1) 从原始 SFT 到按 token 加权的 SFT-φ

原始 SFT(teacher forcing)对样本 ( x , y ∗ ) (x, y^*) (x,y) 的损失是

L SFT ( x , y ∗ )    =    −   1 T ∑ t = 1 T log ⁡ π θ  ⁣ ( y t ∗ ∣ x , y < t ∗ ) , \mathcal L_{\text{SFT}}(x,y^*) \;=\; -\,\frac{1}{T}\sum_{t=1}^{T}\log \pi_\theta\!\big(y_t^*\mid x, y_{<t}^*\big), LSFT(x,y)=T1t=1Tlogπθ(ytx,y<t),

论文在“Preliminaries”把它写成对 batch/序列求平均的标准 NLL(式(1))。(arXiv)

CHORD-φ 保留这套结构,只把每个 token 的项乘上一个动态权重

w t    =    ϕ  ⁣ ( p t ) , p t = π θ  ⁣ ( y t ∗ ∣ x , y < t ∗ ) , w_t \;=\; \phi\!\big(p_t\big),\qquad p_t=\pi_\theta\!\big(y_t^*\mid x, y_{<t}^*\big), wt=ϕ(pt),pt=πθ(ytx,y<t),

并取

ϕ ( p t ) = p t   ( 1 − p t )    ( 抛物线,  p  ⁣ ≈  ⁣ 0.5  最大, p  ⁣ →  ⁣ 0 / 1  趋零 ) , \phi(p_t)=p_t\,(1-p_t)\ \ (\text{抛物线,}\ p\!\approx\!0.5\ \text{最大,}p\!\to\!0/1\ \text{趋零}), ϕ(pt)=pt(1pt)  (抛物线, p0.5 最大,p0/1 趋零),

于是得到按 token 加权的 SFT

  L SFT- ϕ    =    − 1 T ∑ t = 1 T ϕ ( p t )   log ⁡ π θ ( y t ∗ ∣ x , y < t ∗ )   . \boxed{\ \mathcal L_{\text{SFT-}\phi}\;=\;-\frac{1}{T}\sum_{t=1}^{T}\phi(p_t)\,\log \pi_\theta(y_t^*|x,y_{<t}^*)\ }.  LSFT-ϕ=T1t=1Tϕ(pt)logπθ(ytx,y<t) .

论文在 §3.3 明确给出“在两端(极高/极低概率)下调,聚焦中间不确定 token”的定义与直觉,并给出该 ϕ \phi ϕ 的形式与更新后的 SFT 目标(文中式(5)(6))。(ar5iv)

直觉:高概率 token 本来就“会”,继续强压会熵塌陷、压制探索;极低概率 token 往往分布冲突、噪声大,强学会扰乱既有策略。把学习火力集中在模型最不确定的位置更稳健。论文也从信息论角度把 p ( 1 − p ) p(1-p) p(1p) 解释为“生成该 token 的二元事件不确定度”。(ar5iv)

2) 与 CHORD 总目标的关系

CHORD 把 on-policy 的 GRPO 与 off-policy 的 SFT 放进一个混合损失(式(3)):

L CHORD = ( 1 − μ )   L GRPO + μ   L SFT . \mathcal L_{\text{CHORD}}=(1-\mu)\,\mathcal L_{\text{GRPO}}+\mu\,\mathcal L_{\text{SFT}}. LCHORD=(1μ)LGRPO+μLSFT.

CHORD-φ 中,仅把上式里的 L SFT \mathcal L_{\text{SFT}} LSFT 替换为 L SFT- ϕ \mathcal L_{\text{SFT-}\phi} LSFT-ϕ,形成“全局系数 μ \mu μ+细粒度 ϕ \phi ϕ”的双重控制;论文也明确写到“用 L SFT- ϕ \mathcal L_{\text{SFT-}\phi} LSFT-ϕ 取代静态的 L SFT \mathcal L_{\text{SFT}} LSFT 得到最终目标”。(arXiv)

  • μ \mu μ:全局权重,控制“从模仿到探索”的宏观过渡;可以固定或按日程衰减(CHORD-μ)。(arXiv)
  • ϕ \phi ϕ:token-级权重,提供微观稳定,抑制两端 token 的干扰(CHORD-φ)。两者可并用。(ar5iv)

3) 与“原始 SFT 梯度”的对比(为什么更稳)

原始 SFT 对第 t t t 个 token 的梯度(对 logits)本质是 ( softmax − onehot ) (\text{softmax}-\text{onehot}) (softmaxonehot)。在 CHORD-φ 中,这个梯度会被再乘上 ϕ ( p t ) \phi(p_t) ϕ(pt)

  • p t  ⁣ ≈  ⁣ 1 p_t\!\approx\!1 pt1 ϕ  ⁣ ≈  ⁣ 0 \phi\!\approx\!0 ϕ0,避免把“已会的模式”越拉越紧(防熵塌陷)。
  • p t  ⁣ ≈  ⁣ 0 p_t\!\approx\!0 pt0 ϕ  ⁣ ≈  ⁣ 0 \phi\!\approx\!0 ϕ0,避免“分布外 token”把策略拉崩。
  • p t  ⁣ ≈  ⁣ 0.5 p_t\!\approx\!0.5 pt0.5 ϕ \phi ϕ 最大,优先学习“最有信息增益”的 token。
    论文的训练曲线也展示:加了 ϕ \phi ϕ 后,熵更平稳、奖励更连续上升,从而能在 on-/off-policy 混合训练中保持探索与稳定的平衡。(ar5iv)

4) 放到实现视角的“一步到位”公式

把上面的三步合起来,CHORD-φ在一次更新中的目标就是:

  L ( θ ) = ( 1 − μ )   L GRPO ( θ ) + μ [ − 1 T ∑ t = 1 T p t ( 1 − p t ) ⏟ ϕ ( p t )   log ⁡ π θ ( y t ∗ ∣ x , y < t ∗ ) ]   . \boxed{\ \mathcal L(\theta)=(1-\mu)\,\mathcal L_{\text{GRPO}}(\theta)+\mu\left[-\frac{1}{T}\sum_{t=1}^{T}\underbrace{p_t(1-p_t)}_{\phi(p_t)}\,\log \pi_\theta(y_t^*|x,y_{<t}^*)\right]\ }.  L(θ)=(1μ)LGRPO(θ)+μ T1t=1Tϕ(pt) pt(1pt)logπθ(ytx,y<t)  .

其中 L GRPO \mathcal L_{\text{GRPO}} LGRPO 采用论文 §2 的无 KL、分组标准化优势、clip 比例形式; ϕ \phi ϕ 与替换后的 L SFT- ϕ \mathcal L_{\text{SFT-}\phi} LSFT-ϕ 来自 §3.3。(arXiv)


一句话再总结:相对“原始 SFT=平均交叉熵”,CHORD-φ 仅做一件事——把每个专家 token 的交叉熵乘上 ϕ ( p ) = p ( 1 − p ) \phi(p)=p(1-p) ϕ(p)=p(1p);然后用 ( 1 − μ ) (1-\mu) (1μ) μ \mu μ 把它和 GRPO 混合。这个“全局 μ \mu μ + token 级 ϕ \phi ϕ”的双重控制,使 off-policy 专家信号既能“输血”,又不打乱 on-policy 探索的节奏。(arXiv)

三、专家 token

在这篇 CHORD 论文里,“专家 token”指的是专家示范序列 y ∗ y^* y 中的逐个词元 y t ∗ y^*_t yt——也就是 SFT 数据集 D SFT D_{\text{SFT}} DSFT 里由“专家”生成(离线、off-policy)的参考答案的每个 token,而不是当前策略在 on-policy rollout 中产生的 token。论文将 SFT 看作“学习专家示范 y ∗ y^* y 的辅助目标”,并在公式里直接用到这些 y t ∗ y^*_t yt。(arxiv.org)

CHORD-ϕ 变体中,针对每个专家 token y t ∗ y^*_t yt,都会根据当前策略对该 token 的概率
p t = π θ ( y t ∗ ∣ x , y < t ∗ ) p_t=\pi_\theta(y^*_t \mid x, y^*_{<t}) pt=πθ(ytx,y<t) 赋予一个token 级动态权重 ϕ ( y t ∗ ; π θ ) = p t ( 1 − p t ) \phi(y^*_t;\pi_\theta)=p_t(1-p_t) ϕ(yt;πθ)=pt(1pt),以弱化“极高/极低概率”的 token 学习信号、聚焦在模型最不确定的位置。(arxiv.org)

论文的实验里,这些“专家示范/轨迹”具体来自更强的外部模型(如 DeepSeek-R1)生成的答案,因此相应的 专家 tokens 就是这些答案序列中的词元。(arxiv.org)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值