Introduction
- 作者提出 Length Controlled Policy Optimization (LCPO),使用 GRPO 将推理模型的生成长度控制在指定 budget 以内,由此训练得到的 L1 模型兼具 long-CoT 和 short-CoT 能力,能够通过指定不同的 budget 很好地实现精度和推理效率之间的平衡
- 值得一提的是,新发布的 Qwen-3 也实现了类似的效果,用户可以自由指定推理中使用的 budget
Method
- 用户给定 prompt
x
i
n
e
w
x_i^{new}
xinew,LCPO 需要模型的输出长度
n
y
n_y
ny 满足其中给定的 budget
n
g
o
l
d
,
i
n_{gold,i}
ngold,i
- L1-Exact. L1-Exact 采用 GRPO 优化如下的目标函数,使得模型输出长度尽可能接近给定 budget. 长度惩罚项为 L1 损失函数
其中,训练时的 n g o l d n_{gold} ngold 均匀采样自 100 ∼ 4000 100\sim 4000 100∼4000
- L1-Max. L1-Max 约束模型输出长度少于 budget,这个设定相比 L1-Exact 更加合理,用户在使用时通过 budget 设置最大能承担的推理成本,而模型负责在该 budget 以内进行简洁的推理。目标函数如下:
其中, δ = 0.5 , α = 0.0003 \delta=0.5,\alpha=0 .0003 δ=0.5,α=0.0003. L1-Max 由 L1-Exact 使用上述目标函数续训得到 (Q. 如果不续训可以吗?)
Experiments
- Models and Datasets. 数据集采用 DeepScaleR-Preview-Dataset,包含 40K 数学题。模型训练基于 DeepScaleR-1.5B-Preview,该模型由 Qwen-Distilled-R1-1.5B 通过强化学习续训得到。训练时最大生成长度 4K,推理时最大生成长度 8K. L1-Exact 训练 700 steps,L1-Max 基于 L1-Exact 继续训练 120 steps;baseline 中的 Agentica-4K 为 DeepScaleR-1.5B-Preview 用 4K 的训练生成长度做了续训,可以看作是 L1 的能力上界