L1 用 1.5B 参数干翻 GPT-4o | LcPo训练突破推理长度可控难题，让强化学习实现精准控长-CSDN博客

本文链接：https://blog.csdn.net/2401_85375151/article/details/147702500

导读

推理语言模型展现出一种令人惊讶的能力，通过“思考更长”——即生成更长的思维链序列，从而使用更多的计算资源——在测试时提高性能。然而，它们思维链推理的长度是不可控的，这使得无法分配测试时的计算资源以达到期望的性能水平。作者引入了长度可控策略优化（LcPo），这是一种简单的强化学习方法，旨在优化准确性和遵守用户指定的长度约束。作者使用LcPo训练了L1，这是一种推理语言模型，能够根据其 Prompt 生成满足长度约束的输出。L1的长度控制允许在广泛的任务中平滑地权衡计算成本和准确性，并且优于用于长度控制的现有最先进方法S1。此外，作者发现使用LcPo训练的模型具有意想不到的短思维链能力。例如，1.5B L1模型在相同的推理长度下超过了GPT-4o。总的来说，LcPo实现了对推理长度的精确控制，允许对测试时的计算资源和准确性进行细致的分配。

1 引言

一类新兴的推理语言模型通过在解决复杂问题时进行更长时间的思考来提高测试时的性能——即通过生成扩展的思考链序列，从而使用更多的计算资源。然而，当前推理模型存在一个关键限制：推理的长度无法控制，这使得无法分配测试时的计算预算以达到目标性能水平。在某些情况下，序列跨越数万个 Token ，浪费了计算资源，而在其他情况下，模型在复杂问题上的停止过早。

近期方法如S1试图通过迫使模型在生成时产生特殊 Token （例如，“等待”，“最终答案”）来实现长度控制。

然而，这种严格、手动设计的策略与底层模型相比，性能严重下降（图1）。其他研究探讨了在指令遵循和通用领域中控制输出长度。然而，推理模型面临着根本性的新挑战，例如输出长度大大增加，以及需要在计算成本和性能改进之间进行权衡。

作者提出了一种名为长度控制策略优化（Lcpo）的简单强化学习（RL）方法，该方法为推理语言模型提供了精确和自适应的长度控制。LcPo训练模型以满足两个目标：（1）最终输出的正确性，以及（2）生成满足 Prompt 中指定长度约束的推理序列。在此过程中，LCPo训练的模型学会在优化推理性能的同时满足长度约束，而不是依赖于手工设计的启发式方法。

作者实验了两种实用的约束条件：（1）LcPo-Exact，要求生成的推理与目标长度完全相等；（2）LcPo-Max，要求输出长度不超过目标长度。作者使用LcPo微调基于Qwen-Distilled-R1-1.5B的1.5B参数推理模型，生成L1-Max和L1-Exact。作者的L1模型可以精确地权衡 Token 预算和推理性能，通过简单地用不同长度的约束 Prompt 模型，在短而高效的推理和长而更准确的推理之间平滑地插值（图1）。关键的是，这个权衡曲线上的一个点恢复了原始基模型的性能，同时在推理长度的整个范围内，性能优于S1（图1）。在数学推理任务中，在相同条件下，L1相对于S1的性能提高了高达10\breve{0}%（相对）和20%（绝对）。

在标准数学推理设置中，除了改进长度控制外，作者发现LCPO训练的模型在分布外任务上的泛化能力出奇地好，包括逻辑推理和通用知识基准如MMLU（Hendrycks等，2021a）。此外，作者表明，使用LcPo训练的“长CoT”模型成为意想不到的强大“短CoT”模型：当被 Prompt 生成短推理轨迹时，LCPO训练的模型在相同生成长度下，其表现优于原始模型，甚至提高了10%。据作者所知，这是首次展示一个1.5B模型在相同token预算下能够匹配GPT-4o（OpenAI等，2024b）的性能。

总之，作者的贡献包括：

• 作者引入了长度控制策略优化（LcPo），这是第一个基于强化学习的训练推理语言模型的方法，该模型能够生成符合用户指定长度约束的输出。
• 作者使用LcPo来训练L1，该模型在长度控制方面表现出高度的能力，并在具有挑战性的数学推理基准测试中，在固定的token预算下实现了最先进的推理准确率。
• 作者表明长度控制（L1）的原理不仅适用于数学推理任务，还推广到了各种分布外的任务，包括逻辑推理和通用领域基准（MMLU）。
• 作者证明了LcPo训练的模型可以作为强大的短CoT模型，尽管使用了相同的token预算，但其在性能上显著优于其非推理版本，以及像GPT-4o这样规模更大的模型。

2 相关工作

测试时缩放在大语言模型中的应用。测试时计算量的增加一直被证明可以改善复杂推理任务、数学问题解决和代码生成的性能。测试时缩放定律表明，通过增加推理计算量，无论是生成更多的推理链还是更长的推理链，都可以获得可预测的性能提升。显著的方法包括多推理路径的并行采样、基于树的搜索和迭代细化技术。最近的推理语言模型如“O1”和“R1”风格的模型通过生成扩展的推理轨迹（更长的思维链）简化了测试时缩放。尽管这些方法取得了有希望的结果，但它们缺乏对生成的推理链长度的精确和动态控制，导致性能往往不理想或未能实现潜在的效率提升。

作者的工作通过使推理模型能够精确控制生成输出的长度，从而为根据特定任务需求调整推理计算提供了灵活性，从而补充并扩展了这一研究路线。

大语言模型长度控制。控制LLM生成输出的长度是各种生成任务中的重要实际考虑因素。迄今为止L1包括架构修改——例如通过操作位置编码来实现精确的序列长度生成——训练目标调整以显式地强制执行长度约束，或者直接在带有期望输出长度的指令风格数据上训练模型。关于长度控制的前期工作主要分为两大使用场景。第一种主要旨在减少不必要的冗余（如RLHF调整后的指令跟随模型通常所期望的），而第二种旨在施加最大长度预算或实现精确的 Token Level 长度遵循。然而，现有方法主要关注通用文本生成或指令跟随场景，在这些场景中，成本-质量效率权衡不那么关键或尚未得到解决。作者的工作解决了推理模型中存在的新的挑战。

针对推理任务的长度控制仍相对未被充分探索。近期的研究，如Arora和Zanette（2025）以及Kang等人（2024）的工作，强调了生成更短的推理链以提高效率，但它们并未实现显式的长度控制或与用户指定的推理预算的精确对齐。另一项工作S1通过施加严格的 Token 限制引入了“预算强制”机制：在预算耗尽时截断输出，或者插入特殊 Token （“等待”）以请求继续生成直到达到完整的长度预算。遗憾的是，这种策略存在显著的实践缺点。突然截断往往会在推理过程中中断，对模型准确性和用户可解释性产生负面影响。同时，特殊续接 Token 的重复使用可能导致僵化和次优的推理模式。

与这些先前的工作相比，作者的LCPo独特地设计用于训练推理专用模型，以实现精确和自适应的长度控制。LcPo利用强化学习，使模型能够根据 Prompt 中提供的约束动态分配推理计算。正如作者的实验将展示的那样，L1在长度控制精度和不同长度预算下的性能方面显著优于先前的方法。

3 方法

当前推理语言模型缺乏控制其生成推理轨迹长度的显式机制。这一限制阻碍了用户和下游应用根据特定任务需求或可用计算资源，明确调整推理计算预算（生成的 Token 数量）。

在本工作中，作者通过在 Prompt 中条件化模型以目标 Token 长度来解决这个问题。形式上，给定一个输入 Prompt 和一个目标长度，模型被期望生成一个响应，其长度最小化绝对差异，同时产生正确的答案。这种公式直接将准确性与输出长度耦合，确保生成的思维链遵守用户指定的约束。

长度控制策略优化。作者从一个预训练的推理语言模型和数据集开始，其中每个实例仅包含输入 Prompt 和最终答案（即没有中间推理轨迹）。为了实现长度控制，作者将每个 Prompt 通过附加目标长度指令进行扩展。具体来说，作者形成

其中从中均匀采样。这种增强产生了一个新的数据集。然后，作者使用强化学习目标来更新。在作者的实验中，作者采用 GRPO（Shao et al., 2024）（尽管该方法与其他算法兼容）。作者的奖励函数结合了两个术语：正确性奖励和长度惩罚。其定义如下：

其中是指示函数，是生成的输出长度，是一个标量，用于调节生成正确答案和满足目标长度之间的权衡。在实践中，的值较低时，在正确性至关重要的场合会优先考虑正确性，而较高的值则强制执行更严格的长度约束。值得注意的是，奖励函数具有双重作用：(a) 它鼓励模型生成正确答案，同时在请求较短的输出时隐式地偏好简洁的推理过程，以及(b) 它始终激励模型匹配规定的目标长度，即使生成正确答案可以使用更少的 Token 。作者将使用此目标训练的模型称为 L1-Exact。

在推理过程中，输出长度通过选择一个固定的目标长度（或一系列长度）并将其均匀地附加到每个测试 Prompt 上来进行控制。

最大长度约束模式。作者进一步训练了L1的一个变体，称为L1-Max，它能够在尊重最大长度约束的同时灵活生成不同长度的输出。当用户更重视保持在计算预算内而不是严格遵循生成长度时，这种方法非常有价值。为了训练L1-Max，作者使用相同的强化学习框架对L1-Exact模型进行微调，但修改了奖励函数：

其中，控制长度违规的惩罚力度。该公式应用了一种软约束，该约束（1）逐渐惩罚超出目标长度的输出，而不是实施硬截止（这在确保GRPO目标中的梯度传播是必要的），（2）激励模型在可能的情况下使用更少的 Token 而不牺牲正确性。这一项确保了即使有轻微的预算违规，正确的答案仍然比错误的答案更受青睐。此外，L1-Max 在双重目标下进行训练：当 Prompt 要求精确长度时，模型使用公式1；否则，它默认使用公式2的最大约束模式。

4 实验设置

模型与数据集。作者在DeepScaleR-Preview-Dataset上进行训练，这是一个数学数据集，包含从AIME、AMC、Omni-Math和STILL中抽取的40K个问答对。作者在4个不同的推理数据集的测试集上评估L1：AIME 2025、MATH、AMC、Olympiad-Bench，此外还有GPQA、LSAT和MMLU。作者的基础模型是DeepScaleR-1.5B-Preview，这是一个1.5B参数模型，最初在该数据集上通过RL微调（从DeepSeekR1-Distill-Qwen-1.5B）完成，上下文长度为24K个token。由于计算限制，作者在训练期间将最大上下文长度限制为4K个token，在评估期间限制为8K个token。该模型进一步使用LCPO-Exact目标（公式1）进行700步微调，得到的模型被称为L1-Exact。该模型进一步使用公式2中提到的目标进行120步RL微调，得到的模型被称为L1-Max。

Baseline 。作者将所L1与以下 Baseline 进行比较评估：

• DeepSeek-R1-Distill-Qwen-1.5B：这是基于DeepSeek的R1模型推理轨迹微调的Qwen-2.5-1.5B-Instruct的SFT版本。为了简便，作者称此模型为DeepSeek-Ri-1.5B。
• DeepScaleR-1.5B-Preview：原始模型，未进行任何长度控制修改。为了简便，作者称此模型为Agentica-24K。
• DeepScaleR-1.5B-Preview-4K：这是对Agentic-24K进行微调且上下文长度为4K版本。这样做是因为训练LcPo时，长序列长度（如Agentica-24K中使用的24K）的计算限制。因此，该模型可以作为与L1的公平比较。为了简洁，作者将其称为Agentica-4K。
• S1：（Muennighoff et al., 2025）是一种预算强制方法，通过简单的测试时干预来控制推理长度。作者在Agentica-24K模型上实现了这种方法。

评估协议。作者沿着两个维度评估L1。首先，作者通过报告生成的token长度与目标长度之间的平均偏差来评估模型遵循目标长度的能力。其次，作者评估在不同目标长度下生成响应的整体性能（即问题解决准确性）。在作者的实验中，目标长度从 tokens中选择。

超参数和实现细节。对于GRPO的训练，作者采用与DeepScaleR-1.5B-Preview相同的超参数。具体来说，作者使用学习率为1e-6，批大小为128。训练时的最大上下文长度设置为4K个 Token ，在评估期间扩展到8K个 Token 。训练使用VeRL框架（MLSys, 2025）进行，共700步。在训练过程中，目标长度从中均匀采样，其中作者设定，。方程1中的平衡参数固定为0.0003。请注意，作者没有进行广泛的超参数调整，因此可以预期通过额外的优化会有进一步的改进。

5 结果与分析

在本节中，作者报告并分析了所L1（LcPo）在各种设置和基准测试中的有效性。作者评估了该方法在相对性能、跨领域任务上的泛化能力、长度约束的可控性以及短思维链（CoT）设置中的竞争性能，并检验了学习到的推理行为。

L1在保持强大性能的同时，显著优于其他长度控制模型。图2比较了L1-Exact和L1-Max在不同生成长度下与其他 Baseline 模型的表现。L1的两个变体在所有 Token 预算下都实现了优异的性能，同时保持了精确的长度控制。与专门为长度控制设计的唯一其他方法S1相比，L1表现出显著的改进，在512和1024 Token 预算下，相对于S1，L1的相对性能提升了100%至150%，绝对性能提升了20%至25%。这种显著差异可以归因于两个关键因素：（1）L1智能地调整其思维链以适应指定的长度限制，而不会打断推理过程，而S1通常会在推理过程中截断；（2）L1被明确训练以生成不同长度的优质推理链，有效地从较长的推理链中提炼出推理模式到较短的链中。

此外，使用L1时，作者观察到对数线性缩放模式，类似于OpenAI之前的工作O1和S1——性能随着生成的推理链的对数长度线性提高。然而，L1的这种缩放曲线表现出明显较小的斜率（0.24与S1的0.37斜率相比），表明在较低 Token 范围内具有显著提高的有效性。

L1-Exact的性能大约比Agentica-4K低1%，而Agentica-4K与L1具有相同的底层模型，但未经长度限制训练。然而，这种差异主要在AIME数据集中观察到，在该数据集中，无约束模型可以为复杂问题生成非常长的链。此外，L1-Exact对所有问题分配相同的token预算，不考虑难度，可能在简单问题上使用额外的token。L1-Max有效地缓解了这一挑战，通过根据问题难度优化token使用并尊重上限，其性能与Agentica-4K相匹配。在此过程中，它经常比L1-Exact多节省高达2倍的token。当精确的token计数不如最坏情况下的计算预算重要时，L1-Max尤其有价值。最后，缩放趋势表明，随着更长上下文训练，L1将匹配甚至超越Agentica-24K的性能，同时保持高度的控制长度。

L1在域外（OOD）任务中具有有效的泛化能力。作者评估了L1将长度控制能力泛化到其RL训练分布之外的域的能力。作者将域外（OOD）数据集分为以下几类：一般推理数据集GPQA和LSAT，这些数据集在L1的训练中并未被明确使用，但可能位于DeepSeek-R1-1.5B的训练域内；以及MMLU，它可能甚至超出了DeepSeek-R1-1.5B的训练分布。

L1在遵循长度约束方面具有高精度。作者定量评估了L1在各个数学推理数据集上遵循长度约束的能力。如图4所示，L1在所有 Token 预算（512、1024、2048和3600个 Token ）上均保持一致的控制，观察到的输出长度通常与请求的长度非常接近。此外，如图5所示，作者展示了平均误差：(Ex~Dnlgealea-ngold)，它捕捉了数据集中目标长度的平均偏差。该图表明平均误差较低：对于所有数学推理数据集，误差接近3%。尽管OOD数据集表现出可预测的更高误差（20%-40%），但这些误差仍然优于无控制的 Prompt 。附录A.2中的进一步分析表明，较大的误差主要出现在MMLU等任务的高 Token 预算上，在这些任务中，较长的思维链大多是不必要的。此外，附录A.1中作者展示了通过扩展RL训练可以显著降低误差。

长CoT模型实际上是强大的短CoT模型。鉴于L1在较低token预算下的出色表现，作者进行了针对性的评估，将其与其基础的非推理模型（Qwen-2.5-1.5B-Instruct）以及显著更大的非推理模型（GPT-4o和Llama-3.3-70B）在可比的生成长度下进行了比较。表1展示了这些结果，显示L1在所有数据集上均持续优于或与所有模型持平，尽管使用了等效的token预算。此外，平均而言，L1比其非推理版本高5%，并且在平均情况下，L1甚至比GPT-4o高2%。

这一发现引人注目，因为据作者所知，这是首次证明一个1.5B模型能够在使用相同生成长度的情况下超越GPT-4o等前沿模型。总体而言，这些结果表明，通过合适的强化学习训练，长CoT模型可以自适应地用作短CoT模型，同时在相同生成长度下显著优于其基础版本。

关键词使用比较：基于推理模式的512个与4096个 Token L1在不同 Token 预算下采用不同的推理策略。为了理解L1在不同长度限制下如何改变其推理方法，作者分析了某些推理相关术语在不同长度输出中出现的频率。具体来说，作者计算了常见推理术语在512个 Token 输出中相对于4096个 Token 输出的标准化出现率，展示了模型在给定不同长度限制时的推理策略如何转变。图6将这些关键词组织成四种不同的推理模式：“自我纠正和验证”、“探索和替代”、“设置上下文”和“得出结论”。

此外，图7展示了不同生成长度下思考 Token （位于标签内的 Token ）与解决方案 Token 的比例。作者观察到，该比例在不同生成长度下相对稳定。这表明对于

较短的CoTs，模型通常提供简短的解决方案（通常仅输出最终答案），这有助于节省token。随着生成长度的增加，作者注意到最后两个条形中响应长度趋于稳定，这表明模型在扩展其思考token时并未使最终解决方案过于冗长。

6 结论

在本工作中，作者引入了长度控制策略优化（Length Controlled Policy Optimization，简称LcPo），这是一种简单而强大的基于强化学习的方法，能够对语言模型中推理链的长度进行自适应控制。作者使用LcPo训练了Li推理语言模型，该模型经过优化，能够生成符合其 Prompt 中给出的长度约束的输出。LcPO在测试时缩放方法方面显著超越了先前的方法，与先前的长度控制方法相比，在数学推理任务中实现了超过100%的相对改进和20%的绝对改进。

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。