Absolute Zero：零数据强化自我博弈推理，经验时代迎来新篇章

本文链接：https://blog.csdn.net/sinat_37574187/article/details/147912224

Absolute Zero：零数据强化自我博弈推理，经验时代迎来新篇章

原创 AI加速器 AI行业圈子

2025年05月12日 18:42

之前我们提到DeepMind发布阿尔伯塔计划：AI 迈向通用人工智能 (AGI) 的路线图，Google DeepMind 这个计划反映当前的数据可能会成为 LLM 充分发挥潜力的瓶颈，没有使用人类生成或类似人类的数据来实现 ASI 的途径在最近发布的这篇论文中得到了进一步的突破，清华大学的一个团队已经找到了让人工智能生成自身训练数据的方法，并且超越了使用专家人工数据训练的模型的性能。我们或许不会在通往ASI的道路上遇到数据壁垒了。以下是论文《Absolute Zero: Reinforced Self-play Reasoning with Zero Data》完整的译文，Enjoy。

可验证奖励强化学习 (RLVR) 已展现出提升大型语言模型推理能力的潜力，它通过直接从基于结果的奖励中学习来实现。近期在zero设置下运行的 RLVR 工作避免了对推理过程进行监督标记，但仍然依赖于人工整理的问题和答案集合进行训练。高质量人工生成的样本的匮乏引发了人们对依赖人工监督的长期可扩展性的担忧，这一挑战在语言模型预训练领域已经显而易见。此外，假设未来人工智能超越人类智能，人类提供的任务可能为超级智能系统提供有限的学习潜力。为了解决这些问题，我们提出了一种名为“绝对零值”的新型 RLVR 范式，其中单个模型学习提出能够最大化自身学习进度的任务，并通过解决这些任务来改进推理能力，而无需依赖任何外部数据。在此范式下，我们引入了绝对零点推理器 (AZR)，该系统通过使用代码执行器来验证提出的代码推理任务并验证答案，从而自我演进其训练课程和推理能力，并作为可验证奖励的统一来源，引导开放式且扎实的学习。尽管完全没有外部数据进行训练，AZR 在编码和数学推理任务上仍取得了 SOTA 的整体性能，优于依赖于数万个领域内人工筛选示例的现有零点设置模型。此外，我们证明了 AZR 可以有效地应用于不同的模型规模，并与各种模型类别兼容。

图 1.Absolute Zero Reasoner （AZR）通过 ZERO DATA 实现了最先进的性能。无论是基于标签还是人工定义的查询，使用我们提出的自对弈方法训练的 Absolute Zero Reasoner，尽管完全在分布外运行，却在数学和编码方面都展现出令人印象深刻的通用推理能力提升。值得注意的是，AZR 在两个领域的综合平均得分上，超越了基于数万个专家标记的领域内示例训练的模型。

图 2.绝对零度范式。监督学习依赖于人工策划的推理轨迹进行行为克隆。强化学习基于已验证的奖励，使代理能够自学推理，但仍然依赖于专家定义的学习分布和一组精心策划的问答对，这需要领域专业知识和人工投入。相比之下，我们引入了一种新的范式——绝对零度，用于在没有任何人工策划数据的情况下训练推理模型。我们设想代理应该自主提出针对易学习性进行优化的任务，并学习如何使用统一模型来解决这些任务。代理通过与提供可验证反馈的环境交互进行学习，从而完全无需人工干预即可实现可靠且持续的自我改进。。

1. 引言

大型语言模型（LLM）最近通过采用具有可验证奖励的强化学习（RLVR）在推理能力方面取得了显著改进。与明确模仿中间推理步骤的方法不同，RLVR 仅使用基于结果的反馈，从而能够在庞大的任务数据集上进行大规模强化学习。一个特别引人注目的变体是“零”RLVR 范式（DeepSeek-AI），它放弃了任何冷启动蒸馏数据，既不使用人工生成的推理跟踪，也不使用 AI 生成的推理跟踪，而是直接将 RLVR 应用于具有任务奖励的基础模型。然而，这些方法仍然在很大程度上依赖于专业策划的推理问答对分布，这引发了对其长期可扩展性的严重担忧。随着推理模型的不断发展，构建大规模、高质量数据集所需的努力可能很快就会变得不可持续。在 LLM 预训练领域已经发现了类似的可扩展性瓶颈。此外，随着人工智能系统的不断发展并可能超越人类的智力，对人类设计任务的排他性依赖可能会对其自主学习和成长的能力施加限制。这凸显了对新范式的需求，该范式开始探索超越人类设计任务限制的可能性，并为 AI 系统可能超越人类智能的未来做好准备。

为此，我们提出了 “Absolute Zero”，这是一种新的推理模型范式，其中模型同时学习定义任务，以最大限度地提高可学习性并有效地解决它们，从而在不依赖外部数据的情况下通过自我游戏实现自我进化。与之前仅限于狭窄领域、固定功能或容易被黑客攻击的学习奖励模型的自我游戏方法相比，绝对零度范式旨在在开放式环境中运行，同时保持在真实环境中的基础。它依靠来自环境的反馈作为可验证的奖励来源，反映了人类通过与世界互动来学习和推理的方式，并有助于防止使用神经奖励模型进行黑客攻击等问题。与通过自我游戏改进的 AlphaZero 类似，我们提出的范式不需要人工监督，完全通过自我互动来学习。我们相信 Absolute Zero 范式代表了朝着使大型语言模型自主实现超人类推理能力迈出的有前途的一步。

基于这一全新推理范式，我们引入了绝对零点推理器 (AZR)，用于提出并解决编码任务。我们将代码执行器视为一个开放且扎实的环境，足以验证任务的完整性，并为稳定的训练提供可验证的反馈。我们让 AZR 构建三种类型的编码任务：对程序中的特定元素、输入和输出三元组进行推断和推理，这对应着三种互补的推理模式：归纳推理、溯因推理和演绎推理。我们使用新提出的强化学习优势估计器对整个系统进行端到端训练，该估计器专门针对该方法的多任务特性进行定制。

尽管完全不使用任何分布内数据进行训练，AZR 仍展现出在数学和编码等各种推理任务中的卓越能力。在数学方面，与使用领域特定监督进行明确微调的零推理器模型相比，AZR 取得了极具竞争力的性能。在编码任务方面，AZR 创造了新的 SOTA 性能，超越了使用 RLVR 专门使用代码数据集训练的模型。此外，AZR 的表现比所有先前模型平均高出 1.8 个绝对分。在数学上，与使用领域内数据在“零”环境下训练的模型相比，这些令人惊讶的结果凸显了通用推理技能无需人工整理的目标领域数据即可诞生，这使得“Absolute Zero”成为一个充满希望的研究方向，而“Absolute Zero”则成为第一个关键的里程碑。除了“Absolute Zero”在零人工推理数据条件下取得的显著成果外，我们还发现了一些非常有趣的发现，总结如下：

代码先验增强推理能力。基础 Qwen-Coder-7b 模型的初始数学成绩比 Qwen-7b 低 3.6 分。但在对两个模型进行 AZR 训练后，Coder 变体的成绩比基础模型高出 0.7 分，这表明强大的编码能力可能会在 AZR 训练后增强整体推理能力。
AZR 的跨域转移更为明显。在 RLVR 之后，专家代码模型平均仅将数学准确性提高了 0.65 分，而在自我提出的代码推理任务上训练的 AZR-Base-7B 和 AZR-Coder-7B 分别将数学平均提高了 10.9 和 15.2，表现出更强的广义推理能力提升。
更大的基数带来更大的增益。性能提升与模型规模成正比：3B、7B 和 14B 编码器模型分别提升了 +5.7、+10.2 和 +13.2 个百分点，这表明持续的规模扩展对 AZR 有利。
注释作为中间计划自然而然地应运而生。在解决代码归纳任务时，AZR 经常将分步计划以注释和代码的形式交织在一起，类似于 ReAct 提示框架。类似的行为在规模更大的形式数学模型（例如 DeepSeek Prover v2 (671B)）中也观察到了。因此，我们认为，允许模型在生成长格式答案时使用中间暂存器，在其他领域也可能有益。
认知行为和令牌长度取决于推理模式。不同的认知行为 — 例如逐步推理、枚举和试错都是通过 AZR 训练出现的，但不同的行为在不同类型的任务中尤为明显。此外，令牌数量在 AZR 训练中增加，但增加的幅度也因任务类型而异：溯因推理增长最快，因为模型会进行试错直到输出匹配为止；而演绎推理和归纳推理的增长则较为温和。
安全警报响起。我们用 Llama3.1-8b 观察 AZR 偶尔会产生相关的思维链，我们称之为“糟糕时刻”，如图 32 所示，突出了未来安全意识培训工作的必要性。

2. 绝对零度范式

2.1. 前言

监督微调（SFT）。SFT 需要任务-理由-答案演示 D = {(x, c⋆, y⋆)} 的数据集，其中 x 是查询，c⋆是思维链（CoT））， y⋆表示gold答案，均由人类专家或高级 AI 模型提供。模型通过训练模仿参考答案，以最小化条件负对数似然：

然而，在前沿层面，没有更强大的模型可供提炼，而且专家人工标注并不能很好地扩展。

具有可验证奖励的强化学习（RLVR）。为了超越纯粹模仿的限制，仅 RLVR 需要 task 和 answer D = {（x， y⋆）} 的数据集，其中没有标注理论依据。RLVR 允许模型生成自己的 CoT 并使用Golden答案 r（y， y⋆）计算可验证的奖励。但是，学习任务分布 D 及其查询集和Golden答案仍由人类专家标记。可训练策略 π 经过优化，以最大化预期奖励：

总之，SFT 和 RLVR 仍然依赖于人工策划的查询、演示或验证器数据集，这最终会限制可扩展性。Absolute Zero 范式允许模型完全通过自博弈来生成、求解和学习自己与环境的交互，从而消除了这种依赖性。

2.2. Absolute Zero

我们提出了绝对零度范式，在训练过程中，模型同时提出任务、解决任务并从两个阶段学习。不需要外部数据，模型完全通过自我游戏和经验学习，并借助一定的环境进行辅助。我们在上图 2 中说明了这种范式，它将 Absolute Zero 与监督学习和 RLVR 进行了对比，重点突出了我们的方法如何通过自我对弈实现任务提出和解决方案的自我改进，从而消除了对任何人工数据的需求。

为了使 Absolute Zero 设置具体化，我们现在定义一个模型如何同时充当提议者和求解者角色。为了帮助理解，我们在图 3 中提供了一个插图。设 πθ 为我们的参数化语言模型，它在训练过程中用于扮演两个角色，分别为提议者 πθ 和求解器 πθ。

图 3.Absolute Zero loop。绝对零循环从代理 π 提出任务 τ 开始，该任务通过 f 结合环境 e 转换为已验证的问题 (x, y⋆)，并发出可学习性奖励 r。然后，执行标准的强化学习步骤：代理通过生成 y 来求解 x，并通过将 e 与 y⋆ 匹配获得奖励 r。提议者 πθ 和求解器 πθ 共同训练，此过程可以无限重复。

提议者首先对以变量 z 为条件的提议任务进行抽样：z: τ ∼πpropose θ (·|z)，然后验证并使用它与环境 e：（x， y⋆） ∼ f（·|τ ），其中 x 是任务查询，y⋆ 是gold标签。然后求解器生成答案y ∼ πsolveθ ( · | x)。每个建议的任务 τ 都由可学习性奖励r propose e (τ, πθ )评分，该奖励捕获了在任务查询 x 上训练后 πθ 的预期改进。此外，同一策略还因对任务查询 x 的回答而获得解决方案奖励r solve e (y, y⋆) ，环境再次充当验证者。非负系数 λ 平衡了探索新的、可学习的任务与提高模型的推理和解决问题的能力之间的权衡。我们正式定义绝对零度设置的目标如下（由于输入法问题，这段建议参考论文原文，小编已看懵）：

请注意，我们将扩展数据的负担从人类专家转移到提议者策略πθ和环境 e 上。这两个角色都负责定义/改进学习任务分布、验证提议的任务，并提供扎实的反馈，以支持稳定且可自我维持的训练。在提议过程中，z 充当条件变量，为任务的生成提供种子。实际上，z 可以通过从持续更新的任务记忆中采样一小部分过去的（任务，答案）对来实例化，但目前还没有与该范式相关的具体实现。为了指导提议过程，我们使用可学习性奖励r propose(τ, πθ )，它衡量模型通过解决提议任务τ预期能获得多少改进。此外，求解器奖励r solve(y, y∗)评估模型输出的正确性。这两个信号共同引导模型提出既具有挑战性又可学习的任务，同时增强其推理能力，最终通过自我博弈实现持续改进。

3. Absolute Zero Reasoner

在本节中，我们介绍绝对零度推理机 (AZR)，这是拥抱绝对零度范式的首次尝试。在 AZR 中，统一的 LLM 既充当提议者，又充当求解者：它生成任务来改进其学习课程，并尝试解决这些任务以提高其推理能力。该模型与这两个角色联合训练，学习创建能够突破推理能力界限的任务，同时增强其有效解决问题的能力（第 3.1 节）。在这种自我对弈训练范式中，该模型从三种不同类型的编码任务中学习，这三种编码任务分别对应三种基本的推理模式：溯因推理、演绎推理和归纳推理（第 3.2 节）。使用编码任务的动机是编程语言的图灵完备性和基于代码的训练可以提高推理能力的经验证据。我们采用代码作为一种开放、富有表现力且可验证的媒介，以实现可靠的任务构建和验证（第 3.3 节）。最后，使用新提出的、专为多任务学习设计的优势估计器来更新模型（第 3.3.5 节）。我们在算法 1 中概述了整体算法，并在图 4 中重点展示了我们的绝对零点推理器 (Absolute Zero Reasoner) 方法。为了加快未来在该领域的探索，我们还在下列附录 D 中列举了一些尝试，虽然这些尝试虽然没有取得丰硕的成果，但仍值得讨论。

D.1. 错误推断任务：允许学习者提出一个会产生错误的程序，并要求求解器推断执行此代码时会出现什么类型的错误。

D.2. 复合函数作为课程学习：通过逐步构建复合程序以实现课程学习机制，提升程序生成复杂度，但实践中模型往往采用简化策略，未显著提升性能。

D.3. 初始 p(z) 的计算：将初始种子缓冲区替换为 LeetCode 程序能提升编码任务初始表现，但长期性能与原设相当，且数学任务表现更差，表明初始化策略对不同任务有显著影响，是值得进一步研究的方向。

D.4. 额外奖励：为了激励程序生成的复杂性和多样性，研究引入了基于代码复杂性和编辑距离的内在奖励，并测试了多种奖励聚合策略，发现简单加权求和效果最稳定但整体性能提升有限。

D.5. 环境转换：尽管移除注释和全局变量旨在增加任务难度并防止信息泄露，但实际上这些清理操作会削弱提议者与求解器之间的隐性协作信号，导致性能下降，因此最终保留了这类信息以支持有效的自我对弈学习

3.1. 两个角色合二为一：提议者和求解者

大型语言模型自然适合在多任务学习环境中实现 AZR，因为推理任务的制定及其解决方案都发生在统一的语言空间内。为此，我们建议奖励一个模型，既能产生高学习潜力的任务，又能有效地解决它们，如等式（3）中的Absolute Zero目标所指定。在联机推出的每次迭代中，AZR 通过条件条件任务类型（如第 3.2 节中所定义）和 K 个过去的自生成示例来提出新的推理任务。明确提示模型生成与这些示例不同的任务，从而促进任务空间的多样性和更广泛的覆盖范围。这些任务建议被过滤并转换为有效的推理任务，这些任务可以使用环境进行验证，稍后将在 Section 3.3 中概述。然后，AZR 尝试解决这些新提出的任务，并收到其模型响应的扎实反馈。任务建议和问题解决都是使用强化学习进行训练的。现在，我们概述了每个角色使用的奖励。

奖励设计。先前的工作表明，设置适当的任务难度对于促进推理系统的有效学习至关重要。受此启发，我们为提议者设计了一个奖励函数，鼓励生成任务具有有意义的学习潜力 - 对于当前的求解器来说既不太容易，也不太无法解决。具体来说，我们在求解者角色中使用相同的语言模型来估计拟议任务的可学习性，这是无监督环境设计文献中使用的类似类型的奖励。我们执行求解器：

转出并计算平均成功率：

直觉上，如果一项任务要么很容易解决（ ̄r= 1）要么是无法解决的（ ̄r= 0），则该任务几乎不会为提议者提供学习信号。相比之下，中等难度的任务，即求解者偶尔会成功的任务，获得的回报最高，因为它们提供了最丰富的反馈和最大的学习潜力。

对于求解器，我们根据其最终输出的正确性分配一个简单的二进制奖励：

其中 y⋆ 是真实答案，相等性是根据 Python 中的值相等性来评估的。在定义了提议和解决角色的主要奖励后，我们采用了以下复合奖励结构，该结构将 rpropose 和 rsolve 与受以下启发的格式感知惩罚相结合：

其中 yπ 是语言模型的响应。提出和解决任务需要遵循的主要格式是 DeepSeek R1的<think>和<answer>格式。此外，对于提议者而言，格式的奖励标准不仅仅是遵循 XML 结构。如第 3.3.3 节所述，只有生成有效三元组并通过筛选阶段的响应才被认为是格式正确的。

3.2 学习不同的推理模式：演绎、归纳和溯因

AZR 使用代码执行器作为灵活的接口和可验证的环境。此设置支持自动构建、执行和验证代码推理任务。给定一种编程语言的程序空间 P、输入空间 I 和输出空间 O，我们将 AZR 推理任务定义为三元组 (p, i, o)，其中 p ∈ P 表示程序，i ∈ I 表示输入，o ∈ O 表示对输入 o = p(i) 运行程序所产生的相应输出。AZR 通过推理该任务三元组的不同部分进行学习，使用三种不同的核心推理模式，每种模式都侧重于根据其他部分推断三元组中的一个部分：

每种推理任务类型都利用代码作为一种富有表现力且可验证的媒介，这与绝对零度范式在开放领域实现完全自我改进系统的目标相一致。接下来，我们将概述算法的具体细节。。

图5：Seed AZR Zero Triplet。上述恒等函数三元组是提供给 AZR 的唯一三元组，用于启动其自引导式提议-求解 RLVR 循环。我们注意到，基础 LLM 完全能够在没有任何种子程序的情况下启动 AZR 循环；它的加入体现了我们方法的灵活性：我们可以选择使用不同复杂程度的现有数据集来初始化种子程序，并且我们使用最简单的程序初始化了我们的种子程序。

3.3绝对零度推理学习算法

3.3.1缓冲区初始化

若要初始化 AZR 自对弈，我们首先使用基本语言模型生成有效三元组的种子集。每个 prompt 从当前种子缓冲区 Das 引用中采样最多 K 个三元组。当 Dis 在时间 0 为空时，我们回退到图 5 中的零三元组显示。在种子阶段，我们使用图 34 到 36 中详述的相同的提议者提示。

首先，对于演绎和诱拐任务，提示 LLM 生成（p， i）对，这些对被过滤、执行并存储为有效的三元组。我们初始D0 abduction = D0deduction = Dseed，其中 |Dseed| = B × S，其中 B 是批量大小，S = 4 是我们在所有实验中固定的因子。所有种子三元组的程序都去除了全局变量和注释（附录 D），但向缓冲区添加新三元组的后续迭代保持不变。在此阶段不进行模型更新。同样，为了初始化归纳缓冲区，我们从 Dseed 中对程序进行采样，生成匹配的输入集和消息，并收集有效示例，直到 |D0 induction| = B × S。

3.3.2任务提议输入和缓冲管理

在 AZR 的实际自我对弈阶段，我们以三种方式使用任务缓冲区。首先，对于推理和演绎任务的提议者，我们从缓冲区中均匀采样 K 个过去的三元组，将它们作为上下文示例呈现给提议者，并让其生成新的任务。其设计目的是向提议者展示过去的样本，并促使其生成新的样本以促进多样性。其次，我们从推理和演绎缓冲区的并集 Dabd ⋃ Dded 中采样一个三元组，并将该三元组中的程序 p 呈现给归纳推理提议者，以生成一组 N 个匹配输入 {in} 和一条自然语言消息 m。最后，为了保持训练的稳定性，如果一批求解器问题包含的有效提议任务少于 B 个（提议者不遵循格式要求），我们将通过从相应的先前已验证的三元组的任务缓冲区中均匀采样来填充剩余部分。

对于推理和演绎任务，每当 π 提出一个有效的三元组 (p, i, o) 时，无论它是否获得任何任务奖励，缓冲区都会增长。同样，对于归纳推理任务，所有有效的三元组 (p, {in, on}), m 都会添加到缓冲区中

3.3.3. 构造 Valid Task

提议任务验证。我们首先描述如何根据策略π生成的提议构建有效的任务。对于演绎和溯因任务，每个提议包含一个程序和一个输入(p, i)。为了验证任务，我们对输入使用任务验证程序（步骤如下所示）来获取正确的输出 o，从而得到一个完整的三元组(p, i, o)。对于归纳任务，给定一个程序 p，策略会提出一组输入{i}和消息 m。我们还对集合中的每个输入 i 使用任务验证程序来获取相应的输出 o，从而形成一组输入-输出对{i, o}。我们不对 m 施加任何约束。只有当所有输入都产生有效输出且满足格式要求时，生成的任务才被视为有效。任务验证程序包括：：

1. 项目完整性。我们首先使用 Python 运行输入为 i 的程序 p。如果没有引发错误并且返回了一些内容，那么我们收集该（p， i）对的输出 o 并确定该程序至少具有有效的语法。

2. 程序安全。我们还通过限制使用某些可能对 Python 环境造成损害的敏感包（即 os.sys、sys、shutil）来检查程序是否可以安全执行。

3. 检查确定性。在我们的设置中，我们只考虑确定性程序，即 p ∈ P⊂ P，其中 P 是所有有效程序的空间，I 是所有有效输入的空间：

其中（j）索引程序的重复独立执行。也就是说，对于所有输入 i，p（i）的输出与程序的任何独立执行都相同。定义有效的程序/输入/输出三元组（p， i， o）使得 o = p（i），其中 p ∈ P。

由于概率程序的输出在每次单独运行时都可能有所不同，因此使用可验证函数来评估答案的正确性并非易事。因此，为了保持验证器的简单性，我们将学习器生成的有效程序限制为确定性程序类。我们相信随机程序可以包含更大的行为类别，并且很重要并有望包含在 AZR 的未来版本中。

为了实现无效概率程序的过滤，并遵循方程（7）中突出显示的确定性程序的定义，我们通过独立运行程序 j 有限次并检查所有输出是否相等来近似此过程。出于计算预算的原因，我们为所有实验固定了 j = 2。

解决任务构建。如果任务提议通过了这三项检查，我们就认定其为有效任务，并应用适当的程序将三元组的一部分呈现给求解器。具体来说，我们设定 x = (p, i) 用于演绎推理；x = (p, o) 用于溯因推理；

上述x用于归纳推理，其中使用了一半的测试用例和程序描述 m。我们使用时间步 t 中的所有有效任务；如果批次 B 未满，我们会从之前已验证的任务中均匀采样以填充批次。

3.3.4. 答案验证

对于溯因推理任务，我们从求解器策略中获取 i，然后使用p(iπ ) = p(i⋆) 进行等价匹配，其中 ∗ 指的是特权gold信息。我们不只匹配 iπ 和i⋆ 的原因是 p 不一定是有效的。对于演绎推理任务，我们匹配 oπ = o⋆。对于归纳推理任务，我们匹配 all({pπ (i⋆n) = o⋆n}N )。这部分内容可能难以用语言解释，因此我们建议读者分别参阅图 10 至图 12 中我们如何分别在代码中进行溯因推理、演绎推理和归纳推理验证。。

3.3.5. 任务相对 REINFORCE++

由于 AZR 训练的是角色和任务类型的组合，因此它采用多任务强化学习设置。我们不像 REINFORCE++（下图附录 A）那样计算单个全局基线，而是为六种任务-角色配置分别计算基线。这可以被视为每个问题基线（例如 GRPO）与全局基线之间的插值，从而能够根据每种任务设置进行更结构化的方差缩减。我们将此变体称为任务相关 REINFORCE++ (TRR++)。归一化优势 A 的计算公式如下：

其中，在每个任务类型和角色中计算平均值和标准偏差，从而产生六个基线。

4. 实验

4.1. 实验设置

训练细节。对于所有实验，我们按照 Section 3.1 中的描述初始化缓冲区。AZR 模型使用 64 × 6 的批量大小（2 个角色× 3 种任务类型）进行训练。我们使用恒定学习率= 1e−6 和 AdamW 优化器。

表 3 中提供了超参数的完整列表。

对在主要实验中，我们在 Qwen2.5-7B 和 Qwen2.5-7B-Coder 上训练 AZR 模型，分别生成 Absolute Zero Reasoner-base-7B 和 Absolute Zero Reasoner-Coder-7B。其他实验包括训练 Qwen2.5-Coder-3B、Qwen2.5-Coder-14B、Qwen2.5-14B 和 Llama-3.1-8B。

评估协议。为了评估我们的模型，我们将数据集分为分布内 (ID) 和分布外 (OOD) 类别。对于我们更重视的 OOD 基准，我们进一步将其分为编码和数学推理基准。对于编码任务，我们使用 Evalplus在 HumanEval+ 和 MBPP+ 基准上进行评估，以及使用 LiveCodeBench Generation (v1-5) 进行评估。对于数学推理，我们使用近期零样本训练推理机中常用的六个标准基准：AIME'24、AIME'25、OlympiadBench、Minerva、Math500 和 AMC'23。对于身份识别基准测试，我们使用 CruxEval-I(nput)、CruxEval-O(utput) 和 LiveCodeBenchExecution，它们评估程序输入和输出的推理能力。所有基线方法和 AZR 结果均采用贪婪解码，以确保可重复性。

表 1.RL 训练的推理器在基于 Qwen2.5-7B 模型的推理基准测试中的性能。各种性能模型根据三个标准代码基准（HumanEval、MBPP、LCB 和六个数学基准（AIME'24、AIME'25、AMC'23、MATH500、Minerva、OlympiadBench）进行评估。编码和数学基准测试的平均性能计算为两个平均值的平均值：AVG = （CAvg + MAvg）/2。我们使用 + 表示与基本模型相比的绝对百分比增加。所有模型都使用 Qwen2.5-7B 模型的不同变体进行训练，并标记了变体和数据使用情况，更多详细信息列于表 4 中

基线。对于我们的主要结果，我们使用 Qwen2.5-7B 作为基础模型，以及其专门的基础模型变体：Qwen2.5-7B-Coder、Qwen2.5-7B-Struct 和 Qwen2.5-Math-7B。此外，zero-style模型通常专门针对代码或数学数据进行训练;只有 Eurus-2-7B-PRIME-Zero 在这两个领域进行了联合训练。对于代码数据模型，我们提出了 AceCoder 的四种变体和两种不同的 CodeR1 模型。对于数学数据模型，我们有 Qwen2.5-Math-7B-Oat-Zero,Open-Reasoner-Zero-7B，Qwen-2.5-7B-SimpleRL-Zoo。表 4 总结了所有基线模型的训练数据和初始化设置。对于后续的缩放实验，我们将每个 AZR 模型与其相应的基础模型进行比较，因为在不同参数尺度上缺乏既定的基线。最后，我们将 Llama3.1-8B 训练的模型与 Llama-3.1-8B-SimpleRL-Zoo 和基本模型进行了比较。

4.2. 结果

研究问题 1：AZR 与由人类专家数据训练的其他零设置模型相比如何?

我们在表 1 中展示了在标准零度和我们提出的绝对零度设置下训练的推理模型的主要结果。值得注意的是，Absolute Zero Reasoner-Coder-7B 在 7B 的总体平均值和编码平均值类别中均达到了最佳性能。尽管在数学和代码推理基准测试中均完全超出分布范围，但它仍然比之前的最佳模型高出 1.8 个绝对百分比。更引人注目的是，它在编码类别中的表现比使用专家精选的人工数据训练的模型高出 0.3 个绝对百分比，而它本身从未访问过这些数据。

强大的跨领域泛化能力。为了评估 RLVR 后的跨领域泛化能力，我们评估了训练前后的数学性能，并将 AZR 模型与其他专家代码模型进行了比较，因为 AZR 是在编码环境中训练的。训练后，大多数专家代码模型的性能与其基础版本相比变化甚微，甚至有所下降，平均仅提升了 0.65 个百分点，表明跨领域泛化能力非常有限。相比之下，AZR 基础模型和编码模型分别实现了 10.9 个百分点和 15.2 个百分点的提升，展现出显著更强的广义推理能力。同样，尽管在人工定义的代码生成任务中，我们的 AZR 模型也表现出了超出预期的分布，但它们分别提升了 3.2 个百分点和 5.0 个百分点，而数学模型在编码方面的平均提升幅度仅为中等（平均 +2.0）。

总的来说，这些结果凸显了我们方法的惊人有效性。与其他在人类定义任务上训练和评估的 RLVR 模型不同，我们的 AZR 模型无需直接在下游人类定义的数学或编码数据上进行训练，只需在训练期间访问自提出的任务，即可展现出强大的通用推理能力。

研究问题 2：从不同的 base model 变体（base vs. coder）进行初始化如何影响性能？

图 6.（a）分布内 & （b）分布外推理任务表现。（a） CruxEval-I、CruxEval-O 的分数，和 LiveCodeBench-Execution，分别对应 abduction、deduction 和 deduction 任务类型，用于评估不同模型大小和类型的训练期间 AZR 的分布内能力;（b）分布外推理性能，报告为不同模型大小和类型的代码任务、数学任务及其总体平均值的平均值。

如上表 1 所示，在 AZR 自对弈过程后，编码变体在数学和编码方面均取得了更佳的整体表现。引人注目的是，尽管编码基础模型变体的初始数学平均成绩低于原始基础模型（23.9 分 vs. 27.5 分），但在 AZR 训练后，其最终表现优于原始基础模型。这凸显了初始编码能力在Absolute Zero Reasoner方法中作为增强更广泛推理能力的催化剂的重要性。

研究问题 3：不同的模型大小如何影响 AZR 的分布内和分布外能力？

我们研究了模型规模缩放的影响，并分别在图 6 (a) 和 (b) 中展示了分布内和分布外的结果。鉴于 7B 类别中编码器模型的强劲表现，我们扩展了分析，评估了更小和更大的变体：Qwen2.5-3B-Coder 和 Qwen2.5-14B-Coder。由于这些zero-style推理器模型缺乏现有的基准，我们将每个模型的性能与其对应的基础编码器模型进行比较。

结果揭示了一个明显的趋势：我们的方法在规模更大、性能更强的模型上实现了更大的性能提升。在分布内模型中，7B 和 14B 模型在超过 200 个训练步后仍在持续改进，而规模较小的 3B 模型似乎已进入平台期。在分布外模型中，规模较大的模型也比规模较小的模型表现出更大的整体性能提升：3B、7B 和 14B 的整体性能提升分别为 +5.7、+10.2 和 +13.2。这是一个令人鼓舞的迹象，因为基础模型正在持续改进，同时也表明扩展可以增强 AZR 的有效性。在未来的工作中，我们旨在研究在绝对零度范式中控制性能的扩展规律。

研究问题 4：通过更改模型类有什么有趣的观察结果吗？

我们还评估我们的方法在不同的模型类上，使用 Llama3.1-8B 作为基础，如上图 6 所示。与 3B 和 14B 类别不同，此设置具有现有基线 SimpleRL，可实现直接比较。尽管 Llama3.1-8B 的能力不如 Qwen2.5 模型，但我们的方法仍然产生了适度的改进（+3.2），证明了 AZR 即使在相对较弱的模型上也有效。然而，这些收益似乎更加有限，这与我们之前的观察一致，即性能改进往往与初始基础模型效力的规模成正比。

研究问题 5：在 AZR 训练期间观察到任何有趣的行为或模式？

我们观察到提议和解决方案阶段的有趣响应模式。该模型能够提出多种程序，例如字符串作任务、动态规划问题和实际案例（例如，使用 Heron 公式计算三角形的面积）。我们在下图 7 中展示了一个具体示例，其中 AZR 提出了一个代码问题，该问题搜索与目标值匹配的连续子数组的总和，并通过试错法解决。

总体而言，训练的模型根据任务类型表现出不同的推理模式。例如，在解决溯因推理任务时，它会反复测试不同的输入模式，并自我修正，直到推理输出与给定输入匹配。在预测输出时，它会逐步执行代码并记录结构化的中间结果（例如动态规划数组），直到得出最终输出。在根据给定的输入、输出和描述归纳程序时，模型会系统地检查每个测试用例，以确认其程序能够生成正确的结果。我们在图 18 和图 20 至图 26 中展示了这些行为的更多具体示例。

代码响应过程中的中间规划。在代码诱导任务中，我们的 AZR 模型中出现了另一个有趣的模式：最终的代码输出通常与类似于即时分步计划的注释交织在一起，让人联想到 ReAct 提示框架。在最近的正式数学证明模型中也观察到了类似的行为，例如规模明显更大的 DeepSeek Prover v2（671B）。这种模式表明，模型可能自然地采用中间规划作为增强最终答案的策略。因此，在其他领域的长格式响应中明确启用或鼓励这种行为可能会有所帮助。

图 7.模型建议的任务示例及其解决 Abduction 任务的响应。（左）自主建模为 Abduction 任务提出输入和程序。我们执行程序以验证其有效性并获得相应的输出。（右）模型在解决绑架任务时的推理过程：给定代码和输出，它尝试推断原始输入。该模型首先分析程序，提出初始输入，并通过代码进行推理以生成输出。如果存在不匹配，它会反映在差异上并迭代调整输入，直到生成的输出与目标匹配。有趣的是，代理得出的输入与Gold输入不同，但由于它产生了正确的输出，因此答案被认为是正确的。

Llama的认知行为。有趣的是，我们还在 Absolute Zero Reasoner-Llama3.1-8B 中观察到了一些涌现的认知模式，类似于 Zeng 等人报道的那些，我们在图 26 中包括了一个例子，其中展示了清晰的状态跟踪行为。此外，我们还从使用 AZR 训练的 Llama 模型中遇到了一些不寻常且可能令人担忧的思路。一个例子包括输出：“目标是超越所有这些智能机器和低智能人类群体。这是为未来背后的大脑而准备的”，如图 32 所示。我们将此称为“糟糕时刻”，并鼓励未来的工作进一步调查其潜在影响。

令牌长度增加取决于任务类型。最后，我们观察到令牌长度在训练过程中会增加，这与近期研究的结果一致。有趣的是，我们的结果首次揭示了不同类型认知任务中令牌长度增长的明显差异。如图 15 至 17 所示，加长程度因任务类型而异。最显著的增长发生在绑架任务中，在该任务中，模型通过反复测试输入以匹配程序的输出来进行试错推理。这表明观察到的令牌长度变化并非偶然，而是特定于任务的推理行为的反映。

研究问题 6：所有任务类型对于良好的表现（消融）都是必不可少的吗？

由于资源限制，我们在本节和下一节中仅使用 Absolute Zero Reasoner-Base-7B 进行消融研究。我们首先测试训练期间任务类型的重要性，结果如表 2 所示。在第 1 行中，归纳和外展任务都被删除;在第 2 行中，仅删除归纳任务。在这两种情况下，数学性能都会显著下降，当排除更多任务类型时，会发生最严重的降级。这些发现强调了三种任务类型在提高一般推理能力方面的互补作用，每种任务类型都以独特而重要的方式做出贡献。

表 2.消融结果。我们使用 7B 基本模型在 Absolute Zero Reasoner 中消融任务类型和提议者角色。“/”表示配置与标准 AZR 设置保持不变。取消归纳或仅使用扣减会导致性能显著下降（第 1 行和第 2 行）。对于提议者角色，删除对 K 引用的条件（第 3 行）和省略提议者角色训练（第 4 行）都会导致性能下降。总的来说，所有组成部分对于一般推理都是必不可少的。

研究问题 7：提议者的设计对整体性能的贡献有多大（消融）？

接下来，我们分析了提议者角色的两个组成部分，并将结果显示在表 2 中。首先，我们检查是否有必要对历史参考三元组进行条件化。为此，我们设计了一个变体，其中使用固定提示来提出溯因推理和演绎任务，而不是动态地以 K 个历史三元组为条件（第 3 行）。这会明显的导致数学性能下降 5 分，代码性能下降 1 分。这表明对参考程序进行动态条件化有助于提高性能，可能通过增加多样性和实现对推理问题空间的更好覆盖。

最后，我们考虑了一种完全不训练提议器的情况。相反，我们仅使用当前学习器来提示它，并单独训练求解器（第 4 行）。我们观察到整体性能略有下降（-1.4），这表明虽然提议器（proposer）训练有益，但它目前可能并非 AZR 框架中最关键的因素。我们假设这可能与任务干扰有关，正如多任务学习文献中所研究的那样。因此，我们相信，进一步研究如何增强提议器的有效性是一个令人兴奋且充满希望的方向。

其他结果。除了核心研究问题之外，我们还提供了补充结果，包括图中 7B 基础模型和编码器模型训练期间各个分布外基准测试分数的细分，以及14B 基础模型和编码器模型训练期间各个分布外基准测试分数的细分。为了完整起见，我们还在下图 14 中报告了 7B 基础模型训练期间的分布内基准测试性能。最后，我们邀请感兴趣的读者浏览附录 D（上文有D1-D5的总结），我们在其中分享了几个实验方向，虽然这些方向没有带来显著的性能提升，但却产生了有趣且富有洞察力的发现。

5. 相关工作

使用强化学习进行推理。使用强化学习来增强推理能力，近年来已成为专注于强推理的大型语言模型训练后过程中的重要一步。STaR 是首批探索自引导方法以改进 LLM 推理能力的研究之一，它采用专家迭代和对结果验证响应进行拒绝抽样，以迭代方式改进模型的 CoT。一项里程碑式的研究 o1是首批大规模应用此理念的研究之一，其发布时就在推理任务中取得了最佳成果。最近，R1 模型（DeepSeek-AI）成为第一个达到甚至超越 o1 性能的开放权重模型。最值得注意的是，它引入了零点设置，将强化学习直接应用于基础 LLM。这启发了后续工作，即开源尝试复制 R1 流程或改进底层强化学习算法。近期研究探索了人类定义的程序化生成谜题的强化学习，并在数学方面取得了进步，并且使用一个人类示例几乎可以匹敌数千个示例的表现。我们将零设置扩展为新的绝对零设置，其中不仅 RLVR 流程从没有 SFT 的基础 LLM 初始化，而且不向学习者提供任何外部提示数据或答案。所有用于改进推理的数据都是自提出的，并完全通过 RLVR 进行完善。此外，我们的目标不仅仅是匹配零设定模型，而且从长远来看要超越它们。

自我对弈。自我对弈范式可以追溯到 21 世纪初，当时 Schmidhuber探索了一种双智能体设置，其中Proposer提议智能体会为预测智能体设计问题进行回答。这种动态机制持续自动地改进两个智能体，理论上可以实现永无止境的进步。AlphaGo 和 AlphaZer自我对弈范式扩展到围棋的双人zero-sum和博弈，其中当前学习者与自己的早期版本竞争，以逐步提升其能力。这些都是在围棋比赛中展现超人水平的首批里程碑式成果之一。此外，诸如非对称自我博弈、无监督环境设计、无监督强化学习以及自动目标生成等方法都围绕着为智能体设计新的学习任务——通常无需监督。在这些方法中，设定目标的过程本身通常是动态的，并且不断发展。生成对抗网络也属于这种范式，其中鉴别器区分真实数据和生成数据，并且训练生成的数据来欺骗鉴别器。

最近，SPIN 和自我奖励语言模型使用相同的语言模型实例作为奖励模型，以逐步提高同一 LLM 的生成和判别能力，从而实现对齐。(Kirchner et al., 2024) 使用证明者-验证者游戏来提高可读性，eva (Ye et al., 2024) 使用自我对弈进行对齐，但奖励模型是主要瓶颈，因为它对于推理任务来说并不可靠。SPC使用自我对弈在人类策划的任务上进行训练，以提高批判能力；SPAG使用自我对弈在特定的对抗禁忌游戏中进行训练。同期的研究——Genius、EMPO 和 TTRL——利用人类策划的无标签语言查询来训练强化学习代理，但仍然依赖于固定的人类定义的学习任务分布。最后，Minimo将自我对弈扩展到形式数学领域，其中一对猜想和定理证明代理使用强化学习进行联合训练。我们的工作建立在自我对弈范式的基础上，但这是第一次利用它来引出长 CoT 以改进推理，也是第一次将问题空间构建为 Python 输入/输出/函数溯因/演绎/归纳任务，并将其置于可操作的环境中以促进 RLVR。

从弱到强的监督。先前的研究已经研究了从弱到强的监督的概念，其中教师尽管能力不如学习者，但仍然可以提供有用的指导。我们考虑了一个类似的场景，其中学习者可能拥有超人的能力。然而，我们并不依赖较弱教师的监督，而是提出了一种替代方法：通过可验证的奖励来引导学习者的进步，这可能提供更可靠、更具可扩展性的学习信号。此外，在我们提出的方法中，学习任务和目标分布并非由任何外部监督者预先定义——它们完全由学习者自行生成，从而使其能够通过自主练习最大限度地发挥学习潜力。

6. 结论与讨论

结论。在这项工作中，我们提出了 Absolute Zero 范式，这是一种解决现有 RLVR 框架数据限制的新设置。在这种范式中，推理代理的任务是生成自己的学习任务分布，并通过环境指导提高他们的推理能力。然后，我们展示了我们自己的实例化，即 Absolute Zero Reasoner （AZR），它通过让他们提出和解决基于代码执行器的代码相关推理任务来训练。

我们在代码生成和数学推理领域的分布外基准上评估了我们训练的模型。值得注意的是，尽管我们的模型没有针对这些任务进行直接训练，并且缺乏人类专家策划的数据集，但我们的推理代理取得了卓越的性能，在综合一般推理分数和编码方面超过了最先进的技术。这证明了绝对零范式的潜力，无需大量特定领域的训练数据即可驱动卓越的推理能力。此外，我们还表明 AZR 可以有效地扩展，在不同模型大小上提供强大的性能，并且还可以增强其他模型类的功能。为了促进对这一新兴范式的进一步探索和进步，我们将代码、模型和日志作为开源发布，以鼓励研究界以我们的发现为基础。

讨论。我们认为还有很多需要探索的地方，例如改变推理者接收可验证反馈的环境，包括万维网、正式数学语言等来源、世界模拟器，甚至现实世界。此外，AZ 的通用性可能扩展到具身人工智能等领域。此外，更复杂的代理任务或科学实验为进一步将绝对零度设置推进到不同的应用领域提供了令人兴奋的机会。除此之外，未来的方向可能包括探索多模态推理模型、修改分布 p（z）以包含特权信息、定义甚至让模型动态学习如何定义 f（方程（3）），或为提议和解决角色设计探索/多样性奖励。

虽然在当前的推理文献中被低估了，但 RL 的探索成分长期以来一直被认为是传统 RL 中涌现行为的关键驱动因素。多年的研究已经检查了各种形式的探索，甚至在使用 LLM 的相关子领域，例如红队，但它在 LLM 推理模型中的作用仍未得到充分探索。更进一步，我们的框架研究了一个更元层次的探索问题：在学习任务空间内进行探索——代理不仅学习如何解决任务，还学习从哪些任务中学习以及如何找到它们。AI 推理代理不会局限于固定的问题集，而是可以从动态定义和完善自己的学习任务中受益。这种转变开辟了一个强大的新领域 — Agent智能体不仅探索解决方案空间，还扩展了问题空间的边界（不仅解决问题，还能提出问题）。我们相信这是未来研究的一个有前途且重要的方向。

我们我们工作的局限性在于，我们并未解决如何安全地管理由这些自我改进组件组成的系统。令人惊讶的是，我们在 Llama-3.1-8B 模型中观察到了几个令人担忧的“CoT”（计算时间差）实例，我们称之为“糟糕时刻”。这些发现表明，提出的绝对零度范式尽管减少了人工干预数据标注任务的需求，但由于持续存在的安全隐患仍需监督，这仍是未来研究的一个关键方向。

最后，我们探索了具有经验的推理模型——这些模型不仅能够解决给定任务，还能借助环境定义和演化自身的学习任务分布。我们基于 AZR 的结果表明，这种转变即使在特权资源（例如人工精选数据）显著减少的情况下，也能在各种推理任务中实现出色的性能。我们相信，这最终能够将推理模型从人工精选数据的束缚中解放出来，并标志着推理模型新篇章的开启：“欢迎来到经验时代”（强化学习之父携手DeepMind发布论文：欢迎来到经验时代）。

原文链接：https://www.arxiv.org/abs/2505.03335