英伟达开源新王登顶，超过DeepSeek-R1!

X.Cristiano

已于 2025-05-06 15:32:08 修改

阅读量673

点赞数 26

分类专栏：论文阅读文章标签：论文阅读 Llama-Nemotron

于 2025-05-06 14:06:12 首次发布

本文链接：https://blog.csdn.net/m0_37733448/article/details/147733394

版权

论文阅读专栏收录该内容

2 篇文章

订阅专栏

摘要

我们推出了Llama-Nemotron系列模型，这是一系列开源的异构推理模型，提供了卓越的推理能力、推理效率和适用于企业使用的开放许可证。该系列包括三种规模型号——Nano（80亿参数）、Super（490亿参数）和Ultra（2530亿参数），并且在性能上与最先进的推理模型（如DeepSeek-R1）竞争，同时提供了更高的推理吞吐量和内存效率。在本报告中，我们讨论了这些模型的训练过程，该过程包括使用来自Llama 3模型的神经架构搜索（NAS）进行加速推理、知识蒸馏和持续预训练，然后是一个以推理为重点的后训练阶段，该阶段由两个主要部分组成：监督微调（SFT）和大规模强化学习（RL）。Llama-Nemotron模型是第一个支持动态推理切换的开源模型，允许用户在推理过程中在标准聊天和推理模式之间切换。为了进一步支持开放研究和促进模型开发：

我们根据NVIDIA开放模型许可协议发布Llama-Nemotron推理模型——LN-Nano、LN-Super和LN-Ultra。
- Llama-3.1-Nemotron-Nano-8B-v1
- Llama-3.3-Nemotron-Super-49B-v1
- Llama-3.1-Nemotron-Ultra-253B-v1
- Llama-3.1-Nemotron-Ultra-253B-CPT-v1
我们还发布了我们的训练代码库：NeMo、NeMo-Aligner、Megatron-LM。

智能指数结合了7项评估：MMLU-Pro、GPQA Diamond、Humanity’s Last Exam、LiveCodeBench、SciCode、AIME、MATH-500。

人工智能分析智能指数
图1 | 截至2025年4月，根据人工智能分析，我们的旗舰型号LN-Ultra是“最智能”的开源模型。

LN-Ultra在广泛的推理和非推理基准测试中均表现出色
图2 | LN-Ultra在开源模型中，在广泛的推理和非推理基准测试中均表现出色。

1. 引言

近年来，语言模型的发展速度不断加快，在广泛的自然语言处理任务中，性能得到了迅速提升。最近，像OpenAI o1（OpenAI，2025年）和DeepSeek-R1（DeepSeek-AI等，2025年）这样的推理模型的引入，标志着发展的一个新阶段，这些模型能够在回答问题之前深入思考问题。这些模型的一个显著特点是它们的回答很长，通常包含长链的思维过程、自我验证、反思和回溯。这样的长回答使它们能够在各种任务中，包括博士级别的STEM问题和竞赛级别的数学问题，达到最先进的性能。

随着推理能力越来越依赖于推理时的扩展，设计在推理时高效运行的模型变得至关重要。推理效率不再仅仅是一个部署问题——它现在是整体模型智能和代理管道可行性的核心限制因素。因此，最大化推理效率是这些模型的主要优化目标。除了原始推理效率之外，向最终用户公开对推理行为的控制同样关键。并非所有查询都能从详细的多步骤推理中受益——在某些情况下，这样的回答可能过于冗长，甚至适得其反。允许用户切换推理功能，可以确保推理资源得到合理分配，并且响应风格适合任务（Anthropic，2025年）。

在本文中，我们详细介绍了Llama-Nemotron（LN）系列模型的训练过程，这是一个开源的异构推理模型系列，提供了卓越的推理能力、推理效率和适用于企业使用的开放许可证。这些模型有三种规模——LN-Nano（80亿参数）、LN-Super（490亿参数）和LN-Ultra（2530亿参数）。值得注意的是，LN-Ultra的性能优于DeepSeek-R1，同时只需一个8xH100节点即可运行，并且实现了更高的推理吞吐量。这些模型源自Llama 3.1和Llama 3.3（Grattafiori等，2024年），并针对高吞吐量推理进行了优化，同时提供了强大的推理性能和128K令牌的上下文长度。每个模型都支持推理切换功能，允许用户在使用推理时使用轻量级系统提示“详细思考开启/关闭”在标准聊天和推理模式之间动态切换。这种设计既实现了经济高效的通用用途，又实现了详细的多步骤推理，而无需单独的模型或架构。

Llama-Nemotron模型分为五个阶段构建。第一阶段包括使用来自Llama 3系列的模型进行神经架构搜索（NAS）来优化推理效率，并应用前馈网络（FFN）融合。第二阶段包括使用知识蒸馏和持续预训练进行恢复训练。第三阶段是在标准指令数据和来自DeepSeek-R1等强大教师的推理轨迹的混合数据上进行监督微调（SFT），这使得模型能够执行多步骤推理。第四阶段是在复杂的数学和STEM数据集上进行大规模强化学习，这是使学生模型超越教师能力的关键步骤。对于LN-Ultra，这个阶段在GPQA-D基准测试上带来了显著的性能提升，巩固了它作为科学推理的最佳开源模型的地位。为了实现这种大规模RL训练，我们开发了一个自定义的训练框架，其中包含了许多优化，最值得注意的是在FP8中进行生成。最后阶段是一个简短的校准阶段，重点是指令遵循和人类偏好。

作为本次发布的一部分，我们还开源了Llama-Nemotron-Post-Training-Dataset，这是一个精心策划的数据集，用于LN-Nano、LN-Super和LN-Ultra的监督和强化学习阶段。它旨在针对数学推理、编码、科学和指令遵循等关键能力，并且包括由一系列开源模型生成的综合响应。提示和响应经过质量、正确性和复杂性过滤，以在不同的任务集中提供强大的训练信号。

根据人工智能分析（如图1所示），这是一个独立的基准测试和分析公司，专注于评估人工智能模型和API提供商，截至2025年4月，LN-Ultra是最智能的开源模型。本次发布代表了开源社区在支持推理模型开发方面的最大贡献之一。

2. 创建推理优化模型

LN-Super和LN-Ultra模型使用Puzzle框架（Bercovich等，2024年）进行优化，以实现高效推理。Puzzle是一个神经架构搜索（NAS）框架，它在现实世界的部署约束下，将大型语言模型转换为硬件高效的变体，如图3所示。从Llama 3 Instruct模型（LN-Super的Llama 3.3-70B-Instruct和LN-Ultra的Llama 3.1-405B-Instruct）开始，Puzzle应用块级局部蒸馏来构建替代变压器块的库。每个块都独立并行训练，以近似其父块的功能，同时改进计算属性，如延迟、内存使用或吞吐量。这个过程允许每个替代块在一定的准确性-效率权衡配置文件中近似原始行为；也就是说，库中的某些块效率更高，但可能会导致一些质量下降——引入了计算成本和模型准确性之间的明确权衡。块变体包括：

注意力移除：一些块完全省略了注意力机制，从而减少了计算和KV缓存内存消耗。
可变FFN维度：前馈网络的中间大小发生变化，可以在不同的粒度级别（例如，87%、75%、50%，一直到原始隐藏大小的10%）进行压缩。

图3 | Puzzle框架概述。
一种异构架构，在吞吐量、延迟和内存使用等约束条件下优化质量。

一旦构建了块库，Puzzle就会通过为每一层选择一个块来组装一个完整的模型。这种选择由混合整数规划（MIP）求解器控制，该求解器在给定的一组约束条件下识别出最有效的配置，例如硬件兼容性、最大允许延迟、总内存预算或期望的推理吞吐量。由于Puzzle支持每层有多个具有不同准确性-效率权衡配置文件的块变体，因此它使用户能够精确地定位准确性-效率帕累托前沿上的任何点。例如，Puzzle可以生成满足特定约束条件的模型，这些约束条件与代理系统或部署管道相关——例如，有界的内存使用或严格的端到端响应时间。

使用FFN融合进行垂直压缩。对于LN-Ultra模型，我们引入了一种额外的压缩技术，称为FFN融合（Bercovich等，2025年），旨在减少顺序深度并提高推理延迟。这种技术利用了Puzzle移除一些注意力层后出现的一种结构特性：模型通常包含连续的FFN块。FFN融合识别这样的序列，并用更少、更宽的FFN层替换它们，这些层可以并行执行。这减少了顺序步骤的数量，同时不会影响表达能力，并显著提高了计算利用率——特别是在多层GPU设置中，其中层间通信开销不可忽略。

2.1. 部署约束和效率目标

LN-Super经过优化，可以在单个NVIDIA H100 GPU上使用张量并行1（TP1）高效运行。使用Puzzle，我们生成了一种模型，在批量大小256和TP1下，与Llama 3.3-70B-Instruct相比，实现了5倍的吞吐量加速。即使在Llama 3.3-70B-Instruct以最佳配置运行TP4时，LN-Super在TP1下仍然提供了≥2.17倍的吞吐量优势。该模型还在大约300K缓存令牌（批量大小×序列长度）的约束条件下进行了优化，在单个H100 GPU上以FP8精度测量。例如，这相当于处理批量大小16和序列长度18,750。

LN-Ultra针对完整的H100节点（8个GPU）进行了优化。在Puzzle的架构搜索阶段，该模型被限制在Llama 3.1-405B-Instruct的基础上实现至少1.5倍的延迟减少。在应用FFN融合后，最终模型实现了1.71倍的延迟改进。LN-Ultra还在缓存令牌约束条件下进行了优化，支持在H100节点上以FP8精度处理高达3M令牌和以BF16精度处理600K令牌。

图4 | GPQA-Diamond准确性vs吞吐量。我们测量了两个设置，S1：500/2000（ISL/OSL）；S2：5000/500（ISL/OSL）。两者都有250个并发用户。模型以FP8提供服务。请注意，我们使用8×H100用于LN-Ultra和Llama 3.1 405B，但使用8×H200用于DeepSeek-R1，因为其大小。

图4说明了在两种设置下，GPQA-Diamond准确性（%）与处理吞吐量（令牌/秒）之间的权衡。值得注意的是，LN-Ultra在这两种设置下，在准确性和效率方面均优于DeepSeek-R1和Llama-3.1-405B，明显地将它定位在准确性-吞吐量帕累托曲线上更优的选择。

2.2. NAS后训练：知识蒸馏和持续预训练

在NAS阶段之后，LN-Super和LN-Ultra都进行了额外的训练，以提高块间兼容性，并恢复在块替换过程中引入的任何质量损失。

LN-Super使用知识蒸馏目标在Distillation Mix数据集上训练了400亿个令牌（Bercovich等，2024年）。
LN-Ultra首先使用相同的蒸馏数据集进行知识蒸馏，训练了650亿个令牌，然后在Nemotron-H第四阶段预训练数据集（NVIDIA等，2025年）上进行了880亿个令牌的持续训练。

这最后的预训练步骤使LN-Ultra不仅能够匹配，而且在关键基准测试中超越参考模型Llama 3.1-405B-Instruct，证明了通过短时间的蒸馏和预训练，可以将激进的架构优化与高性能相协调（见表1）。

任务	LN-Ultra CPT	Llama-3.3 70B-Instruct	Llama-3.1 405B-Instruct
MMLU	88.1	81.4	88.6
MATH500	80.4	73.6	69.6
HumanEval	88.4	84.1	86.0
RULER R128K	83.2	52.2	73.7

表1 | LN-Ultra在持续预训练阶段（监督和强化学习之前）与Llama 3模型进行比较。

3. 综合数据

我们为监督微调策划了推理和非推理数据。对于推理样本，我们包括系统指令“详细思考开启”，对于非推理样本，我们使用“详细思考关闭”。这种设置允许模型学习在推理时根据提示切换推理行为。下面，我们描述了每种模式的重点数据策划过程。

3.1. 推理开启

3.1.1. 数学

为了构建我们数据中的数学推理部分，我们使用了Moshkov等人（2025年）描述的管道。下面提供了这个管道的高级概述，完整的细节可以在原始出版物中找到。

我们从Art of Problem Solving（AoPS）社区论坛收集了大量数学问题。我们包括了所有论坛讨论，除了“中学数学”，因为在我们的早期实验中，发现它太容易且对训练没有帮助。在检索论坛讨论后，我们执行以下步骤来提取问题并合成新的解决方案。除非另有说明，我们使用Qwen2.5-32B-Instruct（Qwen，2024年）进行管道中的所有步骤。

问题提取：我们提示一个LLM识别并提取所有初始论坛帖子中的问题。虽然大多数帖子包含一个问题，但有些帖子包含多个问题或根本没有问题。

问题分类：每个提取的问题都分类为以下类别：

证明问题与否
多项选择题与否
二元问题（是或否答案）与否
有效问题与否。例如，缺乏上下文或引用其他问题的问题被视为无效。

我们从最终数据集中删除了所有证明问题、多项选择题、二元问题和无效问题。

答案提取：我们从论坛讨论中提取最终答案，而不尝试提取完整解决方案。仅提取最终答案表达式以启用自动正确性检查。

基准去污染：继Yang等人（2023年）的做法，我们使用基于LLM的比较来删除与流行的数学基准测试中相似的问题。

解决方案生成：我们提示DeepSeek-R1（DeepSeek-AI等，2025年）和Qwen2.5-Math-7B-Instruct（Qwen，2024年）多次解决每个问题，分别产生“推理”和“非推理”解决方案。我们对DeepSeek-R1使用每问题16次生成，对Qwen2.5-Math-7B-Instruct使用每问题64次生成。

解决方案过滤：作为最后的过滤步骤，我们删除了没有达到预期答案的解决方案。通过提示Qwen2.5-32B-Instruct（Qwen，2024年）在问题的上下文中判断它们的等价性来比较预测和预期答案。对于无法提取最终答案的问题，我们将所有可用解决方案候选中最常见的答案视为真实答案。

所有运行上述管道的提示和脚本均在NeMo-Skills中可用。

3.1.2. 代码

代码推理数据集的构建是一个多阶段过程，包括问题收集、解决方案生成和后处理步骤，如Ahmad等人（2025年）所描述。

问题收集和验证：我们汇总了来自不同来源的28,904个独特的竞争编程问题，包括TACO（Li等人，2023年）、APPS（Hendrycks等人，2021a）、CodeContests（Li等人，2022年）和CodeForces（Penedo等人，2025a），在进行精确匹配去重后。为了确保与基准测试（如Jain等人，2025年；Li等人，2022年；Chen等人，2021年；Austin等人，2021年）的评估完整性，我们使用Yang等人（2023年）的方法进行严格污染检查。这涉及余弦相似性检查和由LLM法官（Llama-3.3-70B（Grattafiori等人，2024年）、Qwen2.5-32B（Qwen，2024年））进行语义评估。手动验证证实了可以忽略不计的重叠（<0.3%），验证了问题集的有效性。

解决方案生成：我们采用DeepSeek-R1（DeepSeek-AI等，2025年）来为每个问题生成多个解决方案，主要使用Python编写，对于特定的基准测试测试（Penedo等人，2025b），也生成C++解决方案。解决方案是使用Nucleus采样（Holtzman等人，2020年）（温度0.6，top-p 0.95）通过SGLang（Zheng等人，2024年）生成的，明确提示推理步骤包含在标签中。

后处理和细化：我们通过验证推理轨迹的存在，提取解决方案代码段（由python…标记），删除推理标签内的代码样本，并使用Tree Sitter（TreeSitter，2013年）验证语法来完善生成的响应。这个过程产生了大约488K个Python样本。

数据扩展洞察：虽然一些研究表明，对于诱导推理（HuggingFace，2025年；Muennighoff等人，2025年；BespokeLabs，2025年；OpenThoughts，2025年）来说，小数据集就足够了，特别是在数学方面，我们的实验表明，大规模数据对于在编码基准测试上取得高性能至关重要。扩展数据集从25k到736k样本的消融研究表明显示持续改进。初始扩展（25k-100k）提供了收益，但将生成重点放在CodeContests上的更难问题，然后再扩展到完整的问题集，提供了最显著的性能提升。扩展曲线没有达到平台期，强调了大型、多样化和具有挑战性的问题集对于提升代码生成能力的重要性，这表明需要方法在规模上创建或获取更难的问题。

3.1.3. 科学

我们从内部和外部来源策划了一系列开放性问题和多项选择题（MCQ）。这些包括从StackOverflow（Stack Exchange Data，2024年）提取的问答对和综合生成的MCQ问题。

综合问题生成：为了创建综合问题，我们使用Nemotron-4-340B-Instruct（NVIDIA，2024c）定义了一组广泛的学术主题（例如，物理学生物学化学）及其子主题。我们指定了多个难度级别，以确保数据集的多样性和可扩展性。我们提示Qwen2.5模型（Qwen，2024年）生成以主题、子主题和难度级别为条件的MCQ。每个问题都经过格式合规性验证。根据OpenMathInstruct-2（Toshniwal等人，2025年）管道，我们通过提示Qwen2.5生成原始问题的变体来扩展数据集。

基准去污染：为了确保公平评估，我们按照Yang等人（2023年）概述的方法，对整个问题集（包括真实和综合）进行去污染，以消除与主要科学基准测试（如GPQA（Rein等人，2023年）、MMLU（Hendrycks等人，2021b）和MMLU-Pro（Wang等人，2024年））的测试集的重叠。

解决方案生成：对于数据集中的所有问题，我们使用DeepSeek-R1（DeepSeek-AI等，2025年）生成多个推理轨迹。对于没有真实答案的问题，我们通过对生成的解决方案应用多数投票来推断最可能的正确答案。

3.1.4. 一般

对于一般领域数据，我们遵循在NVIDIA（2024c）中建立的生成管道。我们生成涵盖各种任务的综合提示，例如开放QA、封闭QA、提取和头脑风暴。我们还从具有许可权限的公开数据集中获取真实用户提示。对于响应，我们提示DeepSeek-R1（DeepSeek-AI等，2025年）进行多次生成，并使用Llama-3.1-Nemotron-70B奖励模型（NVIDIA，2024b）进行拒绝采样。这确保了响应的质量。

3.2. 推理关闭

为了训练模型遵循推理切换指令，我们构建了配对数据，其中每个提示都有推理响应和非推理响应。具体来说，我们从第3.1节中的推理数据集中随机抽取提示，并使用Llama-3.1-Nemotron-70B-Instruct（NVIDIA，2024a）生成相应的非推理响应，用于一般领域提示和其他提示的Llama-3.3-70B-Instruct。每个响应都标有适当的系统指令——“详细思考开启”用于推理，“详细思考关闭”用于非推理。这种配对使模型能够学习根据系统提示调节其推理行为。

然后根据真实答案或奖励模型对响应进行过滤。我们还利用公共许可数据集进行函数调用和安全性的训练，增强它们以训练模型并提高其在这些领域的能力。为了进一步提高一般任务上的性能，我们使用了第3.2.1节中描述的反馈-编辑系统。

3.2.1. 一般领域开放性推理时扩展

为了生成高质量的一般领域开放性响应，我们结合使用Llama-3.1-Nemotron-70B-Instruct（NVIDIA，2024a）和一种新颖的反馈-编辑推理时扩展系统，如Wang等人（2025b）所描述。该过程从ShareGPT（RyokoAI，2023年）和WildChat-1M（Zhao等人，2024年）源中获取20k个第一轮提示。我们使用Llama-3.1-Nemotron-70B-Instruct为每个提示生成多个初始响应。这些响应通过三阶段过程进行细化：一个专门的反馈模型识别需要改进的领域，一个专门的编辑模型根据反馈进行有针对性的编辑，一个专门的选择模型选择最佳编辑后的响应。结果数据集包括20k个第一轮提示及其相应的高质量响应。

领域/分割	样本数	占总数的百分比
数学	22,066,397	66.8%
推理开启	2,225,427	6.7%
推理关闭	19,840,970	60.1%
代码	10,108,883	30.6%
推理开启	991,706	3.0%
推理关闭	9,117,177	27.6%
科学	708,920	2.1%
推理开启	708,920	2.1%
推理关闭	0	0.0%
聊天	39,792	0.12%
推理开启	8,574	0.03%
推理关闭	31,218	0.09%
指令遵循	56,339	0.17%
安全性	31,426	0.10%
总计	33,011,757	100%

4. 监督微调

监督微调（SFT）在将推理能力转移到Llama-Nemotron模型中起着关键作用。虽然之前的阶段，如NAS和CPT侧重于架构效率和广泛的知识转移，但SFT有助于通过在特定任务的推理轨迹上进行训练，从强大的教师模型（如DeepSeek-R1（DeepSeek-AI等，2025年））中提取推理行为。它还使用“详细思考开启/关闭”指令建立了对响应风格的细粒度控制。最近的研究（DeepSeek-AI等，2025年；OpenThoughts，2025年；BespokeLabs，2025年；Wen等，2025年）表明，这种推理SFT可以显著提高复杂推理任务的性能。我们的结果证实了这些发现，强调了在SFT期间对大规模、高质量推理轨迹进行训练对于在下游使用中引出强大的推理能力的重要性。本节建立在第3节描述的综合数据的基础上，并提供了每个模型的具体实施细节。

4.1. 一般方法

所有模型都使用指令调整数据的逐令牌交叉熵损失进行训练。在大多数设置中，训练批次混合了推理和非推理数据，其中提示与根据相应的系统指令“详细思考开启/关闭”调节的响应配对。

我们观察到，模型需要更高的学习率才能有效地从长推理轨迹中学习，尤其是由于序列长度相关的令牌损失平均化。在多个周期上延长训练可以提高性能，特别是对于较小的模型，这一趋势也在以前的工作中观察到（Wen等，2025年）。我们使用Adam优化器来训练所有模型。使用余弦学习率衰减和线性预热到总步数的约10%有助于训练的稳定性，这对LN-Ultra至关重要。

4.2. 模型特定训练

LN-Nano与下面其他模型不同，它经历了一个三阶段的SFT管道，使用序列打包，有效序列长度为32k令牌。在第一阶段，模型专门在来自代码、数学和科学领域的推理数据（第3.1节）上进行微调，学习率为1e-4，持续四个周期。这避免了诸如重复完成等故障模式。在第二阶段，我们引入非推理数据（第3.2节）与推理样本混合，使模型学习推理控制。在最后阶段，使用较小的混合，重点关注聊天、指令遵循和工具调用。

LN-Super在完整的SFT数据集上训练了一个周期，使用固定学习率为5e-6，序列长度为16k和全局批量大小为256。小规模的运行表明，性能在3-4个周期内随着更大的学习率（5e-5）提高，但训练受到计算和时间限制的限制。最近的工作（Wen等，2025年）表明，拒绝微调可以进一步提高性能；然而，在我们的实验中并没有带来收益，因此被省略。

LN-Ultra在完整数据集上使用序列打包，有效序列长度为24k和全局批量大小为256，以最大化令牌吞吐量——这是微调具有长上下文推理数据的大型模型时的一个关键策略。初步的消融运行，更高的学习率，如5e-5，通常会改善结果，但持续的高学习率会导致不稳定，包括梯度爆炸。为了缓解这种情况，我们实施了线性预热到1e-5，然后是余弦衰减到1e-6，预热比为10%。尽管采取了这些措施，训练在第一个周期后遇到了梯度爆炸和数值不稳定。这需要重新初始化优化器状态后重新启动训练，之后实现了成功的收敛。

5. RL用于推理

如第4节所述，并在表5中显示，模型可以通过监督微调从强大的教师那里获取强大的能力。然而，蒸馏本质上为学生的表现设定了一个上限，特别是当学生的基模型不比教师的模型更有能力时。使用监督微调，LN-Ultra可以接近DeepSeek-R1的性能，但无法超越。为了使学生能够超越他们的教师，大规模强化学习是一个可行的方法，因为它允许模型不断探索新的可能性并参与自我学习。与DeepSeek-AI等（2025年）的发现一致，我们的初步实验表明，将RL应用于较小的模型会产生次优的结果，与蒸馏相比。由于资源限制，我们仅对LN-Ultra应用推理RL，这导致了一个超越其教师的模型。

5.1. 训练程序

对于LN-Ultra，我们通过大规模强化学习增强模型的科学推理能力，利用集团相对策略优化（GRPO）算法（Shao等，2024年）。我们使用72的推出提示大小，每个提示采样16个响应，α=1和β=1。在训练中，我们将全局批量大小设为576，并在每次推出时进行两次梯度更新。我们训练我们的模型直到它在推理任务上达到收敛。图5显示了GPQA-Diamond的准确性得分，随着我们的训练进展。随着我们优化的训练基础设施（见第5.2节），整个训练大约需要140k H100小时。

GPQA-Diamond准确性得分
图5 | LN-Ultra在推理RL训练过程中GPQA-Diamond的准确性

在这个训练阶段，我们利用两种类型的奖励：

准确性奖励：对于每个训练示例，都提供了一个真实答案（一个数字、一个句子或一个段落）。我们使用Llama-3.3-70B-Instruct模型来判断策略的预测是否与真实答案匹配。

格式奖励：继DeepSeek-AI等（2025年）的做法，我们采用格式奖励，以确保模型在使用“详细思考开启”模式时将其思考过程放在<think>和</think>标签之间。我们还检查在使用“详细思考关闭”模式时不存在思考标签。

为了确保模型得到充分挑战，我们通过独立生成每个问题的8个响应，使用LN-Super计算通过率，然后有意丢弃通过率为0.75或更高的提示，从而增加了训练数据的难度。除了数据过滤，我们还发现课程训练很有帮助，因为它允许模型逐步学习难度递增的任务。具体来说，我们实施了一种渐进式批处理策略，利用预先计算的通过率作为难度指标。给定一个固定批量大小，我们的方法的核心是动态计算每个连续批量的目标通过率分布。这个分布使用以难度水平为中心的正态函数建模，从高通过率（较容易的例子）到低通过率（较难例子）的进展。样本主要根据这个目标分布分配到每个批量，考虑到每个通过率的可用数量，任何剩余的批量容量通过优先考虑剩余样本池中最大的通过率来填充。这确保了批量内平均样本难度逐步增加，而批量内的样本随机打乱。图6展示了我们的课程策略的有效性，它稳定了训练过程并实现了更高的准确性。

5.2. 基础设施

5.2.1. 概述

我们主要使用NeMo-Aligner（Shen等，2024年）进行RL训练，我们使用一个开发分支，该分支实现了GRPO和异构模型支持。我们使用vLLM（Kwon等，2023年）实现生成阶段，使用Megatron-LM（Shoeybi等，2020年）实现训练阶段。训练和推理阶段共址在相同的GPU上。

使用的GPU总数为72个节点，每个节点有8个H100。训练模型并行性使用：张量并行=8，序列并行，上下文并行=2，管道并行=18，数据并行=2。

图6 | 课程与非课程消融。

生成模型并行性是张量并行=8，数据并行=72。关于如何选择这种并行化策略的细节在5.2.2中解释。生成是在FP8中进行的，训练是在BF16中进行的，FP32优化器状态。

每个阶段都维护自己的一组模型权重，这些权重在每个步骤开始时同步。首先，所有训练权重在训练管道并行维度上全部收集，转换为vLLM格式，并写入共享内存。然后所有训练阶段内存被释放或卸载到主机。接下来，vLLM从睡眠模式唤醒，从共享内存加载新保存的模型权重，并开始生成。生成完成后，使用睡眠模式=2释放vLLM GPU内存，并重新加载所有训练内存。

5.2.2. 内存剖析和优化

启用LN-Ultra的GRPO训练的一个主要挑战是内存管理。训练作业被安排到一个共享集群环境中。在集群中，每个节点有8个H100 GPU，双插座32核CPU和2TB CPU DRAM。另一方面，模型在BF16类型中占用253×2≈5000内存。此外，如第5.2.1节所述，为了提高GPU利用率，我们决定将训练和推理阶段堆叠在相同的节点集上。没有仔细的内存管理，很容易在GPU和CPU内存分配中遇到内存不足的错误。

为了更好地跟踪训练过程中的内存使用情况，我们开发了三个简单的内存剖析工具来监控内存使用情况：使用PyTorch的GPU内存利用率，使用psutil的CPU内存利用率，以及使用df命令的/dev/shm利用率。GPU/CPU内存剖析器帮助我们跟踪不同代码指针的GPU/CPU内存使用情况。我们需要/dev/shm剖析器，因为我们使用/dev/shm将权重从训练器传递到vLLM服务器，主机配置为分配高达1TB的/dev/shm空间。

借助这些剖析工具，我们能够确定导致内存不足错误的具体内存分配，然后设计解决方案来克服这些问题。第一个挑战是权重准备。当我们在管道并行阶段全部收集训练权重时，我们遇到了由于异构架构而导致的超大张量。其中一个张量有130亿个元素，在BF16类型中占据260亿GPU内存。我们需要定期释放未使用的GPU内存，并将一些张量转换操作转移到CPU，以便在此阶段控制GPU内存使用。第二个挑战是vLLM的GPU内存利用率。张量并行等于8，我们预计每个GPU保留500/8≈62GB的BF16权重。考虑到KV缓存、激活和训练器占用的GPU内存，我们对vLLM的预算非常紧张。我们必须禁用cudagraph功能以避免vLLM中的GPU内存不足。然而，当我们启用FP8推理生成时，如5.2.3中所解释的，GPU内存预算变得宽松了很多，我们得以再次启用cudagraph功能。最后一个挑战是训练器中的GPU和CPU内存使用。张量并行=8是将完整模型分割到同一节点中可用的8xH100 GPU的自然选择。由于模型架构是异构的，我们需要插入身份层，以便在管道并行中平衡管道阶段。我们希望有足够的管道并行性，以避免训练GPU中的OOM和CPU中的检查点保存OOM。另一方面，我们还希望减少管道阶段以减少通信成本。在所有这些权衡中，我们发现最佳的管道并行设置是18。激活也消耗了很多内存，在管道并行为18的情况下，我们需要保持18个微批次。我们最终使用上下文并行=2和序列并行来减少激活内存消耗，以防止训练中GPU的OOM。在所有这些调整之后，我们最终选择张量并行=8与序列并行、上下文并行=2，管道并行=18和数据并行=2，以实现>90%的GPU利用率，同时避免任何主机遇到GPU或CPU内存不足的错误。

5.2.3. FP8推理生成

我们确定生成阶段是步骤时间的主要组成部分。为了提高性能，我们实现了一条路径，以支持使用vLLM的在线FP8生成模式，该模式使用每个令牌的激活缩放因子和每个张量权重缩放因子执行所有GEMMs。我们实现了自定义的vLLM权重加载器，能够加载训练阶段提供的BF16权重，并在运行时转换为FP8权重和缩放因子。因为vLLM不支持直接在FP8中初始化模型，我们还实现了元权重张量初始化，以避免在GPU中出现内存不足错误。

总之，我们观察到FP8生成的峰值吞吐量为32令牌/s/GPU/prompt，比BF16快1.8倍，据我们所知，这是迄今为止在这种规模下观察到的最高解码吞吐量。我们观察到仅FP8生成就带来了1.4倍的加速，另外0.4倍的加速来自内存使用的减少，这使我们能够启用vLLM的cudagraph功能。

6. RL用于偏好优化

6.1. 指令遵循

在科学推理训练之后，我们进行了一次简短的RL运行，优化LN-Super和LN-Ultra的指令遵循能力。我们使用与Zhou等人（2023年）类似的验证设置，并生成包含一到十条详细指令的综合指令遵循提示。我们使用RLOO算法（Ahmadian等人，2024年）进行RL，运行，使用我们的指令遵循验证器作为奖励，批量大小为128个提示。我们发现这样的训练提高了传统指令遵循基准测试以及推理基准测试的性能。

6.2. RLHF

我们使用RLHF来提高模型在一般帮助性和聊天能力方面的表现，同时仔细维护其在其他领域的能力。如表4所示，LN-Super，一个490亿参数模型，在Arena Hard得分上达到了88.3分，击败了专有模型，如Claude 3.5 Sonnet和GPT-4o-2024-05-13以及更大的开源模型，如Llama-3.1-405b-instruct和Mistral-large-2407。

为了实现这一点，我们使用迭代在线RPO（NVIDIA，2024c；Sun等人，2025年）来最大化HelpSteer2（Wang等人，2025a）上的提示预测的奖励。对于每次迭代，我们使用学习率α为4e-7，KL惩罚β为1e-5，奖励规模η为3.0，批量大小为64，训练500步。两轮在线RPO将Arena Hard得分从69.1增加到88.1。更有趣的是，这个过程还提高了模型在其他所有采用基准测试上的表现，除了IFEval。由于数据集和奖励模型都没有针对数学、编码、科学或函数调用进行优化，我们推测，RLHF帮助模型更好地利用其现有的知识和技能。

我们遵循相同的过程对LN-Ultra进行训练，不同之处在于使用GRPO。对于每个提示，我们采样8个响应。我们训练模型30步，使用学习率3e-7，批量大小为288，KL惩罚β为1e-3。

对于LN-Nano，我们进行两轮离线RPO与策略数据。在第一轮RPO中，我们使用混合的推理和非推理数据与适当的系统提示来改善推理控制，然后第二轮使用策略数据针对指令遵循改进。对于每一轮RPO，我们训练最多400步，学习率α为7e-7，KL惩罚β为3e-2，批量大小为512。

7. 对推理和聊天基准测试的评估

7.1. 基准测试

我们评估所有Llama-Nemotron模型在两大类基准测试中：推理和非推理。

推理基准测试。这些包括2024年（AIME24）和2025年（AIME25）的美国邀请数学考试（American Invitational Mathematics Examination）、GPQA-Diamond（Rein等人，2024年）、LiveCodeBench（Jain等人，2024年）和MATH500（Lightman等人，2023年）。AIME25分为两部分：AIME25-I和AIME25-II，每部分包含15个问题。对于LN-Nano，我们仅使用AIME25-I；对于LN-Super和LN-Ultra，我们对完整的30问题集进行评估。由于AIME25是最近发布的，它不太可能与训练数据重叠。因此，在这项基准测试上的更强性能表明更好的泛化能力，特别是在训练分布之外的数学问题上。LiveCodeBench包含按日期索引的问题，我们报告了两个特定范围的结果——（2408–2502）和（2410–2502），以便于与之前报告的基线进行公平比较。

非推理基准测试。这些包括IFEval（严格指令）（Zhou等人，2023年）用于指令遵循，BFCL V2 Live（Yan等人，2024年）用于通过函数调用进行工具使用，以及Arena-Hard（Li等人，2024年）用于评估与人类对话偏好的对齐。

所有评估均在32k上下文长度下进行，即使训练时的最大序列长度为LN-Super 16k和LN-Ultra 24k。我们观察到在扩展上下文长度下评估时，持续改进，因为较短的序列限制可能会截断长推理轨迹，并导致不完整的生成——特别是在需要多步骤推理的基准测试上。我们使用温度0.6和top-p 0.95进行推理开启评估，温度0（贪婪解码）用于推理关闭。我们每个提示生成最多16个完成，并报告平均pass@1准确性。检查点的选择基于在部分推理基准测试上的表现。如同之前的工作（Moshkov等人，2025年）所观察到的，在推理密集型任务（如AIME）的评估中，由于数据集大小小和生成随机性，可能会出现高方差。报告的数字可能因重复运行或采样策略而有所不同。

7.2. LN-Nano

表3显示，LN-Nano在所有推理基准测试中，包括AIME25-I和LiveCodeBench，尽管其规模较小，但表现出色。这证明了我们的SFT管道和策划的推理数据集在将结构化推理转移到紧凑模型中的有效性。对于Nano推理SFT混合，平衡数学、编码和STEM领域的数据分布对于在SFT阶段达到接近最先进的准确性非常重要。例如，我们的早期实验显示，特别是在化学相关问题上的准确性较差，即GPQA-D的主要领域之一。在STEM子集的整体SFT混合中，对化学相关数据样本进行上采样有助于提高GPQA-D的准确性。后训练管道的RPO阶段主要针对IFEval准确性改进，如表3所示。

7.3. LN-Super（续）

如表4所示，推理优化的监督微调（SFT）导致IFEval评分显著下降。为了恢复指令遵循能力，我们进行了专门的IFEval强化学习（RL）运行（见第6.1节），以确保强大的推理能力不会以牺牲通用助手行为为代价。我们的实验结果表明了另一个权衡：针对指令遵循进行优化（如IFEval所衡量的）可能会损害对话能力（如Arena-Hard所衡量的），反之亦然，优先考虑对话能力可能会降低指令遵循性能。为了解决这个问题，我们对LN-Super进行了模型合并，从帕累托前沿选择一个检查点，以平衡这些目标。由于结果好坏参半，我们没有对其他模型采用这种方法。LN-Super唯一表现不佳的领域是LiveCodeBench，这是由于其SFT阶段是在数据集的早期版本上进行的，而不是像LN-Nano和LN-Ultra那样。我们计划在未来的模型更新中解决这个问题，并提高与编码相关的推理性能。

任务	LN-Super-SFT 推理	LN-Super 推理	DeepSeek-R1-Distilled-Llama-70B	QwQ-32B	Llama-3.3 70B-Instruct
GPQA-Diamond	63.8	46.6	66.7	50.0	65.2
AIME24	63.3	17.5	67.5	16.7	70.0
AIME25	50.0	6.7	60.0	16.7	55.0
MATH500	93.2	76.8	96.6	74.0	94.5
BFCLV2Live	73.3	62.5	73.7	73.9	65.5
LiveCodeBench (2408-2502)	40.9	28.7	45.5	29.7	57.5
IFEval	81.9	83.0	89.2	89.0	85.1
ArenaHard	-	-	88.3	-	65.4

7.4. LN-Ultra

表5和图2显示，LN-Ultra在推理和非推理基准测试中与现有的开源权重模型相匹配或超越。它在开源模型中实现了GPQA的最高性能，证明了我们的强化学习训练的有效性。与之前的最先进模型（如DeepSeek-R1）不同，后者需要8×H200，LN-Ultra经过优化，可以在单个8×H100节点上高效运行，提供了改进的推理吞吐量和部署效率。

从表5中，我们观察到，LN-Ultra-SFT模型在几个推理基准测试（包括GPQA和AIME）上接近DeepSeek-R1的性能。然而，RL阶段对于超越DeepSeek-R1至关重要，特别是在GPQA上。这突出了SFT和RL的互补优势：SFT通过从教师模型中提取推理行为来建立坚实的基础，而RL对于超越教师性能并进一步提高推理能力至关重要。

我们还发现，SFT训练的广度与后续RL的成功可能性之间存在权衡。尽管我们能够访问到基准测试得分更高的SFT检查点，但我们从早期的检查点开始RL，以改善最终的RL结果。

任务	LN-Ultra-SFT 推理	LN-Ultra 推理	DeepSeek R1	Llama-4 Behemoth	Llama-4 Maverick	Llama-3.1 405B-Instruct
GPQA-Diamond	66.4	46.0	76.0	56.6	71.5	73.7
AIME24	74.6	46.7	80.8	20.0	79.8	-
AIME25	60.4	16.7	72.5	16.7	70.0	-
MATH500	96.6	84.4	97.0	80.4	97.3	95.0
BFCLV2Live	74.6	74.9	74.1	73.6	-	-
LiveCodeBench (2408-2502)	60.6	30.1	66.3	29.0	65.9	-
LiveCodeBench (2410-2502)	61.8	-	68.1	-	-	49.4
IFEval	83.2	79.4	88.9	89.5	88.8	-
Arena Hard	-	-	87.0	-	92.0	-

8. 对判断能力的评估

除了模型训练的推理和聊天能力之外，我们还对我们的模型进行了一个分布外任务（LLM-as-a-Judge）的评估，以进一步评估其性能。具体来说，我们对JudgeBench（Tan等人，2025年）进行了测试，任务是将高质量和低质量的回答区分开来。如表6所示，我们的模型在顶级专有和开源模型中表现优异。值得注意的是，LN-Ultra成为最佳开源模型，显著超越了DeepSeek-R1，仅次于o3-mini（高）。此外，LN-Super也优于o1-mini，证明了我们的模型在各种任务中表现出强大的泛化能力。

模型	知识	推理	数学	编码	总体
ol-preview	66.23	79.59	85.71	85.71	75.43
01-mini	58.44	62.24	82.14	78.57	65.71
03-mini(low)	62.99	69.39	83.93	83.33	70.57
03-mini(medium)	62.34	86.73	85.71	92.86	76.57
03-mini(high)	67.53	89.80	87.50	100.0	80.86
DeepSeek-R1	59.09	82.65	80.36	92.86	73.14
LN-Super	64.94	67.35	76.79	83.33	69.71
LN-Ultra	70.13	81.63	89.29	92.86	79.14