Qwen3技术报告详解

最新推荐文章于 2025-05-17 20:15:04 发布

算法熔炉

最新推荐文章于 2025-05-17 20:15:04 发布

阅读量944

点赞数 33

文章标签：论文阅读算法

本文链接：https://blog.csdn.net/kycg_/article/details/147965630

版权

省流版：

1. 模型概述：Qwen3 系列包含 6 个dense模型和 2 个混合专家（MoE）模型，参数规模从 6 亿到 2350 亿不等。其创新地集成了思维模式和非思维模式，引入思维预算机制，可根据任务需求动态分配计算资源，平衡延迟和性能。同时，预训练数据规模和多样性显著提升，涵盖 119 种语言和方言，共计 36 万亿词元。

2. 模型架构：Qwen3 dense模型采用与 Qwen2.5 相似的架构，如使用分组查询注意力（GQA）、SwiGLU、旋转位置嵌入（RoPE）和 RMSNorm 等技术，并引入 QK-Norm 以确保稳定训练。Qwen3 MoE 模型在 Qwen2.5-MoE 的基础上进行改进，实现了更细粒度的专家分割，采用全局批处理负载均衡损失鼓励专家专业化。

3. 预训练：预训练数据通过多种方式扩展，包括利用 Qwen2.5-VL 进行文本识别、使用特定领域模型合成数据等。预训练分为三个阶段，分别针对通用知识、推理能力和长上下文能力进行训练，并通过实验确定了最优超参数。在多个基准测试中，Qwen3 基础模型表现出色，在多数任务上超越了之前的开源模型。

4. 后训练：后训练旨在实现思维控制和强弱蒸馏，通过四阶段训练过程，提升模型的推理能力和通用性。同时，采用强弱蒸馏方法优化轻量级模型，使其在保持性能的同时降低计算成本。在多个基准测试中，Qwen3 模型在思维和非思维模式下均表现优异，超越了许多强大的base模型。

论文链接：https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf

下面我们来详细的看下这篇技术报告的主要内容~

摘要

在这项工作中，我们推出了 Qwen3，这是 Qwen 模型家族的最新版本。Qwen3 由一系列大语言模型（LLMs）组成，旨在提升性能、效率和多语言能力。Qwen3 系列包括密集型和混合专家（MoE）架构的模型，参数规模从 6 亿到 2350 亿不等。Qwen3 的一项关键创新是将思维模式（用于复杂的多步推理）和非思维模式（用于快速的、基于上下文的响应）集成到一个统一的框架中。这消除了在不同模型之间切换的需要，例如聊天优化模型（如 GPT-4o）和专用推理模型（如 QwQ32B），并能够根据用户查询或聊天模板进行动态模式切换。同时，Qwen3 引入了思维预算机制，允许用户在推理过程中自适应地分配计算资源，从而根据任务复杂性平衡延迟和性能。此外，通过利用旗舰模型的知识，我们显著减少了构建较小规模模型所需的计算资源，同时确保它们具有极具竞争力的性能。实证评估表明，Qwen3 在各种基准测试中都取得了最先进的成果，包括代码生成、数学推理、智能体任务等，与更大的 MoE 模型和专有模型相比也颇具竞争力。与前作 Qwen2.5 相比，Qwen3 将多语言支持从 29 种语言和方言扩展到 119 种，通过提升跨语言理解和生成能力，增强了全球可及性。为促进可重复性研究以及社区驱动的研发，所有 Qwen3 模型均在 Apache 2.0 许可下公开可用。

模型结构

Qwen3 系列包含 6 个密集模型，分别是 Qwen3 - 0.6B、Qwen3 - 1.7B、Qwen3 - 4B、Qwen3 - 8B、Qwen3 - 14B 和 Qwen3 - 32B，以及 2 个混合专家（MoE）模型，即 Qwen3 - 30B - A3B 和 Qwen3 - 235B - A22B。旗舰模型 Qwen3 - 235B - A22B 共有 2350 亿个参数，其中激活参数为 220 亿个。下面，我们将详细阐述 Qwen3 模型的架构。

Qwen3 密集型模型的架构与 Qwen2.5类似，包括使用分组查询注意力机制GQA、门控线性单元SwiGLU、旋转位置嵌入RoPE，以及采用预归一化的均方根归一化（RMSNorm。此外，我们去除了 Qwen2 中使用的 QKV 偏差，并在注意力机制中引入了 QK 归一化（QK-Norm，以确保 Qwen3 的稳定训练。模型架构的关键信息见下表：

Qwen3 混合专家（MoE）模型与 Qwen3 密集模型具有相同的基本架构。模型架构的关键信息见表 2。我们沿用了 Qwen2.5 - MoE的设计，并实施了细粒度的专家划分。Qwen3 混合专家模型共有 128 个专家，每个 token 会激活 8 个专家。与 Qwen2.5 - MoE 不同，Qwen3 - MoE 的设计中没有共享专家。此外，我们采用了全局批处理负载均衡损失来促进专家的专业化。这些架构和训练方面的创新显著提升了模型在下游任务中的性能。

预训练(pre-training)

Qwen3模型通过三阶段流程进行预训练：

（1）通用阶段（General Stage, S1）：在第一个预训练阶段，所有Qwen3模型均使用4096 token的序列长度，在超过30万亿token上进行训练。在此阶段，模型已完成语言能力和通用世界知识的全面预训练，训练数据覆盖119种语言和方言。

（2）推理阶段（Reasoning Stage, S2）：为进一步提升推理能力，我们通过增加STEM、编码、推理和合成数据的比例来优化此阶段的预训练语料库。模型使用4096 token的序列长度，在约5万亿高质量token上进一步预训练，同时在此阶段加速学习率衰减。

（3）长上下文阶段（Long Context Stage）：在最后的预训练阶段，我们收集高质量长上下文语料库以扩展Qwen3模型的上下文长度。所有模型使用32,768 token的序列长度，在数百亿token上进行预训练。长上下文语料库中，75%的文本长度在16,384至32,768 token之间，25%的文本长度在4,096至16,384 token之间。遵循Qwen2.5的做法，我们使用ABF技术将RoPE的基础频率从10,000提高至1,000,000。同时，我们引入YARN和双块注意力（DCA），以在推理时将序列长度处理能力提升四倍。

与Qwen2.5类似，我们基于上述三个预训练阶段开发了用于预测最优超参数（如学习率调度器和批量大小）的缩放定律。通过大量实验，我们系统地研究了模型架构、训练数据、训练阶段与最优训练超参数之间的关系。最后，我们为每个dense模型或混合专家（MoE）模型设定了预测的最优学习率和批量大小策略。

评价结果

报告在这里花了非常大的篇幅详细介绍了各个模型在各个benchmark上的测试结果，与主流SoTA模型也进行了全方面的对比，这里就不赘述了，感兴趣的可以去看下原文。在这里展示两个比较具有代表性的结果：

后训练(post-training)

Qwen3系列模型的后训练流程

Qwen3的后训练流程是经过设计的，包含两个核心目标：

（1）思维控制（Thinking Control）：这涉及两种不同模式的集成，即“非思维”模式和“思维”模式，使用户能够灵活选择模型是否进行推理，并通过为思维过程指定token预算来控制思维深度。

（2）强到弱蒸馏（Strong-to-Weak Distillation）：此目标旨在精简和优化轻量级模型的后训练流程。通过利用大规模模型的知识，大幅降低了构建较小规模模型所需的计算成本和开发工作量。

如上图所示，Qwen3系列的旗舰模型遵循一个复杂的四阶段训练流程。前两个阶段专注于培养模型的“思考”能力，后两个阶段则旨在将强大的“非思考”功能集成到模型中。

初步实验表明，将教师模型的logits输出直接蒸馏到轻量级学生模型中，能够在保持对推理过程细粒度控制的同时有效提升其性能。这种方法无需为每个小规模模型单独执行详尽的四阶段训练流程，不仅能通过更高的Pass@1分数，体现出更优的即时性能，还能通过改善的长序列探索能力（Pass@64结果提升）增强模型的推理扩展性。此外，该方法以更高的训练效率实现了这些提升——仅需四阶段训练方法1/10的GPU时长。

在接下来的章节中，将介绍四阶段训练流程，并对“强到弱蒸馏”方法进行详细说明。

长思维链冷启动

我们首先精心整理了一个涵盖广泛类别的综合数据集，包括数学、代码、逻辑推理和通用STEM问题。数据集中的每个问题都配有经过验证的参考解答或基于代码的测试用例。该数据集构成了长思维链（long-CoT）训练“冷启动”阶段的基础。

数据集构建涉及严格的两阶段过滤流程：查询过滤和响应过滤。在查询过滤阶段，我们使用Qwen2.5-72B-Instruct模型识别并移除不易验证的查询，包括包含多个子问题或请求通用文本生成的查询。此外，我们还会排除Qwen2.5-72B-Instruct无需使用思维链（CoT）推理即可正确回答的查询，这有助于防止模型依赖表面猜测，确保数据集中仅包含需要深度推理的复杂问题。同时，我们使用Qwen2.5-72B-Instruct为每个查询标注领域标签，以保持数据集中各领域的均衡分布。

在保留验证查询集后，我们使用QwQ-32B模型为每个剩余查询生成N个候选响应。当QwQ-32B持续无法生成正确解决方案时，人工标注员会手动评估响应的准确性。对于通过率（Pass@N）为正的查询，我们应用更严格的过滤标准以移除以下响应：（1）最终答案错误；（2）包含大量重复内容；（3）明显存在缺乏充分推理的猜测；（4）思维过程与总结内容不一致；（5）涉及不恰当的语言混合或风格转换；（6）涉嫌与潜在验证集内容过度相似。随后，我们从精炼数据集中精心挑选子集，用于推理模式的初始冷启动训练。此阶段的目标是在模型中灌输基础推理模式，而不过度强调即时推理性能。这种方法确保模型的潜力不受限制，从而在后续强化学习（RL）阶段具备更大的灵活性和提升空间。为有效实现这一目标，在准备阶段最好尽量减少训练样本数量和训练步骤。

推理强化学习

推理强化学习阶段使用的查询-验证器对必须满足以下四个标准：（1）未在冷启动阶段使用过；（2）冷启动模型可从中学习；（3）尽可能具有挑战性；（4）覆盖广泛的子领域。我们最终收集了总共3,995个查询-验证器对，并采用GRPO方法更新模型参数。我们观察到，使用大批次大小、每个查询进行高次数的展开模拟，以及通过离策略训练提高样本效率，均对训练过程有益。我们还解决了如何平衡探索与利用的问题，通过控制模型的熵值稳步增加或保持稳定稳定，这对于维持训练的稳定性至关重要。因此，在单次强化学习运行过程中，我们无需对超参数进行任何人工干预，即可实现训练奖励和验证性能的持续提升。例如，Qwen3-235B-A22B模型的AIME’24分数在总共170个强化学习训练步骤中从70.1提升至85.1。

思维模式融合阶段中思维模式与非思维模式的SFT数据示例

思维模式融合

思维模式融合阶段的目标是将“非思维”能力集成到先前训练的“思维”模型中。这种方法使开发人员能够管理和控制推理行为，同时降低为思维和非思维任务部署独立模型的成本和复杂性。为实现这一目标，我们对推理强化学习（RL）模型进行持续监督微调（SFT），并设计聊天模板以融合两种模式。此外我们发现，能够熟练处理两种模式的模型在不同思维预算下均表现出稳定的良好性能。

SFT数据构建 SFT数据集融合了“思维”和“非思维”两类数据。为确保第二阶段模型的性能不会因额外的SFT而受损，“思维”数据通过第二阶段模型自身对第一阶段查询进行拒绝采样生成。另一方面，“非思维”数据经过精心整理，覆盖编码、数学、指令遵循、多语言任务、创意写作、问答和角色扮演等多样化任务。此外，我们采用自动生成的清单来评估“非思维”数据的响应质量。为提升低资源语言任务的性能，我们特别增加了翻译任务的比例。

聊天模板设计 为更好地融合两种模式并支持用户动态切换模型的思考过程，我们为Qwen3设计了聊天模板。具体而言，针对思维模式和非思维模式的样本，我们分别在用户查询或系统消息中引入/think和/no_think标记。这使模型能够根据用户输入选择相应的思考模式：对于非思维模式样本，助手响应中会保留空的思考块。该设计确保了模型内部格式的一致性，开发人员可通过在聊天模板中拼接空思考块来阻止模型执行推理行为。默认情况下模型处于思维模式，因此我们添加了部分未包含/think标记的用户查询作为思维模式训练样本。对于更复杂的多轮对话，我们会在用户查询中随机插入多个/think和/no_think标记，模型响应将遵循最后一个遇到的标记。

思考预算 思考模式融合的另一个优势在于，一旦模型学会在非思考和思考两种模式下响应，它自然会形成处理中间情况的能力——即基于不完整的思考过程生成响应。这种能力为实现模型思考过程的预算控制奠定了基础。具体来说，当模型的思考内容长度达到用户定义的阈值时，我们会手动终止思考过程，并插入停止思考指令：“考虑到用户时间有限，我必须直接基于当前思考给出解决方案。\n<|FunctionCallBegin|>.\n\n”。插入该指令后，模型会基于截至该时刻积累的推理内容继续生成最终响应。值得注意的是，这种能力并非通过显式训练获得，而是应用思考模式融合后自然涌现的结果。

通用强化学习

通用强化学习阶段旨在广泛提升模型在多样化场景中的能力和稳定性。为此，我们建立了一个复杂的奖励系统，覆盖20多个不同的任务，每个任务都有定制的评分标准。这些任务专门针对以下核心能力的提升：

指令遵循：此能力确保模型准确理解并遵循用户指令，包括与内容、格式、长度及结构化输出使用相关的要求，从而生成符合用户期望的响应。
格式遵循：除了显式指令外，我们还期望模型遵循特定的格式规范。例如，模型应通过切换思考模式与非思考模式，对/think和/no_think标记做出恰当响应，并在最终输出中始终使用指定标记（如<thinking>和</thinking>）来分隔思考内容与回答内容。
偏好对齐：对于开放式查询，偏好对齐侧重于提升模型的实用性、吸引力和风格适配性，最终提供更自然且令人满意的用户体验。
代理能力：这涉及训练模型通过指定接口正确调用工具。在强化学习展开过程中，允许模型与真实环境执行反馈进行完整的多轮交互循环，从而提升其在长程决策任务中的性能和稳定性。
专业场景能力：在更专业的场景中，我们针对特定上下文设计任务。例如，在检索增强生成（RAG）任务中，我们引入奖励信号引导模型生成准确且符合上下文的响应，从而最大限度降低幻觉风险。

为上述任务提供反馈时，我们使用了三种不同类型的奖励：

（1）基于规则的奖励：基于规则的奖励已在推理强化学习阶段广泛使用，且对指令遵循和格式遵守等通用任务也很有用。精心设计的基于规则的奖励能够高精度评估模型输出的正确性，避免奖励破解等问题。

（2）带参考回答的基于模型的奖励：在这种方法中，我们为每个查询提供一个参考回答，并提示Qwen2.5-72B-Instruct模型根据该参考回答对当前模型的响应进行评分。这种方法能够更灵活地处理多样化任务，无需严格的格式要求，避免了纯基于规则的奖励可能产生的假阴性问题。

强到弱蒸馏

强弱蒸馏流程专为优化轻量级模型而设计，涵盖5个稠密模型（Qwen3-0.6B、1.7B、4B、8B和14B）和一个混合专家模型（Qwen3-30B-A3B）。该方法在提升模型性能的同时，有效赋予模型稳健的模式切换能力。蒸馏过程主要分为两个阶段：

（1）离策略蒸馏：在初始阶段，我们将教师模型通过/think和/no_think两种模式生成的输出结果结合起来进行响应蒸馏。这有助于轻量级学生模型培养基础推理能力和不同思维模式的切换能力，为下一阶段的在线策略训练奠定坚实基础。

（2）在线策略蒸馏：在此阶段，学生模型生成用于微调的在线策略序列。具体来说，首先对提示进行采样，然后学生模型以/think或/no_think模式生成响应。随后，通过将学生模型的对数几率（logits）与教师模型（Qwen3-32B或Qwen3-235B-A22B）的对数几率对齐，对学生模型进行微调，以最小化KL散度。

后训练评估

为全面评估指令微调模型的质量，我们采用自动基准测试来评估模型在思考模式和非思考模式下的性能。这些基准测试包括：

多语言基准测试及包含的语言

分为几个维度：

常规任务：我们采用的基准测试包括MMLU-Redux、GPQADiamond、C-Eval和LiveBench。对于GPQA-Diamond，我们对每个查询采样10次并报告平均准确率。

对齐任务：为评估模型与人类偏好的对齐程度，我们采用了一系列专门的基准测试。关于指令遵循性能，我们报告IFEval的严格提示准确率。为评估模型在通用主题上与人类偏好的一致性，我们使用Arena-Hard和AlignBench v1.1。对于写作任务，我们依靠Creative Writing V3和WritingBench来评估模型的熟练度和创造力。
数学与文本推理：为评估数学和逻辑推理能力，我们采用了高级数学基准测试，包括MATH-500、AIME’24和AIME’25，以及文本推理任务，如ZebraLogic和AutoLogi。对于AIME问题，每年的题目包括第一部分和第二部分，共30题。对于每道题，我们采样64次并取平均准确率作为最终得分。
代理与编码：为测试模型在编码和代理任务中的能力，我们使用了BFCL v3、LiveCodeBench以及CodeElo的Codeforces评级。对于BFCL，所有Qwen3模型均使用FC格式进行评估，并通过yarn将模型部署到64k上下文长度以进行多轮评估。部分基线数据来自BFCL排行榜，取FC格式和Prompt格式中的较高分数；对于排行榜未收录的模型，则采用Prompt格式评估。在LiveCodeBench中，非思考模式使用官方推荐提示，而思考模式则调整提示模板，移除“除程序外不返回任何内容”的限制，允许模型更自由地思考。为评估模型与竞技编程专家的性能差距，我们使用CodeForces计算Elo评级。在我们的基准测试中，每个问题通过生成最多8次独立推理尝试来解决。
多语言任务：在多语言能力方面，我们评估四种类型的任务：指令遵循、知识、数学和逻辑推理。