【AGI】Qwen3系列模型介绍及特性

最新推荐文章于 2025-05-19 16:39:14 发布

置顶 LeeZhao@

最新推荐文章于 2025-05-19 16:39:14 发布

阅读量585

点赞数 10

分类专栏：开源之神-Qwen3 文章标签： agi AIGC 人工智能架构

本文链接：https://blog.csdn.net/qq_36722887/article/details/148050691

版权

开源之神-Qwen3 专栏收录该内容

4 篇文章

订阅专栏

【AGI】Qwen3系列模型介绍

（1）Qwen3 模型简介

2025年4月29日凌晨，阿里巴巴开源新一代通义千问模型Qwen3，其中旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中，与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比，表现出极具竞争力的结果。此外，小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%，表现更胜一筹，甚至像 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能，性能全面超越Deepseek-R1、豆包1.5pro 等国内领先模型，并登顶全球最强开源模型。Qwen3原生支持MCP协议，并具备强大的工具调用（function calling）能力，并且集成封装了工具调用模板和工具调用解析器的Qwen-Agent 框架，大大降低编码复杂性，Qwen3 的工具调用能力，支持实现高效的手机及电脑Agent操作等任务。

在这里插入图片描述

（2）Qwen3 模型特性

最新版本Qwen3有以下特点：

全尺寸稠密与混合专家模型：0.6B, 1.7B, 4B, 8B, 14B, 32B and 30B-A3B, 235B-A22B
支持在思考模式（用于复杂逻辑推理、数学和编码）和非思考模式（用于高效通用对话）之间无缝切换，确保在各种场景下的最佳性能。
显著增强的推理能力，在数学、代码生成和常识逻辑推理方面超越了之前的 QwQ（在思考模式下）和 Qwen2.5 指令模型（在非思考模式下）。
卓越的人类偏好对齐，在创意写作、角色扮演、多轮对话和指令跟随方面表现出色，提供更自然、更吸引人和更具沉浸感的对话体验。
擅长智能体能力，可以在思考和非思考模式下精确集成外部工具，在复杂的基于代理的任务中在开源模型中表现领先。
支持 100 多种语言和方言，具有强大的多语言理解、推理、指令跟随和生成能力。同时Qwen3系列模型的核心亮点具备多种思考模式：
- 思考模式：在这种模式下，模型会逐步推理，经过深思熟虑后给出最终答案。这种方法非常适合需要深入思考的复杂问题。
- 非思考模式：在此模式中，模型提供快速、近乎即时的响应，适用于那些对速度要求高于深度的简单问题。

这种灵活性使用户能够根据具体任务控制模型进行“思考”的程度。例如，复杂的问题可以通过扩展推理步骤来解决，而简单的问题则可以直接快速作答，无需延迟。至关重要的是，这两种模式的结合大大增强了模型实现稳定且高效的“思考预算”控制能力。如上文所述，Qwen3 展现出可扩展且平滑的性能提升，这与分配的计算推理预算直接相关。这样的设计让用户能够更轻松地为不同任务配置特定的预算，在成本效益和推理质量之间实现更优的平衡。

在这里插入图片描述

（3）Qwen3 模型训练流程

在预训练方面，Qwen3 的数据集相比 Qwen2.5 有了显著扩展。Qwen2.5是在 18 万亿个 token 上进行预训练的，而 Qwen3 使用的数据量几乎是其两倍，达到了约 36 万亿个 token，涵盖了 119 种语言和方言。为了构建这个庞大的数据集，我们不仅从网络上收集数据，还从 PDF 文档中提取信息。我们使用 Qwen2.5-VL 从这些文档中提取文本，并用 Qwen2.5 改进提取内容的质量。为了增加数学和代码数据的数量，我们利用 Qwen2.5-Math 和 Qwen2.5-Coder 这两个数学和代码领域的专家模型合成数据，合成了包括教科书、问答对以及代码片段等多种形式的数据。

预训练过程分为三个阶段。在第一阶段（S1），模型在超过 30 万亿个 token 上进行了预训练，上下文长度为 4K token。这一阶段为模型提供了基本的语言技能和通用知识。在第二阶段（S2），我们通过增加知识密集型数据（如 STEM、编程和推理任务）的比例来改进数据集，随后模型又在额外的 5 万亿个 token 上进行了预训练。在最后阶段，我们使用高质量的长上下文数据将上下文长度扩展到 32K token，确保模型能够有效地处理更长的输入。

在这里插入图片描述

为了开发能够同时具备思考推理和快速响应能力的混合模型，Qwen3模型实施了一个四阶段的训练流程。该流程包括：（1）长思维链冷启动，（2）长思维链强化学习，（3）思维模式融合，以及（4）通用强化学习。

在第一阶段，使用多样的的长思维链数据对模型进行了微调，涵盖了数学、代码、逻辑推理和 STEM 问题等多种任务和领域。这一过程旨在为模型配备基本的推理能力。第二阶段的重点是大规模强化学习，利用基于规则的奖励来增强模型的探索和钻研能力。

在第三阶段，在一份包括长思维链数据和常用的指令微调数据的组合数据上对模型进行微调，将非思考模式整合到思考模型中。确保了推理和快速响应能力的无缝结合。最后，在第四阶段，在包括指令遵循、格式遵循和 Agent 能力等在内的 20 多个通用领域的任务上应用了强化学习，以进一步增强模型的通用能力并纠正不良行为。