Qwen3 技术总结

Qwen3 技术总结

简介

阿里通义 Qwen3 系列大模型已正式发布。此次开源包含两大类模型:混合专家模型 (MoE) 和密集模型 (Dense)。

MoE 模型

  • Qwen3-235B-A22B: 大型 MoE 模型,总参数量 2350 亿,激活参数量 220 亿。
  • Qwen3-30B-A3B: 小型 MoE 模型,总参数量 300 亿,激活参数量 30 亿。

核心看点:旗舰模型 Qwen3-235B-A22B 在代码、数学及通用能力等基准测试中表现卓越,可与 DeepSeek-R1、o1、o3-mini、Grok-3 及 Gemini-2.5-Pro 等业界顶尖模型媲美。小型 MoE 模型 Qwen3-30B-A3B 仅需激活 Qwen1.5-32B (QwQ-32B) 约 10% 的参数即可实现更优性能。

MoE 模型参数详情

模型 层数 头部 (Q / KV) # 专家 (总数 / 已激活) 上下文长度
Qwen3-30B-A3B 48 32 / 4 128 / 8 128K
Qwen3-235B-A22B 94 64 / 4 128 / 8 128K

Dense 模型

本次开源的密集模型包括:

  • Qwen3-32B
  • Qwen3-14B
  • Qwen3-8B
  • Qwen3-4B
  • Qwen3-1.7B
  • Qwen3-0.6B

核心看点:即便是 Qwen3-4B这样的小型密集模型,其性能也能与 Qwen2.5-72B-Instruct 相匹敌。

Dense 模型参数详情

模型 层数 头部 (Q / KV) 嵌入绑定 上下文长度
千问3-0.6B 28 16 / 8 是的 32K
千问3-1.7B 28 16 / 8 是的 32K
千问3-4B 36 32 / 8 是的 32K
千问3-8B 36 32 / 8 128K
千问3-14B 40 40 / 8 128K
通义千问3-32B 64 64 / 8 128K

混合思维模式

Qwen3 创新性地提供了两种智能模式供用户选择:

  • 思考模式 (Thinking Mode): 如同经验丰富的教授,进行深思熟虑和逐步推理后给出答案,尤其擅长处理复杂和疑难问题。
  • 非思考模式 (Non-thinking Mode): 追求极致响应速度,如同秒回小能手,非常适合需要快速直接答案的简单问题。

性能对比图
(图片展示了在 AIME24, AIME25, LiveCodeBench (v5), 和 GPQA Diamond 等基准测试中,思考模式随着“思考预算 (K tokens)”的增加,性能显著优于非思考模式。图片来源:)
在这里插入图片描述

Agent 能力

Qwen3 特别强化了其 Agent 能力和代码处理能力,并加强了对模型上下文协议 (MCP) 的支持。

  • 基于 MCP 协议的工具调用框架:实现了更标准化的工具调用。
  • 自主调用外部 API 与执行代码能力:赋予模型更强的自主行动和问题解决能力。
  • BFCL 评测新高:在 BFCL(一个评估大型语言模型工具调用能力的基准)评测中,Qwen3 创下了 70.8 分的新纪录,超越了 Gemini-2.5-Pro 和 OpenAI-o1

榜单测评

Qwen3 系列模型在多个权威基准测试中均取得了优异成绩。

(以下为主要模型的测评数据概览,详细数据请参照原文档中的图片。图片来源:)

Qwen3-235B-A22B 与 Qwen3-32B 对比 OpenAI-o1, Deepseek-R1, Grok 3 Beta, Gemini2.5-Pro, OpenAI-o3-mini
(图片展示了在 Arenahard, AIME’24, AIME’25, LiveCodeBench, CodeForces, Aider, LiveBench, BFCL, MultiH 等基准上的得分对比。)
在这里插入图片描述

在这里插入图片描述

Qwen3-30B-A3B (MoE), QwQ-32B, Qwen3-4B (Dense) 对比 Qwen2.5-72B-Instruct, Gemma3-27B-IT, DeepSeek V3, GPT-Jo
(图片展示了在 Arenahard, AIME’24, AIME’25, LiveCodeBench, CodeForces, GPQA, LiveBench, BFCL, MultiH 等基准上的得分对比。)

测评备注

  1. AIME’24 & '25: 复杂推理和查询的平均准确率,AIME’25 在 Tool use 和 RAG 上测试 GK 问题。
  2. Aider: 测试 Qwen 在代码编辑和生成方面的能力。
  3. BFCL: Qwen 模型进行采样,并与使用最高分(来自零样本或少样本提示)进行评估的其他模型进行比较。

训练细节

数据策略

Qwen3 的训练采用了超大规模、多语种的数据集,具体特点如下:

  • 总数据量:高达 36 万亿 tokens,是 Qwen2.5 的两倍。
  • 领域强化:显著强化了 STEM(科学、技术、工程、数学)领域与代码数据的占比。
    • STEM 领域具体包括
      • Science (科学):如物理、化学、生物等自然科学。
      • Technology (技术):如信息技术、软件开发等。
      • Engineering (工程):如电子、机械、土木等工程学科。
      • Mathematics (数学):如代数、统计、计算等数学领域。
  • 数据增强:引入了模型辅助的数据增强技术。
  • 长文本支持:使用了高质量的长文本数据,将上下文窗口扩展至 32K。

三阶段预训练流程

  1. 阶段一 (S1):基础能力构建
    • 使用 30 万亿 tokens 进行初步预训练。
    • 目标:建立通用的语言理解与生成能力。
    • 支持上下文窗口长度:4K。
  2. 阶段二 (S2):专业能力强化
    • 追加 5 万亿 tokens 继续训练。
    • 目标:大量引入 STEM 和代码相关数据,强化模型在专业领域的理解与表达能力。
  3. 阶段三 (S3):长文本能力优化
    • 采用高质量长文本数据进行训练。
    • 目标:上下文窗口扩展至 32K,显著提升长文档处理和推理能力。

四阶段强化学习流程

(图片展示了 Frontier Models (如 Qwen3-235B-A22B, Qwen3-32B) 和 Lightweight Models (如 Qwen3-30B-A3B, Qwen3-14B/8B/4B 等) 的不同强化学习路径。图片来源:)
在这里插入图片描述

针对 Frontier Models (前沿模型) 的流程:

  1. 阶段1:长推理链冷启动 (Long-CoT Cold Start)
    • 在复杂任务(如数学、代码、逻辑推理)中微调长推理链条。
    • 目标:建立模型对复杂因果关系的基本理解。
  2. 阶段2:推理强化学习 (Reasoning RL)
    • 基于规则的奖励机制。
    • 目标:强化模型的推理深度与探索能力。
  3. 阶段3:思考模式融合 (Thinking Mode Fusion)
    • 融合“思考”模式与“快速”响应模式。
    • 目标:打通推理链条与即时响应路径
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

江小皮不皮

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值