近日,人工智能领域迎来一项重要进展——Qwen 团队正式对外发布了其大型语言模型系列的最新力作:Qwen3。该系列的推出,不仅标志着 Qwen 模型能力的一次显著跃升,也体现了团队持续推动前沿 AI 技术发展与开放共享的决心。
Qwen3模型体验:
https://chat.qwen.ai/
性能对比
Qwen3 系列中最为引人注目的是旗舰级 MoE(混合专家)模型 Qwen3-235B-A22B。该模型拥有超过 2350 亿的总参数量,推理时激活约 220 亿参数。据介绍,其在编码、数学解题及通用任务等多个行业标准基准测试中,均展现出与 DeepSeek-R1、o1、Grok-3、Gemini-2.5-Pro 等当前顶级模型相匹敌的强大实力。
除了追求性能峰值,Qwen3 在模型效率上也取得了突破。另一款 MoE 模型 Qwen3-30B-A3B,以约 300 亿总参数和仅 30 亿激活参数的规模,据称实现了超越上一代 Qwen2.5-32B 的性能表现,能效比优势显著。这种趋势也延伸到了更小规模的模型上,例如 Qwen3-4B 这款密集(Dense)模型,其能力已能比肩参数量远大于它的 Qwen2.5-72B-Instruct 模型。
模型规格
秉承开放合作的精神,Qwen 团队此次将 Qwen3 系列中的多款核心模型向公众开源,均遵循 Apache 2.0 许可证:
- MoE 模型: Qwen3-235B-A22B、Qwen3-30B-A3B
- 密集模型: Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B、Qwen3-0.6B
核心亮点
(1)混合推理
Qwen3 模型引入了一种灵活的交互机制,支持两种模式切换:
- 思考(Thinking)模式: 面对复杂指令时,模型能展现逐步推理的过程,让用户了解其“思考”轨迹,最终给出经过深思熟虑的答案。类似于DeepSeek R1。
- 非思考(Non-thinking)模式: 对于追求效率的简单问答场景,模型可提供快速、直接的响应。类似于DeepSeek V3
(2)广泛的语言覆盖
其多语言能力是另一大亮点,覆盖了全球范围内的 119 种语言及方言,涉及印欧、汉藏、亚非、南岛等多个主要语系,为跨语言、跨文化的应用场景提供了坚实基础。
(3)强化的 Agent 与代码能力
Qwen3 针对智能体(Agent)应用场景和代码处理能力进行了重点优化,并加强了对MCP的支持。这使得模型能更有效地理解复杂任务、调用外部工具并与环境互动。
训练策略
预训练阶段:模型在接近 36 万亿 token 的庞大数据集上进行了预训练,数据量几乎是 Qwen2.5 的两倍,涵盖 119 种语言。数据来源多元,包括网页文本、利用 Qwen2.5-VL 技术从 PDF 文档中提取并优化的文本,以及由 Qwen2.5 数学和代码专家模型合成的高质量专业数据。训练过程分为三个精心设计的阶段,逐步提升基础语言能力、知识密集型任务处理能力以及长上下文(部分模型支持高达 128K)理解能力。
后训练阶段:针对指令遵循和对话能力,团队采用了创新的四阶段后训练流程:首先通过长思维链数据进行冷启动微调,接着运用强化学习提升探索与深度推理,然后融合思考与非思考模式,最后进行大规模通用能力强化学习,覆盖指令遵循、格式控制、Agent 技能等二十多个领域,全面提升模型的综合素质和安全性。
四阶段后训练流程仅训练了两个模型:Qwen3-235B-A22B与Qwen3-32B。分别代表MoE与Dense两种模型。其余规格的模型全部由这两种模型蒸馏训练而成。Qwen3-30B-A3B是Qwen3-235B-A22B的蒸馏版本,Qwen3-14B、8B、4B等Dense模型是Qwen3-32B的蒸馏版本。
补充
虽然在Qwen3-235B-A22B模型时给出了“图像生成、“视频生成”两个功能:
但通过抓包分析可以看出,Qwen3-235B-A22B实际上并不具备图像生成与视频生成的能力,而是通过调用wanx2.1(通义万相Wan2.1)实现的图像与视频生成。
这意味着Qwen3的更新仍然是对单一文本模态的优化,期待未来能够出现一个大一统的多模态模型,实现一个模型生成所有。
Qwen 团队将 Qwen3 的发布视为其在探索通用人工智能(AGI)乃至超级人工智能(ASI)道路上的一个重要节点。未来,团队计划在扩大数据与模型规模、扩展上下文长度、增强多模态处理能力,以及利用环境反馈进行长周期推理的强化学习等多个维度持续投入。团队认为,AI 的发展重心正逐步从训练单一“模型”向训练更强大的“智能体(Agent)”迁移,并期待下一代技术能为人类的工作与生活带来更实质性的助益。
Qwen3 的发布无疑为 AI 社区注入了新的活力。鼓励广大技术爱好者和行业伙伴积极探索 Qwen3 的潜力,共同推动人工智能技术的繁荣发展。