Qwen3 来了：更强、更智能、更开放的下一代大模型！-CSDN博客

本文链接：https://blog.csdn.net/qq_63708623/article/details/147620321

近日，人工智能领域迎来一项重要进展——Qwen 团队正式对外发布了其大型语言模型系列的最新力作：Qwen3。该系列的推出，不仅标志着 Qwen 模型能力的一次显著跃升，也体现了团队持续推动前沿 AI 技术发展与开放共享的决心。

Qwen3模型体验：

https://chat.qwen.ai/

性能对比

Qwen3 系列中最为引人注目的是旗舰级 MoE（混合专家）模型 Qwen3-235B-A22B。该模型拥有超过 2350 亿的总参数量，推理时激活约 220 亿参数。据介绍，其在编码、数学解题及通用任务等多个行业标准基准测试中，均展现出与 DeepSeek-R1、o1、Grok-3、Gemini-2.5-Pro 等当前顶级模型相匹敌的强大实力。

除了追求性能峰值，Qwen3 在模型效率上也取得了突破。另一款 MoE 模型 Qwen3-30B-A3B，以约 300 亿总参数和仅 30 亿激活参数的规模，据称实现了超越上一代 Qwen2.5-32B 的性能表现，能效比优势显著。这种趋势也延伸到了更小规模的模型上，例如 Qwen3-4B 这款密集（Dense）模型，其能力已能比肩参数量远大于它的 Qwen2.5-72B-Instruct 模型。

模型规格

秉承开放合作的精神，Qwen 团队此次将 Qwen3 系列中的多款核心模型向公众开源，均遵循 Apache 2.0 许可证：

MoE 模型: Qwen3-235B-A22B、Qwen3-30B-A3B

密集模型: Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B、Qwen3-0.6B

核心亮点

（1）混合推理

Qwen3 模型引入了一种灵活的交互机制，支持两种模式切换：

思考（Thinking）模式: 面对复杂指令时，模型能展现逐步推理的过程，让用户了解其“思考”轨迹，最终给出经过深思熟虑的答案。类似于DeepSeek R1。
非思考（Non-thinking）模式: 对于追求效率的简单问答场景，模型可提供快速、直接的响应。类似于DeepSeek V3

（2）广泛的语言覆盖

其多语言能力是另一大亮点，覆盖了全球范围内的 119 种语言及方言，涉及印欧、汉藏、亚非、南岛等多个主要语系，为跨语言、跨文化的应用场景提供了坚实基础。

（3）强化的 Agent 与代码能力

Qwen3 针对智能体（Agent）应用场景和代码处理能力进行了重点优化，并加强了对MCP的支持。这使得模型能更有效地理解复杂任务、调用外部工具并与环境互动。

训练策略

预训练阶段：模型在接近 36 万亿 token 的庞大数据集上进行了预训练，数据量几乎是 Qwen2.5 的两倍，涵盖 119 种语言。数据来源多元，包括网页文本、利用 Qwen2.5-VL 技术从 PDF 文档中提取并优化的文本，以及由 Qwen2.5 数学和代码专家模型合成的高质量专业数据。训练过程分为三个精心设计的阶段，逐步提升基础语言能力、知识密集型任务处理能力以及长上下文（部分模型支持高达 128K）理解能力。

后训练阶段：针对指令遵循和对话能力，团队采用了创新的四阶段后训练流程：首先通过长思维链数据进行冷启动微调，接着运用强化学习提升探索与深度推理，然后融合思考与非思考模式，最后进行大规模通用能力强化学习，覆盖指令遵循、格式控制、Agent 技能等二十多个领域，全面提升模型的综合素质和安全性。

四阶段后训练流程仅训练了两个模型：Qwen3-235B-A22B与Qwen3-32B。分别代表MoE与Dense两种模型。其余规格的模型全部由这两种模型蒸馏训练而成。Qwen3-30B-A3B是Qwen3-235B-A22B的蒸馏版本，Qwen3-14B、8B、4B等Dense模型是Qwen3-32B的蒸馏版本。

补充

虽然在Qwen3-235B-A22B模型时给出了“图像生成、“视频生成”两个功能：

但通过抓包分析可以看出，Qwen3-235B-A22B实际上并不具备图像生成与视频生成的能力，而是通过调用wanx2.1（通义万相Wan2.1）实现的图像与视频生成。

这意味着Qwen3的更新仍然是对单一文本模态的优化，期待未来能够出现一个大一统的多模态模型，实现一个模型生成所有。

Qwen 团队将 Qwen3 的发布视为其在探索通用人工智能（AGI）乃至超级人工智能（ASI）道路上的一个重要节点。未来，团队计划在扩大数据与模型规模、扩展上下文长度、增强多模态处理能力，以及利用环境反馈进行长周期推理的强化学习等多个维度持续投入。团队认为，AI 的发展重心正逐步从训练单一“模型”向训练更强大的“智能体（Agent）”迁移，并期待下一代技术能为人类的工作与生活带来更实质性的助益。

Qwen3 的发布无疑为 AI 社区注入了新的活力。鼓励广大技术爱好者和行业伙伴积极探索 Qwen3 的潜力，共同推动人工智能技术的繁荣发展。