[250503] Qwen3 重磅发布：性能比肩顶尖模型，独创“思考模式”，全系列多款模型开源！

x-cmd

于 2025-05-06 15:27:32 发布

阅读量417

点赞数 5

分类专栏： daily blog 文章标签： Qwen3 大模型

本文链接：https://blog.csdn.net/edwinjhlee/article/details/147740328

版权

365 篇文章

订阅专栏

Qwen 团队近日发布了其大型语言模型系列的最新成员——Qwen3。这一新系列模型在性能上取得了显著突破，旨在提供更强大的智能体验。

性能卓越：旗舰模型 Qwen3-235B-A22B 在代码、数学及通用能力等多个基准测试中，表现出与业界顶级模型（如 DeepSeek-R1, o1, Grok-3, Gemini-2.5-Pro 等）极具竞争力的水平。值得注意的是，即使是 Qwen3-4B 这样的小型模型，其性能也能媲美上一代的 Qwen2.5-72B-Instruct。
创新的“思考模式”：
- 思考模式：模型会进行逐步推理，深思熟虑后给出答案，适合处理复杂问题。
- 非思考模式：模型提供快速、近乎即时的响应，适用于追求速度的简单问答。
- 这种设计允许用户根据任务需求灵活控制模型的“思考”深度，平衡推理质量与成本效益。
广泛的多语言支持：Qwen3 支持多达 119 种语言和方言，极大地扩展了其在全球范围内的应用潜力。
增强的 Agent 能力：模型在理解和执行指令、与工具和环境交互（Agent 能力）方面进行了优化，使其能更好地完成复杂任务。

Qwen 团队此次开源了多个模型权重，包括：

两个 MoE 模型：
- Qwen3-235B-A22B (总参数 2350亿+，激活参数 220亿+)
- Qwen3-30B-A3B (总参数约 300亿，激活参数 30亿)
六个 Dense 模型：
- Qwen3-32B, Qwen3-14B, Qwen3-8B, Qwen3-4B, Qwen3-1.7B, Qwen3-0.6B

这些开源模型均遵循 Apache 2.0 许可证。

用户可以通过以下途径体验和使用 Qwen3：

Qwen3 的强大能力源于其在预训练和后训练阶段的显著改进：

预训练：使用了近 36 万亿 token 的海量数据（覆盖 119 种语言），数据来源包括网页、PDF 文档以及利用 Qwen2.5 系列专家模型合成的高质量数学和代码数据。
后训练：通过多阶段的微调和强化学习，特别是针对长思维链推理和通用能力的提升，最终实现了兼具深度思考和快速响应能力的混合模型。