简介
千问3(Qwen3)是阿里巴巴开源的新一代通义千问模型,发布于2025年4月29日。这款模型系列是国内首个采用“混合推理模型”设计的,它将“快思考”与“慢思考”集成到同一个模型中,旨在提升性能的同时减少算力消耗。
模型能力优点
- 参数规模和成本效益:旗舰版Qwen3-235B-A22B拥有235B的总参数量,但在实际运行时仅激活22B参数,这使得其部署成本大幅下降,只需要4张H20显卡即可部署满血版本,显存占用为性能相近模型的三分之一。
- 性能表现:在多个基准测试中,如奥数水平的AIME25测评、LiveCodeBench代码能力评测、ArenaHard人类偏好对齐评测等,千问3都取得了超越其他顶尖模型的成绩。
- 架构和技术:采用了混合专家(MoE)架构,并且在后训练阶段经过多轮强化学习,将非思考模式整合到思考模型中,从而增强推理、指令遵循、工具调用和多语言能力等方面的表现。
-
-
- 支持 普通模式(无思维链)和 推理模式(长思考),无需切换模型,开发者体验更优。
- 类似 DeepSeek V3(普通模式)和 R1(推理模式)的结合,但集成于单一模型。
-
-
- 应用场景支持:千问3不仅支持多种参数大小的模型以适应不同场景的需求,还原生支持MCP(模型上下文协议),并具备强大的工具调用能力,有助于降低编码复杂性。
- 开源和商用:千问3系列模型采用宽松的Apache2.0协议开源,全球开发者、研究机构和企业可以免费下载并在魔搭社区、HuggingFace等平台上使用或商用。
8 个不同尺寸模型,覆盖全场景
- Qwen3-30B-A3B(总参数量 30B,激活 3B)
- Qwen3-235B-A22B(总参数量 235B,激活 22B,部署成本仅 DeepSeek R1 的 1/3)。
- 稠密模型(Dense):0.6B、1.7B、4B、8B、14B、32B,适用于不同算力需求。
- MoE 模型:
- Token 支持:0.6B~4B 支持 32K,其余支持 128K。
总结
综上所述,千问3是一个高性能、低成本的大规模语言模型,适用于广泛的自然语言处理任务,并且为开发者提供了极大的灵活性和便利性。