在2025年4月底,阿里巴巴集团正式发布了第三代大模型 Qwen 3,标志着在“快思考”与“深度推理”能力上的突破。Qwen 3 采用了混合专家(MoE)架构,总参数量达 235 B,其中仅激活 22 B,支持通过“思考预算”灵活配置资源消耗,有效平衡性能与成本。通过四阶段训练流程强化推理能力,并结合大规模人类反馈强化学习,Qwen 3 在 BFCL、ChatBot Arena 等多项评测上均位列前茅。阿里云还在当天一并开源了两款 MoE 模型(30 B、235 B)和六款密集模型(0.6–32 B),进一步推动了国产大模型的生态开放与商业落地。
一、Qwen3介绍
Qwen3系列包括两个专家混合 (MoE) 模型和另外六个模型。阿里巴巴表示,最新发型的旗舰模型Qwen3-235B-A22B在代码、数学、通用能力等基准测试中,与DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等顶级模型相比,表现出极具竞争力。
此外,被称为“专家混合”(MoE,Mixture-of-Experts)模型的Qwen3-30B-A3B的激活参数数量是QwQ-32B的10%,表现更胜一筹,甚至像Qwen3-4B这样的小模型也能匹敌Qwen2.5-72B-Instruct的性能。这类系统模拟人类解决问题的思维方式,将任务划分为更小的数据集,类似于让一组各有所长的专家分别负责不同部分,从而提升整体效率。
Qwen3 的亮点包括:
-
各种尺寸的密集和混合专家 (MoE) 型号,有 0.6B、1.7B、4B、8B、14B、32B 和 30B-A3B、235B-A22B 可供选择。
-
思维模式(用于复杂的逻辑推理、数学和编码)和非思维模式(用于高效的通用聊天)无缝切换,确保在各种场景中的最佳性能。
-
推理能力显著增强,超越之前的 QwQ(思维模式)和 Qwen2.5 指导模型(非思考模式)进行数学、代码生成和常识性逻辑推理。
-
卓越的人类偏好对齐,擅长创意写作、角色扮演、多轮对话和指导遵循,以提供更自然、更吸引人和身临其境的对话体验。
-
在智能体能力方面拥有丰富的专业知识,能够在思考和非思考模式下与外部工具进行精确集成,并在基于智能体的复杂任务中实现开源模型的领先性能。
-
支持 100+ 种语言和方言,具有强大的多语言教学遵循和翻译能力。
二、架构设计与四阶段训练
1. 混合专家(MoE)架构
Qwen 3 采用 MoE 架构,总参数量 235 B,推理时仅激活 22 B,从而大幅降低算力需求与部署成本。
2. “快思考”与“慢思考”模式
-
在“快思考”模式下,模型可快速响应简单查询,实现毫秒级返回;
-
在“深度思考”模式下,模型启用更多 Expert 层,执行多步推理以处理复杂任务。
两模式结合带来可控的“思考预算”管理,既保证效率也兼顾推理深度。
3. 四阶段训练流程
为了构建混合推理能力,官方技术博客披露了一个四阶段训练方案:
-
长思维链冷启动:利用多样长链推理数据进行初步微调;
-
长思维链强化学习:基于规则化奖励进一步提升模型探索能力;
-
思维模式融合:在长思维链与指令微调数据上二次微调,实现两种模式无缝衔接;
-
通用强化学习:在20余个通用领域任务上进行最终强化,优化通用能力并纠正不良行为。
三、核心能力与性能评测
1. 多任务推理与工具调用
Qwen 3 原生支持动态调用网络搜索、Python 执行器、数学求解器、翻译、文档解析等插件,构建“链式推理 + 工具使用”智能 Agent,能自动组合工具完成复杂任务。
2. 顶级评测成绩
BFCL 基准:Qwen 3 在专门评估 Agent 任务的 BFCL 测试中取得 70.8 分,超越 Google Gemini 2.5 等竞品。
ChatBot Arena 排名:在公开对战榜单中,Qwen 3 全面超越 DeepSeek-R1、OpenAI-o1,并登顶最强开源模型。
四、开源策略与生态布局
全面开源:阿里云当天开源 Qwen 3 系列模型,涵盖 MoE 版本(30 B、235 B)与多款密集模型(0.6、1.7、4、8、14、32 B)。
Apache 2.0 许可证:采用宽松开源协议,鼓励社区研究与二次开发,降低行业使用门槛。
生态接入:支持 HuggingFace Transformers、ONNX、TensorRT、vLLM、FastChat 等主流部署框架,并提供私有化部署方案与阿里云百炼平台一键集成。
五、商业部署与成本优势
Qwen 3 的“思考预算”机制不仅提升了多样化任务的处理效率,还使得 满血版 仅需 4 张 H20 GPU 即可部署,显存占用不到 DeepSeek-R1 的三分之一,显著降低企业级商用成本。
六、典型应用场景
-
智能客服与企业问答:多轮长文本理解结合私域知识库实现精准应答。
-
教育与科研助手:辅助解题、论文写作、知识检索与代码生成。
-
多模态医疗影像分析:结合图像和文本,实现疾病辅助诊断与报告生成。
-
编程与软件工程:Qwen-Code 子版本可完成代码编写、审查与多文件协同处理。
-
内容创作与电商营销:自动生成文案、电商标题、商品图文匹配与推荐。
-
行业垂直解决方案:金融风控、法律合同审核、制造质检等专业领域落地。
七、未来展望
随着阿里集团在未来三年内对云计算与 AI 基础设施投资超 3800 亿人民币的加码,以及 Qwen 3 在工具化、多模态、开放生态上的持续迭代,该系列有望成为国产通用 AI 的中坚底座,助力不同规模企业与开发者加快智能化转型步伐。
如何系统的去学习大模型LLM ?
大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业
?”“谁的饭碗又将不保了?
”等问题热议不断。
事实上,抢你饭碗的不是AI,而是会利用AI的人。
继科大讯飞、阿里、华为
等巨头公司发布AI产品后,很多中小企业也陆续进场!超高年薪,挖掘AI大模型人才! 如今大厂老板们,也更倾向于会AI的人,普通程序员,还有应对的机会吗?
与其焦虑……
不如成为「掌握AI工具的技术人
」,毕竟AI时代,谁先尝试,谁就能占得先机!
但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高。
基于此,我用做产品的心态来打磨这份大模型教程,深挖痛点并持续修改了近70次后,终于把整个AI大模型的学习门槛,降到了最低!
在这个版本当中:
第一您不需要具备任何算法和数学的基础
第二不要求准备高配置的电脑
第三不必懂Python等任何编程语言
您只需要听我讲,跟着我做即可,为了让学习的道路变得更简单,这份大模型教程已经给大家整理并打包,现在将这份 LLM大模型资料
分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程
等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓
一、LLM大模型经典书籍
AI大模型已经成为了当今科技领域的一大热点,那以下这些大模型书籍就是非常不错的学习资源。
二、640套LLM大模型报告合集
这套包含640份报告的合集,涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)
三、LLM大模型系列视频教程
四、LLM大模型开源教程(LLaLA/Meta/chatglm/chatgpt)
五、AI产品经理大模型教程
LLM大模型学习路线 ↓
阶段1:AI大模型时代的基础理解
-
目标:了解AI大模型的基本概念、发展历程和核心原理。
-
内容:
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例
阶段2:AI大模型API应用开发工程
-
目标:掌握AI大模型API的使用和开发,以及相关的编程技能。
-
内容:
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望
阶段3:AI大模型应用架构实践
-
目标:深入理解AI大模型的应用架构,并能够进行私有化部署。
-
内容:
- L3.1 Agent模型框架
- L3.2 MetaGPT
- L3.3 ChatGLM
- L3.4 LLAMA
- L3.5 其他大模型介绍
阶段4:AI大模型私有化部署
-
目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。
-
内容:
- L4.1 模型私有化部署概述
- L4.2 模型私有化部署的关键技术
- L4.3 模型私有化部署的实施步骤
- L4.4 模型私有化部署的应用场景
这份 LLM大模型资料
包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程
等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓