前言
仅需1/3硬件成本,性能全面超越DeepSeek-R1! 在Qwen2.5模型发布后仅半年,2025年4月29日凌晨,全新一代Qwen3系列模型正式发布。在Claude3.7、Gemini2.5和GPT4.1模型发布后,Qwen3再次扛起全球开源大模型的大旗,性能一举追平全球最强Gemini2.5 Pro模型(谷歌闭源模型)。不仅性能优异,Qwen3还是全球首款混合推理模型,更具备史上最强的MCP能力!
在Qwen3发布后的一天内,网络上涌现了各种关于Qwen3的新闻文章。秉持着大模型研究者的严谨性,笔者通宵对Qwen3模型进行了性能测试,总结Qwen3模型的特点,体验Qwen3模型原生对MCP功能的有力支撑。本篇分享我将结合实践评测和官方报告,向大家分享Qwen3模型的核心亮点,分析Qwen3如何推动人工智能大模型从“参数竞赛”迈向“效率革命”!
大家也可自行在QwenChat网站免费体验Qwen3大模型~
Qwen3核心亮点
核心亮点一:种类丰富,适用范围广
Qwen3系列模型一口气开源了八个模型,其中包含两个MoE架构模型 Qwen3-235B-A22B, 一个拥有2350多亿总参数和220多亿激活参数的大模型以及Qwen3-30B-A3B, 一个拥有300亿总参数和30亿激活参数的小型MoE模型。
这里简要说明一下MoE混合专家模型架构,该架构是DeepSeek-V3/R1采用的架构,受其影响,Qwen3模型也采用了该架构。235B-A22B表示Qwen3总参数量是235B,但在推理时仅激活22B的参数,大大降低能耗的同时提升了响应速度,MoE架构的模型也被称为稀疏模型。
除了两款稀疏MoE模型,Qwen3还开源了六款Dense稠密模型,包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B。如此丰富的模型种类使得Qwen3可以满足从移动端部署到企业级应用的各类场景。根据经验实测的Qwen3不同系列模型的硬件配置如下表。从中可见Qwen3-235B-A22B最低仅需4卡H20服务器即可部署。
Qwen3也给出了一套特定场景下的模型选择推荐:0.6B模型是名副其实的端侧模型,是面向移动端场景使用的模型。而1.7B和4B则适合特定领域的微调任务,比如微调一个数学工具或前端编程模型。14B、30B、32B模型是名副其实的企业级应用模型。一次性发布众多不同尺寸的模型全面覆盖使用场景是Qwen2.5以来的老传统了,怪不得大家都说Qwen系列模型是开源模型界的神,简称“源神”
不仅如此,Qwen3系列模型还发布了FP8系列的模型权重,最低可以在4卡H800上进行高效推理。相比DeepSeek-R1 需要1300多G的显存至少需要双节点8卡A100服务器才能运行,Qwen3旗舰模型的硬件要求在运行成本上优势明显。而且别忘了Qwen3-235B-A22B也是MoE模型,可以采用KTransformer框架完成GPU和CPU的混合推理进一步降低性能损耗,毫不夸张的说,Qwen3模型就是目前最适合企业部署的模型没有之一。(这里简单对不起一下DeepSeek~)
核心亮点二:性能强劲,赶超DeepSeek
据官方报告,Qwen3-235B-A22B的模型的能力在推理、数学、编程和对话各领域全面超越DeepSeek-R1模型,并且几乎达到了目前全球最强大模型Gemini2.5-Pro的水平。
更令人震惊的是Qwen3-4B的模型就可以和DeepSeek-V3的性能相当,而Qwen3-30B-A3B的水平更是超越了GPT-4o!
为测试Qwen3的能力,我同样采取了在DeepSeek-V3一文中的提示词,让Qwen3帮我们生成一个国际象棋小游戏。同时为了测试Qwen3推理模式和普通模式的区别,我生成了两段html代码(Llama4模型无法做到国际象棋程序的生成,具体可看我分享 一文解析”最强大模型“Llama-4到底是王者归来 还是 困兽犹斗? )。提示词如下:
你是一个html和Js的编写高手,请帮我用html, css和js写一个 国际象棋的小游戏,要求保证代码的准确性,可以正确运行游戏,同时注意代码的简洁性和可阅读性以及界面的美观性
对于普通模式,Qwen3快速生成了代码,响应速度比DeepSeek更快,同时生成的代码质量相比DeepSeek-V3-0324毫不逊色。
对于思考模式,Qwen3要经历比较长时间的think阶段才会输出最终结果,但从对Qwen3回答的think中分析,Qwen3进一步思考要优化游戏的可玩性、美观性等设计理念,最终返回结果相比于普通模式,思考模式下的图形界面还有不同棋子的行走路线提示,操作更加简洁。
核心亮点三:混合推理,推理/普通双形态切换
Qwen3模型是开源大模型系列中首个混合推理模型,一款模型拥有两种形态,推理形态下会具备思考过程,耗时相对较长,但是能力会显著提升,适用于处理例如数学、编程等领域复杂推理任务。普通形态下的模型不会有思考的过程,响应速度更快,更适合进行普通对话或者长文本编写类任务。Qwen3模型切换思考模式非常简单,除了在界面点击深度思考外,在代码中只需要一个参数enable_thinking
即可切换模型形态。
# 普通模式
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
enable_thinking=False # True is the default value for enable_thinking.
)
# 推理模式
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
enable_thinking=False # True is the default value for enable_thinking.
)
Qwen3优异的混合推理能力不仅仅让国内大模型爱好者印象深刻,更是在外网饱受好评,众多大佬强推Qwen3模型的优异性能和混合推理的强大模式。
核心亮点四:极强的MCP能力
Qwen3提供了超强的Function Calling功能,也就是MCP能力的基础,能够更加准确地识别外部函数,并且能够进行多工具函数的串行和并行调用,因此能够更加高效的进行Agent开发。实测时采用的Qwen3-235B-A22B api, 还是使用从0到1开发DeepSeek天气助手智能体——你以为大模型只会聊天?Function Calling让它“上天入地”中的例子,同时询问北京和上海的天气,并提供写文件函数让Qwen3把结果写入指定文件中,Qwen3可以清楚的感知我要并行调用两个函数get_weather('北京')
和get_weather('上海')
, 同时还串行的把get_weather
后的结果写入文件中,写入文件有乱码V3-0324还进行了自动处理,流程图如下:
官方示例中在思考模式下,让Qwen3-235B-A22B统计并绘制某Github项目的历史新标增长图。Qwen3-235B-A22B模型能自主围绕复杂任务进行思考和拆解,并围绕五项MCP工具进行调用并自动生成最终结果,总体来看,Qwen3模型的Agent性能非常强悍。
如果能够适时地开启不同的模式,比如工具识别的时候采用推理模式,普通问答时候采用普通对话模式,可以在保障推理性能的同时兼顾执行效率。同时Qwen3也紧紧对接MCP能力,官方推荐使用 Qwen-Agent 来充分发挥 Qwen3 的 Agent 能力。Qwen-Agent 内部封装了工具调用模板和工具调用解析器,大大降低了代码复杂性。
笔者以后也会出Qwen3的AI Agent开发教程,感兴趣大家可点个关注,也可关注我的同名公众号大模型真好玩,更多工作实践中遇到的大模型相关知识文档免费分享~
核心亮点五:完整训练流程的公布
Qwen3采用了和DeepSeek R1模型类似的一个基于强化学习的后训练流程,在预训练模型的基础上,通过长思维链冷启动、长思维链强化学习、思维模式融合、以及通用强化学习四个阶段,训练出Qwen3-235B-A22B和Qwen3-32B这两款大尺寸模型,在大幅提升推理能力的同时还掌握了普通问答模式和推理模式的切换方法,并且还额外提升了文本编写能力。
在完成了大尺寸模型训练后,Qwen3也借鉴了R1模型提出的模型蒸馏方法,使用大尺寸模型创建的数据集对其它小尺寸模型创建的数据集进行模型蒸馏,最终得到包括Qwen3-30B-A3B,14B, 8B, 4B, 0.6B等一系列模型。和DeepSeek蒸馏模型不同的是这些小尺寸模型也是Qwen系列Base模型,并不像DeepSeek-R1那样蒸馏Llama和其它类别模型。相信Qwen3的这一训练流程也会给未来的开源模型训练提供有价值的参考。
总结
2025年以来,在DeepSeek-R1模型的带动下,全球基座模型可谓是爆发式增长,从年初的Claude3.7、Gemini2.5 Pro到上个月发布的GPT-4.1,每一次性能的飞跃都颠覆想象。然而令人遗憾的是,开源技术圈鲜有突破,我上一篇测评的Llama4模型更是被曝作弊,以及实测效果令我们深深失望。谷歌开源的Gemma3,微软的Phi4和智谱的GLM4开源模型都是小尺寸模型,很难达到工业水准。正因如此,这次Qwen3发布对于大模型开源技术圈来说弥足珍贵,从最初的Qwen0.5到如今的Qwen3,阿里云智能一步一个脚印让我们看到了大模型开源技术的无限可能性。流水不争先,争滔滔不绝,两年时间五个版本,Qwen扎实投身技术,已经从普普通通的开源模型成为当之无愧的“源神!” Qwen3的发布再次印证了我的观点:能够推动AI真正进步造福人类的是那些底层“干货“,而不是为对飙KPI的急于求索(call一下百度,每次起个大早,赶个晚集)
以上就是我对Qwen3的理解分享, 感兴趣大家点个关注吧。大家也可关注我的同名微信公众号:大模型真好玩,免费分享工作生活中大模型开发教程和资料~