随着现在大模型越来越卷,大公司之间也越来卷,卷指标!感觉大家都已经麻木了,但是算法这个东西,有性能第一的就不用性能第二的!
阿里在上个月底,开源了 Qwen3(千问3),现在AI工具的花样已经越来越多了,老规矩,先看一下Qwen3大模型的技术指标。
看得我都有点精神恍惚,这个性能对比图,我直接看傻了:


我给大家提取关键的信息,Qwen3简直是性能怪兽,最新开源的 Qwen3-235B-A22B、Qwen3-32B 全面领先 OpenAI-o1、DeepSeek-R1、Grok 3 Beta 等。
不知道大家有没有发现一个现象:越来越多的企业和研究者,把阿里千问模型作为基座,开发各类衍生产品。
这一趋势绝非偶然,而是有深层次的原因,已有研究者专门分析了其中的奥秘:


在一项对比实验中,研究者用相同的数据、相同的训练环境,分别训练了千问2.5和LLaMA-3,结果发现:千问2.5的效果始终优于LLaMA-3。
更令人惊讶的是,千问2.5展现出了更强的学习能力:在同样的数据量下,千问学得更快、效果更好,而LLaMA-3要达到相同水平,必须消耗更多的数据。
如果用一个简单的比喻,这就好比学霸和普通人在读同一本书:学霸不仅学得快,而且学得牢。
接下来我从程序员角度解答一下Qwen3的真实体验:
1.家用显卡原地起飞
用老旧的RTX3060跑Qwen3-30B模型,加载时手都在抖,结果生成Python弹球代码一次通过!旋转六边形的碰撞检测流畅得不像开源模型。
Python代码运行结果如下:
一共用了一分钟,就搭建起来了,使用的Qwen的代码模式。
2. LeetCode刷题解题神器
把LeetCode困难级别的代码问题贴进去,它竟然用动画示意图,讲解leetcode的算法题目:
生成动画演示形式的解答演绎:
说起来以前很多的程序员博主以前都想用动画解答算法,做一个动画讲解算法的视频可是不容易,现在有了AI可方便多了。
体验方法也很简单,现在可以通过阿里云百炼调用API,或者在通义 App 上直接使用,夸克浏览器也即将上线接入。
Qwen Chat:
https://chat.qwenlm.ai
GitHub:
https://github.com/QwenLM/Qwen3
通义APP
3.性价比与效率齐聚一身
光说Qwen3还不够,还要对其竞争对手,这才是体验真正的实力!以前用OpenAI、Gemini的时候,总纠结选哪个型号——o1?4o?mini-high?选模型花半天时间。
但是,千问3这次化繁为简。他们把顶尖的推理和非推理模式融合到了一个模型里面,实现了「既能快答简单问题,也能深思复杂问题」的效果。
目前,在开源世界里的模型只有千问3可以做到这一点,闭源的则是Claude3.7以及Gemini 2.5 Flash。
之前我在用DeepSeek的时候经常发现模型会有无效思考时候,浪费生成思考字数和时间。千问为了解决这一痛点,支持设置思考字数的控制,满足开发者在时间与成本上的自由权衡。这次真的用心了!


也就是说,在运行深度思考之前,可以手动调节这个思考预算,花费多少 tokens 预算你说了算。
4.写在最后
好了,关于Qwen3的种种特点,我们就分享到这里。大家是不是已经迫不及待地想要尝试呢?
Qwen3的诞生,让我看到了阿里16年技术积累的结果,也让我看到了继DeepSeek之后的又一个国产大模型奇迹。希望未来国内能够诞生越来越多出色的AI大模型,让中国的AI领域走在世界的前沿。
2025的下半年,不知AI领域又会给我们带来怎样的惊喜?让我们翘首以盼!
如果大家喜欢我的内容,欢迎关注公众号小灰AI训练营,专门分享各种AI工具和实操经验。关注公众号,回复关键字“清北”,可以获得清华与北大推出的DeepSeek学习手册。
最后,小灰创建了一个AI交流群,对DeepSeek或是其他AI产品感兴趣的朋友,都欢迎进群交流。扫码添加小灰微信,备注“ai“即可进群: