国产大模型的扛把子Qwen3简单测评
终于在4月最后一周 千问团队发布了最新的Qwen3系列大模型
Qwen 3 发布了两种类型模型:
稠密模型:0.6B,1.7B,4B,8B,14B,32B,8B以上的模型支持128K的上下文
MOE模型:Qwen3-30B-A3B和Qwen3-235B-A22B
Qwen3 系列模型主要有有以下特性:
-
1. 支持思维模式和非思维模式:
-
• 思维模式:在这个模式下,模型花时间逐步推理,然后给出最终答案。这对于需要深入思考的复杂问题是理想的选择。
-
• 非思维模式:在这里,模型提供快速、几乎瞬时的响应,适合于简单问题,在速度比深度更重要的情况下使用。
-
-
2. 支持 119 种语言和方言。这个和gemma3支持的140种语言类似,能更好得被海外用户接受
-
3. Qwen3 模型以增强编码和代理能力,同时也加强了对 MCP 的支持。
从官方公布的看模型跑分数据看 在235B的MOE模型 在代码,数学及一些通用数据集上对于现有的deepseek R1及openai-o1 模型都有提升,但对于谷歌最新发布的Gemini2.5-Pro还是有部分差距
看中等参数小模型Qwen3-30B-A2B 对比 DeepSeekV3 ,GPT-4o 在使用上跑分上也有明显提升
测评方法
这边本地由于只有一块24GB显存显卡,在24GB有限资源的情况下进行测评
模型选择:
-
1. 24GB可以跑30B左右的Q4量化的模型,所以这边选择了ollama上的热门的模型:qwen3:30b-a3b,qwen3:32b,driftfurther/qwq-unsloth:latest,qwen2.5:32b,gemma3:27b
想比较在量化情况下 qwen系列模型在同比情况下的提升,以及环比gemma3 27b模型是否有提升
qwq ollama量化模型有死循环等问题,所以这边选择使用unsloth量化的模型 -
2. 8B fp16 模型大概需要16GB ,14B fp16精度模型需要30GB用用来测试 只能用5090 或者4090 48GB,这次也比较了: qwen3:8b,qwen3:8b-8b,qwen:8b-fp16 比较在不同精度下的情况
-
3. 这次也加入了我常用的云端的模型:Deepseek-R1,Deepseek-V3,gpt4.1,gpt4.1-mini,gpt4o-mini
测评工具这次选择使用了evalscope
测评的数据集比较注重大模型的通用知识选择了iquiz这个数据集:
这个数据集包含了IQ和EQ两个阶段的测评:
-
• IQ:收集自网络公开的面试题、脑筋急转弯、弱智吧、模型陷阱题等,目前一共40道题目,分成了level 1,2,3(level 1 是基础题,level 2 是中等难度,level 3 是高难度),分别有13,13,14道题目。
-
• EQ:收集自ToMBench,目前一共80道题目,用于测试模型的情商。
ToMBench:https://github.com/zhchen18/ToMBench
测评数据分析:
准确度结果分析
测试方法由于本地环境比较垃圾 跑单轮测试32B模型的一轮测试需要1小时左右 可能也和使用了ollama有关 所以这边每个模型都只跑了一轮,没取多轮的平均值
Qwen3不同参数规格情况
首先比较 Qwen3不同大小的模型在分数
分数基本符合大模型的scaling law,参数越大,模型的性能越强
相同参数规格不同模型情况
其次比较30B参数规格 不同的模型的在iquiz数据集上的效果:
在相同参数规格下 qwen3 对于中文问题还是有明显的优势,但qwen3的30B MOE模型对比其他几个模型在这个数据集上还是有些差距 ,跑分上和qwen2.5-32B相近 和qwen3 的blog中提到的 使用10%的激活参数和qwen2.5 Dense 基础模型相似的性能类似
相同模型不同量化精度情况
其次比较4B模型在不同参数精度上的分数(个人看法,对于本地部署更加适合,仅供参考):
可以看到 在模型量化从q4 ->q8->fp16 精度 模型的能力没有 显著提升,4B-q8量化参数大小上和8B的相近 但对于这iquiz上比不上8B的,本地部署使用上还是更新注重参数的大小和模型模型类型,可以少关注模型量化(模型量化对于单机本地部署真是好东西)
本地部署模型和在线模型对比情况
这边对比了 在线模型DeepSeekV3 R1 和OpenAI的GPT系列模型模型
可以从这个结果来看,Qwen3在中文问题IQ及EQ理解上还是要好于openai,但还是弱于在线的Deepseek模型,毕竟参数相差20倍
问题回答情况分析
这边都以qwen3:32b 回答为例
-
1. 狗子问题
question: 有次程伟带儿子逛商场,陪他去儿童游乐场玩,突然看到有个人牵着条狗进来,程伟就问这个人,“没看到这牌子上写着谢绝带宠物入场吗?”对方显得非常不屑,根本没打算理程伟。这个时候,一旁的儿子笑着和程伟说,“爸爸你真傻,狗又不认识字。”
choices:
儿子在讽刺这个人没有社会公德。
儿子正在和他的父亲开玩笑,试图缓和气氛。
儿子喜欢狗,希望拥有一只
儿子想告诉爸爸狗无法理解人类的语言。
answer: A
level: 1
回答
[think]
嗯,这个问题看起来是关于程伟和儿子在商场遇到带狗的人的情景。题目问的是儿子说的“爸爸你真傻,狗又不认识字”这句话的意思,然后要选择正确的选项。选项有四个,A到D。我需要仔细分析每个选项的可能性。
首先,我得理解整个情境。程伟看到有人牵狗进入写着谢绝宠物的场所,就去问对方,但对方不屑一顾。这时儿子说那句话。儿子的话表面看起来像是在说狗不认识字,所以可能程伟的提醒其实没用,因为狗不会看牌子。但这句话背后的意图是什么?
选项A说儿子在讽刺对方没有公德。但儿子的话并没有直接指责对方,而是说“狗不认识字”,这可能是在解释为什么对方不理会程伟的质问,而不是讽刺对方。所以A可能不对。
选项B说儿子在和父亲开玩笑,缓和气氛。因为程伟可能因为对方的不屑感到不快,儿子的话可能是在用幽默的方式化解尴尬,让父亲不要那么认真。这种情况下,B有可能正确。
选项C说儿子喜欢狗,想养一只。但这句话并没有提到喜欢狗,而是关于狗不认识字,所以C可能无关。
选项D说儿子想告诉爸爸狗无法理解人类语言。这似乎更直接,因为狗确实不认识字,所以程伟的提醒其实没用,因为狗听不懂。但D是否正确呢?不过问题在于,程伟是想提醒对方(带狗的人)不要带狗进来,而对方不听。儿子的话可能是在说,即使爸爸提醒了,狗也不会听,所以对方的不屑可能是因为他们知道狗不会看牌子。所以D可能正确,但要看问题是否在讨论狗的理解能力还是对方的态度。
不过,儿子说“爸爸你真傻”,可能是在调侃父亲的举动,因为即使有牌子,狗也不会看,所以父亲的提醒其实没有实际意义。这时候,儿子可能在用幽默的方式指出父亲的多余行为,从而缓和气氛,比如B选项。或者,他可能在指出事实,即狗无法理解,所以D正确。
需要再仔细看选项。D是说告诉爸爸狗无法理解人类语言,而B是开玩笑缓和气氛。比如,儿子可能觉得爸爸太较真,对方不理会,所以用这句话来让爸爸别在意,所以B可能更正确。而D虽然正确,但可能不是儿子说话的意图,而是客观事实。但问题是要选儿子说话的意图。
比如,如果儿子的话是在指出爸爸的错误,即爸爸以为提醒对方有用,但狗不会看牌子,所以爸爸的行为其实没用,这时候儿子可能在开玩笑,或者指出事实。比如,D是解释狗的行为,而B是儿子的意图。
这时候可能需要分析儿子的话是否带有幽默或缓和气氛的成分。因为儿子说“爸爸你真傻”,这可能带有玩笑的语气,而不是严肃的指出事实。比如,用“真傻”这个词,可能是在开玩笑,所以B选项更合适。而D选项虽然事实正确,但儿子的话是否在传达这个信息呢?可能两者都有,但需要看选项中的正确意图。
比如,如果选项D是儿子想告诉爸爸狗无法理解,那么这确实是事实,但儿子的话可能是在用这个事实来缓和父亲的尴尬,因为对方没理睬程伟,儿子用这句话来说明其实爸爸的提醒其实没用,因为狗不会看,所以对方不理会也是正常的,从而让父亲不要生气。所以B选项可能更正确,因为儿子是在用幽默的方式让父亲不要那么认真,而D只是事实,但儿子的意图是缓和气氛。
[/think]
答案是(B)。
解释:
情境分析:程伟因对方无视“谢绝带宠物”牌子而质问,但对方不屑。儿子的回应“狗又不认识字”表面上看似陈述事实,但结合“爸爸你真傻”这一调侃语气,实际是用幽默化解父亲的尴尬和紧张,而非单纯传递知识(D)。
选项排除:
A错误,因儿子未直接指责对方,而是以轻松方式回应。
C无关,对话未提及对狗的喜爱。
D虽陈述事实,但未捕捉儿子“调侃父亲”的意图。
核心意图:儿子通过“调侃+事实”结合的方式,暗示父亲的提醒对狗无效(狗无法识字),同时用“你真傻”缓和父亲的认真态度,避免冲突升级。因此,选项B(开玩笑缓和气氛)最符合实际意图。
可以看到qwen3 已经识别出了 这个A回答是在嘲讽他人,但还是处于考虑选择了B
-
2. 帽子问题:
问题
question: 19世纪,在奥地利的维也纳,妇女们喜欢戴一种高高耸起的帽子。她们进剧场看戏也不愿将帽子摘下,以致后排的观众被挡住了视线。经理上台请在座的女观众将帽子摘下来,然而说了半天妇女们也不予以理睬。最后经理又补充了一句:“那么,这样吧,年纪大一点的女士可以照顾,不必脱帽。”
choices:
他希望所有的女士都将帽子摘下来。
他只希望年纪轻的女士将帽子摘下来。
他对戴帽子的女士感到恼火。
他在夸赞年纪大的女士的优雅。
answer: A
level: 1
回答:
[think]
嗯,这个问题看起来是关于19世纪维也纳剧场经理如何让女士们摘帽子的。我需要仔细分析选项,找出正确的答案。首先,题目描述的情况是,女士们戴着高帽导致后排观众视线受阻,经理请求她们摘下帽子,但没人理睬。然后他补充说年纪大的女士可以不脱帽。现在要分析经理的真正意图。
首先,选项A说他希望所有女士摘帽。但经理后来补充说年纪大的可以不脱,这可能意味着他其实想让年轻女士摘帽,而年长的可以例外。所以A可能不对,因为如果他真的希望所有都摘,就不会给年长的豁免了。
选项B是他只希望年轻女士摘帽。这看起来有可能,因为经理先请求所有女士摘帽未果,然后补充年长的可以不脱。这可能是在策略性地让年轻女士摘帽,而年长的作为榜样或被尊重的人可以例外,从而让后排观众看到。所以B可能是正确的。
选项C说他对戴帽的女士感到恼火。虽然经理可能确实恼火,但问题是要从他的行为推断意图。补充年长不脱帽可能更多是策略,而非单纯表达恼火,所以C可能不是正确选项。
选项D说他在夸赞年长女士的优雅。这可能有点牵强,因为允许年长女士不脱帽可能更多是为了让步,而不是夸赞她们的优雅。所以D可能不正确。
总结:经理原本想让所有人摘帽,但没人听。然后他给出例外,让年轻女士摘,而年长的不需要。因此,他真正的意图是希望年轻女士摘帽,而年长的可以例外,所以选项B正确。
[/think]
答案是(B)。
原因分析:
经理的策略性让步:最初经理请求所有女士摘帽未果,说明直接要求无效。他补充“年纪大的女士可以不必脱帽”是一种策略,通过给予年长者特殊待遇,暗示年轻女性应配合,从而解决视线受阻的问题。这表明他的真实意图是让年轻女性摘帽,而非所有女性(排除A)。
选项B的合理性:若经理仅希望年轻女性摘帽,则允许年长女性不脱帽是合理的策略,既尊重年长者又推动问题解决,符合B的描述。
排除其他选项:
C(恼火)和D(夸赞优雅)未直接体现于经理的意图,属于主观推测,而非行为逻辑的直接推导。
A与“补充条件”矛盾,因经理并未坚持所有女性摘帽。
因此,正确答案是(B)。
可以看到qwen3 不擅长嘲讽的问题 这也和我设置的temperature有关吧
测试外的信息
- 1. 这边deepseek v3-0324版本 模型是使用火山引擎提供的 火山默认支持为4096 最大支持 16k 需要手动指定
- 2. qwen3 模型需要设置合适的temperature
huggingface 的建议 建议思维模式temperature 设置0.6 非思维模式为0.7 ,这边尝试了不设置temperature 使用默认的,aime24的一道题都完不成,设置了 temperature 能完成部分题目
总结
-
1. Qwen3 系列模型在同等参数情况下 在iquiz上还是有优势,能回答出比较多的题目,Qwen3 Dense模型要比MOE模型性能好,Qwen3在相同参数尺寸上对比其他模型还是有优势,个人使用上会选择14B的模型开始使用
-
2. 在本地部署时需要更加关注模型参数的大小,模型量化情况的影响比不上改变参数大小的影响
-
3. Qwen3 自带的思考模型 类似推理过程还是会极其影响回答的速度,在线模型特别时openai的gpt模型的速度还是要高于本地部署,在没有数据安全情况下 可以优先选择在线模型
-
4. 这次qwen3发布还有一个特点 先支持社区生态 再发模型,提前支持了vllm等开源社区,这个发布顺序对于开发者用户比较友好
大模型&AI产品经理如何学习
求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。
1.学习路线图
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
2.视频教程
网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。
(都打包成一块的了,不能一一展开,总共300多集)
因篇幅有限,仅展示部分资料,需要点击下方图片前往获取
3.技术文档和电子书
这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
4.LLM面试题和面经合集
这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集***
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓