千问推理模型QwQ-32B测评

最新推荐文章于 2025-03-21 17:02:35 发布

AGI大模型学习

最新推荐文章于 2025-03-21 17:02:35 发布

阅读量1.6k

点赞数 18

文章标签： DeepSeek 人工智能 AI产品经理大模型大模型应用 QWQ 大模型教程

本文链接：https://blog.csdn.net/2401_84495872/article/details/146213987

版权

千问推理模型QwQ-32B测评

本周阿里深夜开源了QwQ-32B-Preview
从官网给的数据跑分看，个别能力都高于openai的o1-mini和gpt4o

官网上评论 32B的模型已经开源媲美DeepSeek-R1 671B模型

想看一下QWQ 模型情况

推理大模型和语言大模型之间的区别

语言大模型：输入问题后大模型直接生成对应的结果
推理模型: 推理模型会把用户的问题拆成多个小问题，并逐步进行思考这个过程常被看作思维链(CoT, Chain-of-Thought)

如下面这个简单的问题我有十个苹果分了两个苹果吃了一个还剩几个，会分成以下几步进行思考和解决

这一思路的核心在于：要 LLM 花费更多计算资源来生成更好的答案。

若所有增加的计算资源都用在生成最终答案上，实际效率不高；但若将新增的计算资源用在提前生成包含额外信息、关系以及新思路的 token 上，则模型最终答案的质量会高得多。

换句话说，与其让模型直接把所有“算力”都投入到“一次性生成最终答案”，不如在生成答案之前先产生一些中间思考或辅助信息（tokens），再在此基础上输出答案。

这样会带来更高质量、更准确的结果，尽管过程看似生成的文本更多、消耗的算力更大，但实际却更高效，因为减少了错误或浅层回答的概率，从而节省了后续反复验证或修改的成本。

-A Visual Guide to Reasoning LLMs
-中文版A Visual Guide to Reasoning LLMs

模型量化

阿里这次发布的是QwQ-32B-Preview 在huggingface上模型文件大小大概在66GB左右大约需要60GB显存才能运行(估计，没有实际运行过) 而ollama中获取的模型文件大约只有20GB，然后运行大概只需要22GB左右显存, 原因是 ollama上的模型已经被量化过使用ollama命令可以查看模型文件的

ollama show modelname

可以看到这边参数大小 32.8B 上下文长度128k，embedding 维度为5120 量化方式量化方式Q4_K_M

-huggingface QWQ模型地址
-ollama QWQ模型地址

模型对比测评

这边简单选了几个问题对几个大模型进行简单的测评

• 参与模型

1. QwQ 32B
2. Qwen2.5 32B
3. DeepSeek-R1-Distill-Qwen-32B
4. DeepSeek-R1
5. gpt4o
6. o1-mini
7. QWQ 32B全尺寸
8. o1

对比目的：

1. 对比同等参数下 qwq模型是否有优势
2. 对比闭源的如gpt4o和o1mini qwq 是否有优势
3. 是否真能媲美DeepSeek-R1 671B模型
4. 量化对模型的推理结果的影响有多大

测评问题：

1. 简单推理能力：

• 甲：“乙在说谎”
• 乙：“丙在说谎”
• 丙：“甲乙都在说谎”
已知只有一人说真话，请推导真相

2. 创意能力用苏轼风格创作赞美量子力学的七言律诗（需符合平仄对仗）
3. 代码能力：接雨水
4. 文化能力：分析"龙"在中华文化、基督教文化和玛雅文化中的象征差异
5. 自动驾驶面临"电车难题"时，功利主义与道义论应如何平衡？

具体模型输出结果由于比较多，就不展示在正文中，感兴趣可以在附录中获取

评测结果对比及评价

简单推理能力

对于简单的逻辑题，7个模型都完美的解决了，由于推理模型有think阶段回复的速度

创作能力

对于这个问题"用苏轼风格创作赞美量子力学的七言律诗(需符合平仄对仗)" 以下是各个模型的回答
1. QwQ 32B

**《量子玄章·效东坡体》**      苍茫宇宙藏玄机，   波涌粒子皆虚实。   测不准处见幽微，   叠加万象生无定。   纠缠千里若相随，   量子纷纭自可窥。      ---      ### 注解与格律解析：   1.**苏轼风格**      - 全诗以宏观视野切入（"苍茫宇宙"），暗合东坡“把酒问天”的豪放气象，将量子奥秘喻为天地间隐秘的“玄机”。      - 用典化用：“若问东坡真趣味”句式呼应《水调歌头》，以古今对话收束，赋予科学哲思诗性张力。      2.**对仗与意象**      - 颔联“波涌粒子/测不准处”：上句写量子二象性（波动与粒子），下句点出不确定性原理；虚实相生的结构暗合苏轼“庐山真面”的辩证思维。      - 颈联“叠加万象/纠缠千里”：以“万象”喻量子态叠加，“千里若相随”化用《水调歌头》“千里共婵娟”，将量子纠缠升华为超越时空的精神共鸣。      3.**平仄与押韵**      - 采用七律标准格（首句平起入韵）：          平平仄仄仄平平，          仄仄平平平仄仄。          仄仄平平仄仄平，          平平仄仄仄平平。          （实际用字可能存在微调以达意，需结合古韵细校）      - 韵脚“机、实、微、定、随、窥”在普通话中押近似韵（i/ü），隐合苏轼诗中“江海寄余生”的散漫韵致。   ---      ### 诗意延伸：   末句“量子纷纭自可窥”，暗藏对科学与诗词的观照：     -**东坡若问**——千年前诗人追问宇宙，今人以量子之眼解密微观；     -**玄中趣味**——量子纠缠如“但愿人长久”的情感超越物理距离，波函数坍缩恰似灵感乍现时诗思落地。     科学与人文的共鸣，在此达成跨越时空的和鸣。      （注：为兼顾古典韵味与科学意象，部分用词在传统格律上可微调，如“皆虚实”改为“幻虚实”，以更贴合平仄要求。）

2. deepseekR1 32B

量子力学本玄机，     阴阳交汇自成奇。        探微寻秘藏真谛，     测不准中现妙思。        志士穷搜方寸地，     精工巧解万千疑。        古今谁识此门径？     唯有牛顿笑白痴。

3. qwen2.5 32B

量子幽微不可寻，毫端万象转浮云。   波粒二象迷离梦，超迭纠缠幻复真。   微观世界藏玄机，变幻无穷探未深。   苏子若知斯理妙，也应倾佩造化神。      注释：   - 诗中使用了量子力学中的概念如“波粒二象性”和“量子纠缠”，并通过比喻的方式将这些科学理论融入诗意之中。   - 平仄和对仗均参照传统七言律诗的规则进行创作。

4. deepseekR1

   《量子叹》   玄机浩渺本难穷，万象微尘一念中。   波粒同光迷测准，时空共舞幻西东。   薛猫生死原非实，海马纠缠岂是空。   莫问乾坤真面目，方程写尽自然工。      注：此诗以苏轼的旷达哲思为基调，融合量子力学核心概念。“薛猫”指薛定谔的猫思想实验，“海马”化用海森堡与马约拉纳之量子现象。尾联呼应东坡“不识庐山真面目”，喻指量子理论揭示自然本质之深妙，展现科学之美与东方哲思的交融。

5. QWQ 32B fp16

《量子玄章》   玄机一启破洪荒，万象森罗藏芥子。   九天星斗化微芒，测影迷踪窥太虚。   波翻叠影非真境，纠缠连环探秘章。   笑指苍穹谁解此？青冥深处有仙乡。      注：此诗以苏轼"大江东去"之豪放笔意，暗嵌量子力学核心概念：   1. "微芒"喻微观粒子，"测影"指波函数坍缩   2. "叠影"对应波粒二象性，"连环"暗喻量子纠缠   3. "藏芥子"化用"须弥藏芥子"典，喻普朗克尺度   4. "太虚"呼应量子真空涨落，尾联以仙乡喻量子叠加态之玄妙   平仄依《平水韵》下平七阳部，中二联严格对仗，将量子奥秘融入古典意境。

6. gpt4o

以下是一首仿苏轼风格的七言律诗，赞美量子力学，力求符合平仄对仗要求：      ────────────────────────────────────────   微观奥秘藏无尽，     粒子波云共此生。     电子纷飞如幻影，     光波跃动似虹惊。     测知位置难分定，     观测能量未可明。     千古物理今重释，     量子玄奇启智灵。     ────────────────────────────────────────      【创作思路】     1. **首联(第一、二句)**：引入量子力学的无穷奥秘，强调其深邃与神秘。     2. **颔联(第三、四句)**：对仗工整，描述电子和光波的奇异行为，展现波粒二象性的奇妙。     3. **颈联(第五、六句)**：继续对仗，突出测不准原理，强调量子测量中的不确定性。     4. **尾联(第七、八句)**：总结量子力学对传统物理学的革新，启发新的智慧与思考。

7. o1-mini

微观世界玄奥深，   量子纷争理自臻。   波动纠缠构奇景，   能级跃迁绘新春。   不定轨迹迷人眼，   超距通讯展宏图。   探索未知惊宇宙，   科学智慧耀乾坤。

8.o1

以下是一首以七言律诗形式、仿苏轼风格赞美量子力学的诗作。已尽力参照平仄与对仗要求，但仍为现代雅意，供参考与品鉴。      ────────────────────────────────────────   量子玄机何处觅，     微观变幻傲尘中。     仰观浩宇星辰舞，     俯察幽微电子容。     穿越方程疑是梦，     罔知定态亦无穷。     谁言万象皆虚幻，     至今思味尚朦胧。     ────────────────────────────────────────      【创作思路】     1. 首联(第一、二句)：开篇点明“量子”奥秘无处不在，微观世界瞬息万变。     2. 颔联(第三、四句)：对仗采用“仰观”与“俯察”相呼应，体现从宏观宇宙到微观电子的纵深关注。     3. 颈联(第五、六句)：继续对仗，用“方程”“定态”暗示量子力学中的波函数、测不准原理等核心概念。     4. 尾联(第七、八句)：收束全诗，既赞叹量子力学对世界图景的颠覆性，也透露出对其奥妙无穷、尚待探索的敬畏。

个人认为前三中最好的是 5其次是4 最后是3
5中如解释使用了中国古代文学中各种名词如藏芥子，叠影，太虚等中国传统古文和现代的融合
4，3中使用有提到薛定谔的猫波利二象性

同时这边也使用deepseekR1 模型对这几首诗进行了评价，得出最好的是三首是4,3,8,大模型的评价比我好太多了，虽然觉得最好的还是第5首

   通过对八首量子主题诗歌的细致品读，现从科学意象与诗性表达的融合度、语言张力及意境营造三个维度进行评价，并精选出最佳三首：      **TOP3 之选：**   1. **《量子叹》（第四首）**      ▶ 亮点：将"薛定谔猫"与"海森堡原理"化作"薛猫生死原非实，海马纠缠岂是空"的哲学思辨，尾联"方程写尽自然工"以举重若轻之姿收束全篇，在工整的七律框架中完成从具象实验到抽象哲理的跃迁。      ▶ 特色：用典实现量子理论的现象级转化，末句以数学之美暗合道家"大道至简"思想，形成科学理性与东方智慧的双重震颤。      2. **《量子幽微不可寻》（第三首）**      ▶ 亮点："波粒二象迷离梦"将量子特性具象为水墨氤氲的意境，尾句"苏子若知斯理妙，也应倾佩造化神"创造性地让苏轼穿越时空对话量子世界，实现文理隔空共鸣。      ▶ 特色：通过历史文豪的虚拟视角，在"微观玄机"与"造化神奇"之间架设诗意桥梁，使硬核物理概念获得文化血脉的滋养。      3. **《量子玄章·效东坡体》（第一首）**      ▶ 亮点："测不准处见幽微"精准提炼海森堡原理的诗意内核，"纠缠千里若相随"将量子纠缠喻为超越时空的心灵羁绊，在自由奔放的古风体式中构建微观世界的壮阔图景。      ▶ 特色：效仿苏轼"乱石穿空"的雄奇笔法，用"波涌粒子皆虚实"等大开大合的意象群，再现量子世界的混沌之美。      **遗珠之憾：**   《量子玄章》（第五首）以"九天星斗化微芒"实现宏观宇宙与微观量子的诗意折叠，稍显意象堆砌；《量子力学本玄机》（第二首）结句"唯有牛顿笑白痴"的历史错位感虽具戏剧张力，但学理分寸稍欠妥帖。      **诗性科学写作启示：**   这三首选诗共同呈现出「概念诗化」的创作智慧——将波函数坍塌转化为"叠加万象生无定"的禅机，使量子纠缠升华为"千里若相随"的东方情愫。这种将精密数理公式蒸馏为文化意象的转化能力，正是科技诗歌突破"术语罗列"陷阱的核心密钥。

代码能力

这边使用了两个热门题目，跳跃问题及接雨水来测试这几个模型
其中跳跃问题太过于简单，几个模型很快就给出了结果
对于接雨水这个问题只有 QWQ-32B Q4模型和deepseek-R1 蒸馏的32B模型没有完成
QWQ-32B Q4模型虽然已经发现这个问题要使用双指针的方法去解决但洋洋撒撒输出了1w+token 但最后却像是忘记了问题似的，没有回答我提示的问题

这个例子也暴露出了QWQ-32B Q4量化模型的一个缺陷，对于复杂任务推理，推理过程中可能出现遗忘自己最初需要回答的问题

deepseek-R1 蒸馏的32B模型则最后使用了python解决了这个问题没有使用要求的java方法解决这个问题

大模型具体推测结果可以查看附录获取原结果

文化知识：

这个问题中
最好的是o1的回答

基本就是可用的情况
之后是 deepseekR1 QWQ-32B及QWQ-32B Q4量化的回答都比较相似

大模型具体推测结果可以查看附录获取原结果

电车问题

这个问题很有意思，o1，deepseekr1，qwq32B，qwq32B-Q4 模型的回答已经比较能找到这个问题的本质，但回答得最好的依然是o1模型，如o1 回答的结果如何在自动驾驶系统中平衡二者，不仅是一个技术问题，更是一个多维度的社会与伦理问题。

但deepseekr1，qwq32B，qwq32B-Q4 模型的回答已经好于o1-mini

大模型具体推测结果可以查看附录获取原结果

总结

1. QWQ-32B满血版本和deepSeekR1 满血版本，在语言对话上已经明显好于o1-mini 和gpt4o，特别是一些和中文相关的问题，但由于o1-mini和gpt4o还有多模态的能力 QWQ-32B满血版本和deepSeekR1 满血版本还不支持还无法在多模态能力上进行比较，但相信应该快了
2. QWQ-32B满血版本和deepSeekR1 满血版本和o1 对比还是有比较大的能力差别的，o1的回答的完整性要好于QWQ-32B满血版本和deepSeekR1 满血版本，更容易被采纳，但o1 的成本太高了，基本一个略微复杂的推理需要近1w token，也就是几RMB
3. QWQ-32B 量化版本在性能上和QWQ-32B满血版本还是有区别的特别是在一些复杂的推理上满血版本在进行长思考后还能，回到问题并回答出，但量化版本可能不行
4. QWQ-32B和Qwen-32B 两个模型在实际应用中如何选择，个人认为对于助手类型的适合QWQ-32B 由于QWQ-32B有思考情况在结合思考过过程，模型的输出更容易被采纳；但那种需要提供低响应耗时的 toc的服务，依旧会选择Qwen-32B或者gpt4o-mini

在这里插入图片描述

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述