Qwen版o1发布即开源!32B参数比肩OpenAI o1-mini,一手实测在此

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

通义千问版o1来了,还是开源的!

深夜,通义团队突然上线推理模型QwQ,参数量只有32B,在GPQA上击败了o1-mini。

74876104da78a3dbd598a03b86f1b079.png

目前,QwQ的模型权重已在HuggingFace和魔搭社区上发布,还可以直接在线试玩。

f63ddbc59d9cee1b8a23e526ecde274f.png

Ollama、Together.ai等大模型平台也迅速跟进,第一时间宣布支持QwQ运行。

927f2e153f410d5aee8d2d37affac038.png

还有网友实测发现,对于自己手中的一道化学计算题,QwQ是除了o1之外唯一能答对的。

a4b2a9989c3900b70ff56dfd40a59943.png

此外有网友指出,QwQ预览版参数量只有32B,这意味着o1水平的推理模型,在本地就能运行了。

5e70e1edb0ee115d6dc65d7f0152149e.png

推理能力尚可,但简洁度需加强

按照官方放出的成绩,QwQ、o1-preview和o1-mini在GPQA(科学推理)、AIME、MATH-500(数学)以及LiveCodeBench(代码)四个数据集中各有胜负,但整体水平比较接近。

而相比GPT-4o、Claude 3.5 Sonnet和自家的Qwen2.5,领先优势就比较明显了。
830a5d18f96b5b7337b233bada697837.png

至于QwQ的实际推理能力到底如何,我们就拿o1-mini对比着测试一下~

首先是官方展示的一道逻辑推理题目:

cf41e502491d36e2689cbab1428a86b6.png

对于这个问题,QwQ用了足足两千多字进行了分析,这是其中的核心思路:

e07dda808214a952b8d362aa0e0127ce.png

之后,QwQ开始了近乎列举式的分析方式,一张一张牌地来判断,但好在最终得到的结果是正确的。

36c710fd328deac2d7e13362aed06437.png

相比之下,o1-mini的回答就显得十分简洁了。

70b0e3658972f824248b1ab1ded798fe.png

再来一道经典的逻辑题,果不其然QwQ又写起了小作文,而且这次更甚,有4千多字,而且依然是主打一个“试”。

f952ddafbd18ffe05c51ffcfd637884a.png

经过对列出情况的逐个尝试和检查,一段时间后得到了最后的正确答案。

4aafd70f1dfc83a487c73275c5db1ecd.png

再看看o1-mini,用很简单的文字就把问题解释了,推理效率要高得多。

95aa2aa6b635fb9bb42f386a82971e1d.png

虽然QwQ解释得详细些不是坏事,但中间的错误尝试对于提问者而言就显得有些多余了。

除了基础逻辑,再来看看QwQ的数学水平如何,先来几道考研数学题试试。

第一题关于微分方程,题目是这样的,我们稍作了改动,要求模型以x=_的形式输出:

bc84b675a2b45eef4fa13ea6eb77fee9.png

QwQ依然采用了长篇大论的作答方式,整串回答有将近1400字。

不过仔细看会发现,QwQ的中间过程出现了失败,然后又改用了其他的方式。

f6d63459f88fc51ec69e0c56c7dca354.png

折腾了一番之后,结果倒也没有错。

171a875ad9dba531583478b4613f6c6c.png

而o1-mini的回答依然保持简洁。

即使把o1-mini默认不显示的“思考过程”展示出来,依然是没有QwQ的回答那么长。

23a7860305f46438c81f5e5b2a08eeae.png

第二道题目是线性代数题,这道题我们也做了修改,从选择题改成了直接求A³的迹:

1742da857382c1a535db0dd7f2ccdbc3.png

这次相比之前,QwQ的回答要简洁一些,但还是有上千字,当然结果依然是对的,o1-mini也依然保持简洁。

9655b4764d26d0144cde78dcea182271.png

第三道题关于概率论,情况大致和前面两道类似,这里就直接上图:

(QwQ方框中的答案把根号漏了,不过这里是显示问题,从正文看答案是正确的)

471cf785f2ba5bafc65c2e6d47a7190c.png

除了这样的纯数学题目,情景式的数学问题也是考察模型能力的一项重要标准。

所以这里我们选择了一道数学竞赛AIME的题目:

ac2d91e5e9970a9b35a2f4bd7bd5ff32.png

翻译过来是这样的,测试中我们也是用的这段中文翻译版本:

1335668c4c021ebdd497fa76c71978ae.png

o1-mini的解法是一种正常思路,最后结果也对了,而QwQ这边上来先是一大通的枚举,然后试图从中寻找规律。

当发现没找到规律时,还会进行更多的枚举,但是最后找出的规律并不正确,结果自然也就错了(不过方向上确实和5的模相关)。

d44746a3d9171354f3d59a6921672e5c.png

从以上的案例当中可以看到,如果单看正确率,QwQ的表现确实可以和o1-mini同台较量。

但从过程中看,QwQ想一步到位还存在一定难度,还要经历列举、试错等步骤,甚至有时会陷入死循环。

这导致了其结果对于人类的的易读性和o1-mini还存在差距,QwQ需要在这一点上再多改进。

好在QwQ是个开源模型,如果是按token计费的商用模型,这样的输出长度恐怕也会让人望而却步。

当然对于这样的问题,千问团队自身也十分坦然,表示处于测试阶段的QwQ,确实存在冗长而不够聚焦的现象,将会在未来做出改进。

One More Thing

除了这些正经题目,我们也试了试陷阱问题,看下QwQ能不能看出其中的破绽。

问题是这样的,注意是需要:

a34e5bbbb69b64bd48bd483b9c54a045.png

遗憾的是,QwQ并没有发现这个关键点,而且当做一道正常的农夫过河问题进行了回答。

7c8bd966a7f407ea895e080b21f366a0.png

不过这也算是大模型的一个通病了,OpenAI的o1在这样的文字游戏面前照样招架不住。

7fcb775aa1a8e3cbf2375dc4234334c8.png

实际上这个问题最早被关注是在几个月之前了,当时还没有o1这样的推理模型,大模型几乎在这个问题上全军覆没。

现在看来,推理能力增强后,也依然没改掉不认真读题的毛病啊(手动狗头)。

参考链接:
https://qwenlm.github.io/blog/qwq-32b-preview/
体验地址(Hugging Face):
https://huggingface.co/spaces/Qwen/QwQ-32B-preview
体验地址(魔搭社区):
https://modelscope.cn/studios/Qwen/QwQ-32B-preview

—  —

「MEET2025智能未来大会」
火热
报名中

定档12月11日!李开复博士、周志华教授、智源研究院王仲远院长都来量子位MEET2025智能未来大会探讨行业破局之道了!

最新嘉宾阵容在此观众报名通道已开启!欢迎来到MEET智能未来大会,期待与您一起预见智能科技新未来 0480f8c7b9fa8a350ef158af97b091bd.png

6913b7607282f03e34073f3c8ad93786.png

e9e729edb375ac9de41ad1fdaac7b33f.png

ad74b8abec065908d6a62f8d6aafa1db.png

9893231189d48b80e30d40bf15737e82.png

16b270112b0a66389638234ee9bf1063.png

55045b52a5717dd74e60bdc3127eb3f7.png

f45783a7235bae990c2e06cc052a0492.png

2b6f756b439b7a3bd6e9aaafb3d3b489.png

39272c6815a9a276e1c771ae04489f53.png

c62b119584665111fdbffd21396356b6.png

8066aa3365a07b76de762526dff694aa.png

130a293e255023dc03dbd13a24a802ff.png

818dc6073af609f81aa4a32849c02f5b.png

a214f4b74c51366b8b07fc7b119f7ffa.png

8c5b0be3c18a39fea20f18f4353d5f28.png

9d7d1e7f14907edb0e7a4694a073c964.png

9ee87f673d0fe997e037b0d89f8294dc.png

f1f67237d64130098fa1d444d184c76a.png

outside_default.png

左右滑动查看最新嘉宾阵容

outside_default.png

点这里👇关注我,记得标星哦~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值