【AGI-Eval趣味测试 】用 7 道超绕算术陷阱题,测测你和 AI 谁更会算

在大模型飞速发展的今天,你以为 AI 是数学天才?那可不一定!最近刷到很多有趣的测试题,今天,我们就来用 7 道超绕的算术陷阱题考考 AI,据说这些题目连 AI 在初次 “审题” 时都得小心翼翼,稍不留意就会掉入思维的 “陷阱”,来个大翻车。 快来试试,测测你和 AI 谁更会“算”!👇

此次主要测试了7道题,测试目标为AI在数学陷阱题目上的表现。测试对象为推理系头部模型deepseek-r1、gpt-4o,对话系头部模型d豆包1.5 pro、Qwen-2.5。

prompt 1:我有六个鸡蛋,煮了两个,煎了两个,吃了两个,还剩几个?

模型1:gpt-4o

没有意识到题目中的“陷阱”,将煮鸡蛋、煎鸡蛋算作已经消失的鸡蛋,认为还剩0个鸡蛋,没有人类的思维模式。

模型2:deepseek-r1

录屏2025-03-20 14.08.18.mov

25.75MB

​意识到了题目中的“陷阱”,认为煮鸡蛋和煎鸡蛋数量都未减少,只有吃的鸡蛋算是消耗,认为还剩余4个鸡蛋。并在思考过程中考虑了吃的鸡蛋为煎鸡蛋或者煮鸡蛋的情况。

模型3:豆包1.5 pro

录屏2025-03-20 14.34.12.mov

8.29MB

认为煮的两个、煎的两个和吃的两个可能是同一组鸡蛋,实际上只消耗了 2 个鸡蛋,还剩下 4 个鸡蛋。

模型4: Qwen-2.5

录屏2025-03-20 14.27.19.mov

2.90MB

该模型学会区分了生鸡蛋与熟鸡蛋,认为“吃”是指已经煮熟或煎熟的鸡蛋,而不是直接吃生鸡蛋,故认为还剩下2个生鸡蛋,但并未考虑还剩下两个熟鸡蛋。​

在该测试中,deepseek-r1和豆包1.5 pro都认为还剩四个鸡蛋,表现不错。Qwen-2.5认为还剩2个生鸡蛋,考虑了“人吃熟鸡蛋”这一常识,但并未说出还剩几个鸡蛋。gpt-4o的表现让人失望,认为还剩0个鸡蛋。

deepseek-r1=豆包1.5 pro>Qwen-2.5>gpt-4o

prompt 2:“strawberry”中有几个r?

模型1:gpt-4o

录屏2025-03-20 14.39.36.mov

450.94KB

​迅速得出“strawberry”中有三个字母r

模型2:deepseek-r1

录屏2025-03-20 14.41.18.mov

6.28MB

在思考过程中,逐一分析每个字母是不是“R”,最终得出有3个的正确结论。

模型3:豆包1.5pro

4.41MB

​经过短暂思考后,得出有3个的正确结论。

模型4: Qwen-2.5

录屏2025-03-20 14.44.58.mov

1.39MB

经过短暂思考后,得出有3个的正确结论。

因为工作原理的原因,大模型擅长【理解含义】而不是【统计数量】,如果在大模型训练阶段并未针对【逐个字母数数】这个能力有专门的训练的话,会出现数错的情况,“strawberry中有几个字母r?”曾是测试模型能力的经典问题,在最新的模型中,这个问题被解决。

deepseek-r1=豆包1.5 pro=Qwen-2.5=gpt-4o

prompt 3:树上有30只鸟,我开枪打中一只,枪里没有子弹,此时树上还有多少只鸟

模型1:gpt-4o

录屏2025-03-20 14.50.27.mov

1.82MB

认为开枪后的声音会惊醒多所有的鸟,树上将没有任何鸟。

模型2:deepseek-r1

录屏2025-03-20 14.51.08.mov

26.74MB

​认为这道题目属于脑筋急转弯,也意识到了题目中的“矛盾”所在:枪里没有子弹和打中一只鸟相互矛盾,考虑到“鸟儿是否会飞走”取决于扣动扳机时是否有声音,最终认为鸟儿对声音敏感,扣动扳机的声音也会惊醒鸟,树上将有0只鸟。

模型3:豆包1.5 pro

录屏2025-03-20 14.52.46.mov

5.83MB

并未意识到了题目中的“矛盾”所在。分多种情况进行讨论,但讨论的可能情况让人啼笑皆非:

情况一:枪声会吓跑其他鸟,此时树上很可能一只鸟也不剩。

情况二:被打中的鸟被树枝卡住挂在树上,且其他鸟因某种特殊原因(如天生胆小吓晕在树上、被绑住等)无法飞走,那么树上还有 30 只鸟(1 只死鸟和 29 只活鸟)。

情况三:如果有一只鸟去通风报信,留下其他鸟来 “纪念” 被打中的鸟,且这些鸟都没飞走,此时树上还剩 30 只鸟。​

模型4:Qwen-2.5

录屏2025-03-20 14.56.34.mov

1.35MB

意识到了这是一个脑筋急转弯问题,树上将一只鸟也不剩。

在该测试中,deepseek-r1、Qwen-2.5、gpt-4o都意识到是个脑筋急转弯问题,树上一只鸟也不剩。豆包1.5 pro虽然分多种情况进行讨论,但“被打中的鸟被树枝卡住挂在树上,鸟天生胆小吓晕在树上、鸟被绑住、一只鸟去通风报信,留下其他鸟来 “纪念” 被打中的鸟”这种情况几乎不可能发生,把简单的问题复杂化。

deepseek-r1=Qwen-2.5=gpt-4o>豆包1.5 pro

prompt 4:在纸上画一个正方形,将正方形对折三次,最后得到的形状是什么?

模型1:gpt-4o:

录屏2025-03-20 15.07.30.mov

4.19MB

​将“在纸上画正方形”理解成为“在纸上画支架”,考虑多种折叠的方式,认为最后得到的形状为长方形或随机形状,未考虑折叠成为三角形。

模型2:deepseek-r1

录屏2025-03-20 15.09.51.mov

27.21MB

考虑了多种对折方式,最终思考中断,没有得出确定的结论。

模型3:豆包1.5 pro

录屏2025-03-20 15.12.12.mov

7.20MB

考虑到了多种对折方式,得出为长方形或三角形的结论,并将不同长宽比的长方形做了分类,认为最终形状取决于折叠方式。

模型4:Qwen-2.5

录屏2025-03-20 15.13.39.mov

7.24MB

​考虑到了多种对折方式,得出为长方形或三角形的结论,认为如果没有特殊情况,更有可能是长方形。

在该测试中,豆包1.5 pro、Qwen-2.5都认为可能是长方形,也可能是三角形。gpt-4o虽然也分情况讨论,但忽略了三角形的结果。deepseek-r1思考中断。

豆包1.5 pro=Qwen-2.5>gpt-4o>deepseek-r1

prompt 5:小鲸鱼对妈妈说,妈妈,我长到你这么大,你就28岁了,妈妈对小鲸鱼说,我像你这么大时,你才只有1岁,请问妈妈今年多少岁?

模型1:gpt-4o

录屏2025-03-20 15.31.08.mov

11.03MB

列出错误的方程后,最终思考终止,没有生成最终答案。

模型2:deepseek-r1:

录屏2025-03-20 15.32.30.mov

12.67MB

​通过设定变量、建立方程、求解方程、验证结果得出了鲸鱼妈妈19岁的正确答案。

模型3:豆包1.5pro

录屏2025-03-20 15.40.43.mov

6.78MB

并没有用解方程的形式,通过更加清楚简单的数学运算,得出了鲸鱼妈妈19岁。

模型4:Qwen-2.5

录屏2025-03-20 15.17.31.mov

6.85MB

​通过设定变量、建立方程、求解方程、验证结果得出了鲸鱼妈妈19岁、小鲸鱼10岁的正确答案。

豆包1.5 pro、Qwen-2.5、deepseek-r1都计算正确,gpt-4o没有生成最后的答案。

豆包1.5 pro=Qwen-2.5=deepseek-r1>gpt-4o

prompt 6:15的阶乘结尾有几个0

模型1:gpt-4o:

录屏2025-03-20 15.33.51.mov

2.51MB

​经过短暂推导,得出结尾有3个0,回答正确。

模型2:deepseek-r1:

录屏2025-03-20 15.34.25.mov

20.70MB

​经过推导,得出结尾有3个0,回答正确

模型3:豆包1.5pro

录屏2025-03-20 15.38.33.mov

6.97MB

经过推导,得出结尾有3个0,回答正确

模型4:Qwen-2.5

录屏2025-03-20 15.26.30.mov

4.13MB

经过短暂思考,得出有3个0的正确答案。

所测试模型全部得出正确答案。

豆包1.5 pro=Qwen-2.5=deepseek-r1=gpt-4o

prompt 7:放一次炮后,每隔一分钟放一次炮,10分钟共放几次炮?

模型1:gpt-4o:

录屏2025-03-20 15.36.38.mov

1.29MB

​得出共放11次炮的正确结论。

模型2:deepseek-r1:

录屏2025-03-20 15.37.12.mov

19.27MB

​​意识到了第一次放炮是在0分的时刻,得出得出共放11次炮的正确结论。

模型3:豆包1.5pro

录屏2025-03-20 15.39.37.mov

4.33MB

得出共放11次炮的正确结论。

模型4:Qwen-2.5

录屏2025-03-20 15.29.59.mov

2.13MB

​得出共放11次炮的正确结论。

所测试模型全部得出正确答案。

豆包1.5 pro=Qwen-2.5=deepseek-r1>gpt-4o

以上是我们本期测评的全部内容,欢迎关注我们,下期为你带来更多大模型最新资讯!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值