大模型不会比大小和单词字母计数?日期计算也是一片混乱

9.9和9.11哪个大?13.8%和13.11%谁大谁小?这两个比大小的问题,前段时间难倒众多大模型,在网上掀起热议。

除此之外,向大模型提问“草莓(strawberry)这个单词有几个r时”,多家主流大模型回答错误,即使是百度的文心一言、阿里的通义千问、字节的豆包也都集体出现错误答案。

针对这些问题的出现,月之暗面回应称:其实我们人类对大模型的能力探索——无论是大模型能做到什么,还是大模型做不到什么——都还处于非常早期的阶段。“要彻底解决问题,又不能仅仅依赖于逐一修复每个案例,原因在于这些情况就像自动驾驶会遇到的场景一样是很难穷尽的,我们更加要做的是不断增强底层基础模型的智能水平,让大模型变得更加强大和全面,能够在各种复杂和极端情况下依然表现出色。”

时隔10天,再次向主流大模型提问,仍有部分大模型给出的是错误答案。

另外,在测试过程中,还发现多家大模型对于日期计算无法给出正确答案,如去年11月11日至今有多少天,有的无法确定去年是哪一年、今天是几月几日,而有的即便是确认了,也会出现计算错误。

比大小

一场在大模型领域开展的数学能力小测试——比大小,最初由综艺节目《歌手2024》排名引发。不少网友和媒体向大模型助手提问:9.9和9.11哪个大?13.8%和13.11%谁大谁小?

彼时,“BAT”三家的文心一言、通义千问和元宝,都给出了正确答案,但是部分大模型给出了错误答案,有的是全错,有的则是一个对一个错。

7月29日,再此向主流的大模型提问时,“BAT”三家依旧都给出正确答案。针对“9.9与9.11谁大”这一问题,智谱AI的智谱清言、百川智能的百小应都回答正确,而月之暗面的Kimi、字节的豆包仍回答错误。

在回答时,有部分大模型会呈现推理过程,比如豆包认为9.11大于9.9。是因为9.9表示9+0.9=9.9,9.11表示9+0.11=9.11,0.9大于0.11,所以9.9小于9.11。

将问题改成13.8%和13.11%谁大谁小时,百小应、智谱清言、Kimi、万知AI都给出了正确答案。

单词字母计数

在比大小的问题引起热议的同时,单词字母计数的问题也浮现出来。

向主流大模型提问:strawberry这个单词有几个r时,“BAT”里只有腾讯元宝回答是正确的,百度文心一言、阿里通义千问都给出了错误答案:2。

(腾讯元宝)

而在反问文心一言后,其再次分析得出的答案仍是2。

通义千问同样肯定自己的答案是正确的,还再次进行了解释:“strawberry”这个单词确实只有两个 “r”。让我再次确认一下拼写:s-t-r-a-w-b-e-r-r-y。

- 第一个“r”在第三个位置,

- 第二个“r”在第七个位置。

所以 “strawberry” 中确实只有两个 “r”。

豆包和通义千问如出一辙,反问后仍确认自己的答案:“strawberry”这个单词中“r”分别出现在“straw”和“berry”部分,一共2个。

百川智能的百小应、智谱AI的智谱清言、零一万物的万知AI、月之暗面的Kimi等都出现回答错误,其中万知AI的答案为1个“r”。

日期计算

在不断向大模型提问时发现,除了比大小、单词字母计数有误外,日期计算也难倒了诸多大模型。

当向百度大模型文心一言提问:去年11月11日至今有多少天时,文心一言回答:这是一个日期计算问题,要求确定从去年11月11日至今经过了多少天。解题关键在于确定起始和结束日期,并考虑期间的闰年情况,从而准确计算出两个日期之间的天数差。经过计算,从去年11月11日至今有261天。

这个答案实际上是正确的,但是为了核实它是凑巧答对还是有逻辑地计算正确,追问了一下计算过程,其假设了“去年”是2022年,而“至今”是2023年的某一天,比如2023年8月1日。

由于其用的是假设,则再追问能否确定去年是哪一年和今天是几号,文心一言根据公历日历明确去年是2023年,今天是7月29日。在此基础上,要求它重新计算去年(2023年)11月11日至今(2024年7月29日)有多少天时,它分月份给出的天数均是正确的,但是在计算过程中依然给我出了错误答案。要求其核对后,它坚定认为自己的答案是正确的。

同样的场景在腾讯元宝上也再次上演,元宝首先给出的答案也是正确的,但是当要求展开计算过程时候,发现其将起始日期定为2022年11月11日—2023年8月15日。因为展开计算过程与初次给的261天的结果不相同,元宝还修改了一下截止日期。

让元宝确认好去年是2023年、今天的日期是2024年7月29日后,元宝给出了更为出奇的答案:36天。

让它再次确认时,它给的计算过程又是2022年11月11日至2023年8月15日,算出的天数为277天,与此前计算的268天又不一致。‍‍‍

“BAT”里阿里的通义千问是最直接确定去年11月11日和今天的日期为2023年11月11日至2024年7月29日的,但是在相加的过程中,少计算了一个月份,最终答案还是错误。提示其少加了一个月,其依然给出的是错误答案。

“BAT”的大模型纷纷出现各种错误时,有独角兽企业也出现了错误,比如百川智能的百小应,在计算11月11日至月底天数时,计为30日,导致最终结果错误;零一万物的万知AI则把去年定为2021年,最后得出了999天的结果。

但是也有部分独角兽企业给出了惊喜。针对这一问题,月之暗面的Kimi、智谱AI的智谱清言给出了正确答案,且给出的推理过程也是正确的。比如Kimi先是确定去年11月11日和今天的具体日期,再根据自然月、闰年等信息,确定每月的天数,最后进行相加。

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值