大模型不会比大小和单词字母计数？日期计算也是一片混乱

本文链接：https://blog.csdn.net/2401_85373396/article/details/140789075

9.9和9.11哪个大？13.8%和13.11%谁大谁小？这两个比大小的问题，前段时间难倒众多大模型，在网上掀起热议。

除此之外，向大模型提问“草莓（strawberry）这个单词有几个r时”，多家主流大模型回答错误，即使是百度的文心一言、阿里的通义千问、字节的豆包也都集体出现错误答案。

针对这些问题的出现，月之暗面回应称：其实我们人类对大模型的能力探索——无论是大模型能做到什么，还是大模型做不到什么——都还处于非常早期的阶段。“要彻底解决问题，又不能仅仅依赖于逐一修复每个案例，原因在于这些情况就像自动驾驶会遇到的场景一样是很难穷尽的，我们更加要做的是不断增强底层基础模型的智能水平，让大模型变得更加强大和全面，能够在各种复杂和极端情况下依然表现出色。”

时隔10天，再次向主流大模型提问，仍有部分大模型给出的是错误答案。

另外，在测试过程中，还发现多家大模型对于日期计算无法给出正确答案，如去年11月11日至今有多少天，有的无法确定去年是哪一年、今天是几月几日，而有的即便是确认了，也会出现计算错误。

比大小

一场在大模型领域开展的数学能力小测试——比大小，最初由综艺节目《歌手2024》排名引发。不少网友和媒体向大模型助手提问：9.9和9.11哪个大？13.8%和13.11%谁大谁小？

彼时，“BAT”三家的文心一言、通义千问和元宝，都给出了正确答案，但是部分大模型给出了错误答案，有的是全错，有的则是一个对一个错。

7月29日，再此向主流的大模型提问时，“BAT”三家依旧都给出正确答案。针对“9.9与9.11谁大”这一问题，智谱AI的智谱清言、百川智能的百小应都回答正确，而月之暗面的Kimi、字节的豆包仍回答错误。

在回答时，有部分大模型会呈现推理过程，比如豆包认为9.11大于9.9。是因为9.9表示9+0.9=9.9，9.11表示9+0.11=9.11，0.9大于0.11，所以9.9小于9.11。

将问题改成13.8%和13.11%谁大谁小时，百小应、智谱清言、Kimi、万知AI都给出了正确答案。

单词字母计数

在比大小的问题引起热议的同时，单词字母计数的问题也浮现出来。

向主流大模型提问：strawberry这个单词有几个r时，“BAT”里只有腾讯元宝回答是正确的，百度文心一言、阿里通义千问都给出了错误答案：2。

（腾讯元宝）

而在反问文心一言后，其再次分析得出的答案仍是2。

通义千问同样肯定自己的答案是正确的，还再次进行了解释：“strawberry”这个单词确实只有两个 “r”。让我再次确认一下拼写：s-t-r-a-w-b-e-r-r-y。

- 第一个“r”在第三个位置，

- 第二个“r”在第七个位置。

所以 “strawberry” 中确实只有两个 “r”。

豆包和通义千问如出一辙，反问后仍确认自己的答案：“strawberry”这个单词中“r”分别出现在“straw”和“berry”部分，一共2个。

百川智能的百小应、智谱AI的智谱清言、零一万物的万知AI、月之暗面的Kimi等都出现回答错误，其中万知AI的答案为1个“r”。

日期计算

在不断向大模型提问时发现，除了比大小、单词字母计数有误外，日期计算也难倒了诸多大模型。

当向百度大模型文心一言提问：去年11月11日至今有多少天时，文心一言回答：这是一个日期计算问题，要求确定从去年11月11日至今经过了多少天。解题关键在于确定起始和结束日期，并考虑期间的闰年情况，从而准确计算出两个日期之间的天数差。经过计算，从去年11月11日至今有261天。

这个答案实际上是正确的，但是为了核实它是凑巧答对还是有逻辑地计算正确，追问了一下计算过程，其假设了“去年”是2022年，而“至今”是2023年的某一天，比如2023年8月1日。

由于其用的是假设，则再追问能否确定去年是哪一年和今天是几号，文心一言根据公历日历明确去年是2023年，今天是7月29日。在此基础上，要求它重新计算去年（2023年）11月11日至今（2024年7月29日）有多少天时，它分月份给出的天数均是正确的，但是在计算过程中依然给我出了错误答案。要求其核对后，它坚定认为自己的答案是正确的。