大模型集体失智!9.11比9.9大?全员翻车!

部分转自:量子位

前段时间,阿里巴巴数学竞赛中姜萍的事件闹得沸沸扬扬,很多人也让AI尝试挑战这些竞赛题,虽然表现还是不够看,但也能看出来,AI 对于数据库里已有的题目,还是发挥不错的。

不过,近日有人发现,各大 AI 大模型居然在小学生都会的简单数学常识中接连翻车。

这个问题就是,9.11 和 9.9 谁大?

对于人们心目中的天花板 GPT-4 和 GPT-4o,回答丝毫不拖泥带水:

f9c513751d2541dbb16152708dd9baff.png b0a3bc777b89568459c3e18ace6afb8d.png

9.11居然比9.9大!我们再看看 Gemini Advanced 的回答:

30d9e80cdd43dbcd060b7feee5931c9c.png

好的,又是斩钉截铁的给出了一个错误答案。再看到,Claude 3.5 Sonnet 并不像前两位那样直接给出了错误答案,而是开始分析:

4736282fdc7d049e6662e3c310250eff.png

分析了一通,拆开还是对的,怎么到了答案,又拉垮了...

d222af59d64f6104d941e8f79e1b3a6a.png

经过测试,各大国产大模型也没有幸免于难。

Kimi:

469de439cb2e12ed90ee8b6afead5614.png

ChatGLM:

bc7295373f9937201a3d082047ebd85f.png

通义:

bc2a190c2993b952dd9bc2363fda0c3a.png

元宝:

003957fa80ab3ec2454ff82a9c9c08d5.png

豆包:

b08a11e5253d2748841ed08f7a4cbabb.png

不过令人意外的是,免费版本的百度文心 3.5,居然保持了清醒,一边分析一边破题,解释和答案完全正确。

不过看网上消息,它之前也是错的,等我试的时候已经是正确的了。如果是这样,那这解 case 的速度,是真快啊。

962c766f2cc8c6f0801017869011cb54.png

这个问题是由 Riley Goodside 发现的,有史以来第一个全职提示词工程师。目前在硅谷独角兽Scale AI 工作。

9bfa3dc1904606583394ff5431bf7656.png

这样一个常识问题,为什么到了 AI 手上就变得如此难缠?

网友给出了解释:AI 都是工程师开发的,对于版本号来说,9.11 确实比 9.9 更大;对于书本的目录来说,9.11 也确实排在 9.9 后面。

在大量的训练集中,常识的输入可能确实不如这些样本多,导致了 AI 把版本号、书籍目录的理解方式代入了常识。

而众所周知,大模型使用 token 的方式理解文字。OpenAI 使用开源的 Tokenizer ,可以用来观察大模型是如何理解这个问题的。

ded466d859395a3885a5defa0fb7bdef.png

可以看出,9 和小数点分别被分配为“24”和“13”,小数点后的 9 同样也是“24”,而 11 被分配到“994”。

这样问题就很清晰了,模型先比较了 9,发现大小相同,然后比较小数点后面的部分,发现 11 比 9 大,就给出了 9.11 更大的结论。

知道了问题所在,只要向 AI 解释这是一个“双精度浮点数”,它们就能很明确地解决问题了。

只要有了额外条件,AI 似乎就能正确判断这两个数的大小。而 Goodside 在反复试验后说到,想让 AI 上这个当,需要把选项放在提问前面,如果调换顺序,就不会出错。

这个问题让人不禁联想到前些年网上热传的 0.8 x 0.5 等于几,现在轮到 AI 开始反常识了。

AI 大模型发展的道路,至少在数学方面,依旧是任重而道远啊。

 
 
 
 
 
 
 
 
 
 
 
 

<END>

点这里👇关注我,记得标星呀~

普通人也能直接使用 GPT4.0

f5e6496741d9a849b720624d216103d1.png

52e9d57535a892cc305ed2d430cbc026.gif

一次性买了200多个官方Plus会员放在一个系统的池子里,共享给大家使用 。每月只需要90元,比官方便宜了一半不止,就可以直接使用官方GPT 4.0 ,而且国内网络就可以直接登录 ,不需要额外的上网工具 。

跟购买官方独立账号是完全一样的:支持GPTs、语音实时聊天功能、联网功能、上传文件、数据分析、AI画图、图片识别、消息隔离功能等,而且不限次数使用 。


504543bf55a525626b74dc4d5ec5fe7a.png

扫码可以加我微信,备注:GPT4

我会立马通过微信好友请求 

感谢你的分享,点赞,在看三  c10789ad5fab3bfcf38cff02bf7983e2.gif

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: HttpDebugger是一款Web开发调试工具,它可以在浏览器中拦截HTTP请求和响应,并且可以查看请求和响应的详细信息,例如头部、参数、Cookie、Session等。 这个工具可以帮助开发者在调试Web应用程序时更容易地跟踪和诊断问题。具有不同网站和浏览器兼容性测试的好处。 通过HttpDebugger,开发人员可以在开发过程中检查他们的应用程序在不同浏览器中的兼容性,并更好地理解网络请求和响应的真实情况。HttpDebugger还支持源代码调试,开发者可以在本地编辑和查看服务器端代码。最后,HttpDebugger也是一个功能强大的性能分析工具,可以通过分析请求和响应的时机及速度来诊断性能问题。总之,HttpDebugger是一个非常有用的Web开发调试工具,使开发人员能够轻松地跟踪和诊断问题,提高其开发效率。 ### 回答2: httpdebugger9.11是一款适用于Windows操作系统的网络调试工具。它可以拦截和分析HTTP协议的通信数据,使得开发人员可以更加详细地了解网络请求和响应的情况,从而更好地进行网络调试。 该工具具有直观的用户界面,易于操作和使用。用户可以自定义过滤和查看HTTP消息的方式,便于快速定位问题。同时,它还支持设置代理服务器和模拟请求等功能,以便模拟不同的网络环境和测试场景。 httpdebugger9.11还支持与其他调试工具的集成,如Fiddler和Wireshark,可以更好地满足不同用户的需求。 总之,httpdebugger9.11是一款功能强大的网络调试工具,可以帮助开发人员更好地理解和掌握HTTP协议的通信过程,从而缩短开发时间,提高软件质量。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值