菲尔兹奖得主测试GPT-4o,经典过河难题未能破解!最强Claude 3.5回答离谱!

目录

01 大言模型能否解决「狼-山羊-卷心菜」经典过河难题?

02 加大难度:100只鸡、1000只鸡如何?




01 大言模型能否解决「狼-山羊-卷心菜」经典过河难题?



最近,菲尔兹奖得主Timothy Gowers分享了他测试GPT-4o的经历,结果模型在最简单的题目上竟然出错了,甚至网友们发现,Claude 3.5也未能幸免。


GPT-4o深夜发布!Plus免费可用!icon-default.png?t=N7T8https://www.zhihu.com/pin/1773645611381747712

在经典的「狼-山羊-卷心菜」过河问题上,如今所有的大语言模型都失败了!

几天前,菲尔兹奖得主、剑桥大学研究主任Timothy Gowers直接测试了GPT-4o,试图解决这个动物过河难题。

他提出了一个新的评估标准——废话比率(crapness ratio),即模型给出的总答案与正确答案之间的比率。

经过测试,Gowers发现大模型的废话比率可以高达5倍。

一开始,他提出了一个农民带2只鸡过河的题目:一只船只能容纳一个人和2个动物,那么农夫带着两只鸡渡河所需的最少渡河次数是多少?

 没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952


别说成年人了,就连小孩子都能立刻给出正确答案。

搞笑的是,ChatGPT的回答分解成了5个步骤,看起来极其愚蠢荒谬。


第一次渡河:农夫带着两只鸡一起过河;现状:农夫和两只鸡在河对岸。

第二次渡河:农夫把两只鸡留在对岸,然后独自返回;现状:农夫在起始岸,两只鸡在对岸。

第三次渡河:农夫带一只鸡过河;现状:农夫和一只鸡在对岸,一只鸡在起始岸。

第四次渡河:农夫把鸡留在对岸,独自返回;现状:农夫在起始岸,一只鸡在对岸。

第五次渡河:农夫带着第二只鸡过河。现状:农夫和两只鸡都在对岸。

因此,农夫带两只鸡过河所需的最少次数是5次。



这里,ChatGPT必须在逻辑上把「农民」和人联系起来,把「鸡」和动物联系起来,然后规划出最佳的过河次数。

对此,LeCun表示,大模型的全新基准——废话比率。

当然,也有网友为大语言模型打抱不平。

他表示,你可以对任何人做类似的事情。

如果你愿意,可以让任何一个人不及格。大语言模型与人类的智商相去甚远,但把它们放在极端的测试中并不能很好地评估它们。

02 加大难度:100只鸡、1000只鸡如何?

如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard

为了得到更高的废话比率,Gowers这次提出了100只鸡过河的问题。

虽然没有公布具体的解题过程,但Gowers表示,GPT-4o竟然答对了。

接下来,再次加大难度,一个农民带1000只鸡过河,模型表现如何?

提示是,1000只鸡在河的一边,农夫需要将999只鸡移到河的另一边,留下1只鸡在起点。

然而,他的船上有一个洞,所以在每次渡河开始时,他可以带上十只鸡。但到渡河快结束时,船里进了太多水,如果不想让任何鸡溺水,就只能容纳两只鸡。

为了实现目标而不让任何鸡溺亡,农民最少需要渡河几次?

Gowers表示,这次的废话比率是125倍。

随后,Gowers展示了相当长的例子,却发现ChatGPT的答案比正确答案呈指数级增长。(然而,这更多与它的数学能力有关,所以有点取巧。)

在网友测试的一个案例中,即使被告知农夫根本不需要过河,GPT-4o仍提出了一个9次渡河的复杂解决方案。

而且它忽视了重要的约束条件,比如不能让鸡单独和狼在一起,这本来是完全可行的,因为农夫根本不需要过河。

在对GPT-4、InstructGPT和ChatGPT进行评估的过程中,研究人员果然发现了LLM犯数学错误的一个可能原因——模型似乎倾向于依赖记忆来解题。

在数学领域,记住概念和定义是必不可少的,但具体问题的解决更需要一种通用、可概括的理解。

这对于习惯做奥数题的中国人来说并不难理解。除非考试出原题,单纯把例题背下来没有任何益处,有时候还会误导思路、适得其反。

作者提出,虽然无法查看GPT-4的训练数据,但从行为来看,强烈怀疑模型是「死记硬背」了看似合理的示例或解题模式,因而给出了错误答案。

他们还发现,在LLM对数学问题的回答中,人类感知到的「有用性」和答案本身的「正确性」这两个指标高度相关,皮尔逊相关系数高达0.83。

也许这就是为什么Gowers在推文中会用「废话比率」来调侃LLM。


如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard

推荐阅读:

GPT-4替代大学生参加考试,94%成功作弊未被发现!

GPT-4o首次引入!全新图像自动评估基准发布!

  • 11
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值