菲尔兹奖得主测试GPT-4o，经典过河难题未能破解！最强Claude 3.5回答离谱！-CSDN博客

本文链接：https://blog.csdn.net/ElevenSakura/article/details/140087540

01 大言模型能否解决「狼-山羊-卷心菜」经典过河难题？

最近，菲尔兹奖得主Timothy Gowers分享了他测试GPT-4o的经历，结果模型在最简单的题目上竟然出错了，甚至网友们发现，Claude 3.5也未能幸免。

GPT-4o深夜发布！Plus免费可用！https://www.zhihu.com/pin/1773645611381747712

在经典的「狼-山羊-卷心菜」过河问题上，如今所有的大语言模型都失败了！

几天前，菲尔兹奖得主、剑桥大学研究主任Timothy Gowers直接测试了GPT-4o，试图解决这个动物过河难题。

他提出了一个新的评估标准——废话比率（crapness ratio），即模型给出的总答案与正确答案之间的比率。

经过测试，Gowers发现大模型的废话比率可以高达5倍。

一开始，他提出了一个农民带2只鸡过河的题目：一只船只能容纳一个人和2个动物，那么农夫带着两只鸡渡河所需的最少渡河次数是多少？

没体验过OpenAI最新版GPT-4o？快戳最详细升级教程，几分钟搞定：
升级ChatGPT-4o Turbo步骤https://www.zhihu.com/pin/1768399982598909952

别说成年人了，就连小孩子都能立刻给出正确答案。

搞笑的是，ChatGPT的回答分解成了5个步骤，看起来极其愚蠢荒谬。

第一次渡河：农夫带着两只鸡一起过河；现状：农夫和两只鸡在河对岸。

第二次渡河：农夫把两只鸡留在对岸，然后独自返回；现状：农夫在起始岸，两只鸡在对岸。

第三次渡河：农夫带一只鸡过河；现状：农夫和一只鸡在对岸，一只鸡在起始岸。

第四次渡河：农夫把鸡留在对岸，独自返回；现状：农夫在起始岸，一只鸡在对岸。

第五次渡河：农夫带着第二只鸡过河。现状：农夫和两只鸡都在对岸。

因此，农夫带两只鸡过河所需的最少次数是5次。

这里，ChatGPT必须在逻辑上把「农民」和人联系起来，把「鸡」和动物联系起来，然后规划出最佳的过河次数。

对此，LeCun表示，大模型的全新基准——废话比率。

当然，也有网友为大语言模型打抱不平。

他表示，你可以对任何人做类似的事情。

如果你愿意，可以让任何一个人不及格。大语言模型与人类的智商相去甚远，但把它们放在极端的测试中并不能很好地评估它们。