GPT-4o打破ARC-AGI不可挑战的神话！71%准确率创下新SOTA！！

最新推荐文章于 2024-07-22 19:38:14 发布

TechQuester

最新推荐文章于 2024-07-22 19:38:14 发布

阅读量960

点赞数 20

文章标签： agi 人工智能 chatgpt python 深度学习 gpt

本文链接：https://blog.csdn.net/ElevenSakura/article/details/139844820

版权

01 什么是ARC-AGI？

02 如何让GPT-4o做到这一点

ARC-AGI是衡量通用人工智能进展的唯一基准，其创造者François Chollets曾豪言——「它不可能轻易被击败！」。

为了验证这一点，他于2020年在Kaggle上主办了首届ARC-AGI竞赛。

获胜团队icecuber在测试集上仅取得了21%的成功率，证明了François的断言。

此后几年，挑战者们不断刷新纪录，但进展缓慢，ARC-AGI似乎成为了一座不可跨越的高山。

然而，本周二，GPT-4o打破了这一神话！

GPT-4o在公共测试集上取得了50%的准确率，在训练集的保留子集上达到了71%，成为新的SOTA。

没体验过OpenAI最新版GPT-4o？快戳最详细升级教程，几分钟搞定：
升级ChatGPT-4o Turbo步骤https://www.zhihu.com/pin/1768399982598909952

ARC-AGI上周被广泛宣传为LLM无法解决的基准，这激发了Ryan Greenblatt的斗志。

他上周尝试用LLMs解决这个问题，并在一组示例中获得了71%的准确率，而人类的准确率为85%。这使得GPT-4o成为新的SOTA。

值得一提的是，今年Mike Knoop、François和Lab42联手创建了2024年ARC奖，奖金池超过110万美元。

为了完成这个挑战，Ryan放弃了一个星期的项目，设计了许多技巧，争取了高性能：

训练集：71% vs. 人类基线85%

测试集：51% vs. 之前的SOTA 34%（人类基线未知）

遗憾的是，此提交不符合ARC-AGI奖项和主要排行榜的资格，因为它使用了闭源模型和过多的运行时计算。可能Ryan会提交到私人排行榜中。

01 什么是ARC-AGI？

ARC-AGI的数据集由视觉问题组成，输入输出示例是由彩色单元格组成的网格，任务是猜测从输入到输出的转换规律，然后补全缺失的网格。

看起来很简单，就像小学的奥数题，但公共测试集中的任务要难得多，对于人类来说也有些棘手，但并非不可解决。

每一项ARC-AGI任务都是经过人工验证的，包括公共测试集，确保ARC-AGI的所有任务都可以由人类解决。

毕竟这是一个通用人工智能基准，如果连人类都难倒了，那拿去测试LLM也说不过去。

据报道，亚马逊土耳其机器人（Amazon Mechanical Turk，MTurk）训练分布的人类基线是85%，但没有针对公开测试集的人类基线。

不过我们已知的是，公开测试集更难，那么针对公开测试集的人类基线应该会更低。

问题1：

问题2：

问题3：

从Ryan给出的这3个例子中可以看出，GPT-4o答对了三分之一。

02 如何让GPT-4o做到这一点

Ryan的解决方案思路非常简单：让GPT-4o生成约8000个尝试实现转换的Python程序，选择一个在所有示例（通常有3个示例）中都正确的程序，然后将该函数应用于额外测试输入时产生的输出。Ryan以图像和各种ASCII表示形式向GPT-4o展示了问题。

这种方法与AlphaCode中应用的方法类似，在AlphaCode中，一个模型会生成数百万个试图解决编程问题的完成项，然后对这些完成项进行汇总，以确定要提交的内容。

从更高层次上解释，Ryan使用的方法是：

向GPT-4o介绍ARC-AGI的问题，并为问题中的每个网格提供图像表示法和各种文本表示法。

指导GPT-4o推理背后的规律，进一步推理如何用代码实现转换，最后用代码实现。

使用几次提示以及几个精心手写的分步推理示例来实际让GPT-4o有效地进行此推理。
生成的提示通常长度约为30k个token（包括图像）。

从GPT-4o中抽取大量的完成样本（每个问题约5000个）。

针对每个问题选取最有希望的12个补全，然后通过向GPT-4o展示该程序在示例中的实际输出，并要求GPT-4o修改代码使其正确，从而尝试修复每个补全。

根据对正确示例程序的多数投票结果，选出3个提交程序。

概括来说，Ryan通过足够长的、精雕细琢的少样本提示，生成许多可能的Python程序，从大约5000个猜测中，使用示例选出最佳猜测，然后进行调试。

除了对训练集进行迭代外，Ryan还对公共测试集的100个问题子集进行了少量迭代。所有结果都是在不重叠的公共测试集的另一个子集上计算得出的。

训练集和测试集不是独立的，而且测试集的难度更大，因此使用测试集的子集进行迭代有助于快速更好地了解问题随难度的变化。

不幸的是，这些测试集不是独立同分布（IID），这使得迭代变得更加困难和混乱。

关于方法的更多细节，以及完整的解决方案，可以参阅项目的GitHub：地址