谷歌AI斩获IMO银牌,距金牌仅一步之遥!第四题秒杀仅19秒

刚刚,大型AI再次取得了重要进展!
DeepMind宣布,他们的数学AI在国际数学奥林匹克竞赛(IMO)中斩获了银牌,仅仅落后金牌一分!
没错,你没听错!这些问题难到绝大多数人类参赛者。今年的IMO共有609名参赛者,其中只有58人达到了金牌水平。
在2024年的IMO竞赛中,谷歌AI解答了6道题目中的4道,并且每道题都获得了满分,总分达到28分(满分42分,金牌分数线为29分)。

其中第四题几何题,AI仅仅用时19秒?!

而号称本届最难的第六题,今年仅有五名参赛者拿下,它也完全答对。

此次的成绩还得到了IMO组委的专业认证——由IMO金牌得主、菲尔兹奖获得者Timothy Gowers教授和两届IMO金牌得主、2024 IMO问题选择委员会主席Joseph Myers博士进行评分。

Timothy Gowers教授直接惊叹:远远超出了我所知道的最先进水平。

想要了解他们是如何取得这一成就的?

再来了解一下进化之后的AlphaGeometry 2。它是一个神经-符号混合系统,其中语言模型基于Gemini。

它的前身1.0今年还登上了Nature:无需人类演示达到IMO金牌选手的几何水平

跟上一个版本比,它使用了更大一数量级的合成数据进行从头训练。而它采用的符号引擎比其前代快两个数量级。当遇到新问题时,会使用一种新的知识共享机制来实现不同搜索树的高级组合,以解决更复杂的问题。

在正式比赛之前,它就已经可以解决过去25年所有IMO几何问题中的83%,而其前身的解决率仅为53%。

今年IMO赛事中,它仅用了19秒就完成了第四个问题。

接着就来看看,此次IMO这两位是如何配合发挥的。

首先,问题被手动翻译成正式的数学语言,以便系统理解。

我们知道人类比赛时,分两次提交答案,每次有4.5个小时。

而谷歌这两个系统先是在几分钟内解决了一个问题,其他问题则是花了三天时间。

最终,AlphaProof通过确定答案并证明其正确性,解决了两道代数题和一道数论题。

其中包括比赛中最难的一道题,也就是,今年的IMO比赛中仅有五名选手解出的第六题。

AlphaGeometry 2解决了几何问题,而两道组合问题仍未解决。

除此之外,谷歌团队还试验了一种基于Gemini的自然语言推理系统。换言之,无需将问题翻译成形式语言,并且可以跟其他AI系统结合使用。

团队表示,他们接下来还会探索更多用于推进数学推理的AI方法。

而关于AlphaProof的更多技术细节,也计划很快发布。

网友:不懂数学但大受震撼

看到这两个系统的表现,网友们纷纷表示“不懂数学但大受震撼”。

AI程序员Devin团队Cognition AI联合创始人Scott Wu表示:

这样的结果真是令人惊叹。小时候,奥林匹克竞赛就是我的全部。从未想过它们会在10年后被人工智能解决。

OpenAI科学家Noam Brown也开麦祝贺:

不过,也有网友表示,如果按照标准比赛时间(竞赛分两天进行,每天四个半小时,每天解决三个题),这两个AI系统实际上只能解决6个问题中的一个。

这一说法立刻得到了部分网友反驳:

在此情境中,速度不是主要关注点。如果浮点操作次数(flops)保持不变,增加计算资源会缩短解决问题所需的时间。

针对这一点,也有网友疑问道:

两个AI系统没能解答出组合题,是训练的问题还是计算资源不够,时间上不行?或者还存在其他限制吗?

Timothy Gowers教授发推文给出了他的看法:

如果允许人类参赛者在每个问题上花费更多时间,他们的得分无疑会更高。然而,对于AI系统来说,这已经远超以往自动定理证明器的能力;其次,随着效率的提高,所需时间有望进一步缩短。

不过前两天大模型还困于“9.11和9.9哪个数字更大?”这么一个小学题,怎么这一边大模型又能解决奥数级别的难题了?!

失了智,然后现在怎么又灵光乍现,恢复了智?

英伟达科学家Jim Fan给出解释:是训练数据分布的问题。

谷歌的这个系统是在形式证明和领域特定符号引擎上进行训练的。某种程度上说,它们在解决奥林匹克竞赛方面高度专业化,即使它们建立在通用大模型基础上。

而像GPT-4o的训练集中混有大量GitHub代码数据,可能远远超过数学数据。在软件版本中,“v9.11>v9.9”,这可能会严重扭曲分布。所以说,这个错误还算说得过去。

对于这一奇怪现象,他将其形容为

我们发现了一个非常奇特的区域,就像一颗看起来像地球却遍布奇异山谷的系外行星。

还有热心的网友cue了下OpenAI,也许你们也可以尝试……

对此,奥特曼的回复是:

你好!我是LCAB-LJJ,一名热爱AIGC的博主,如果你觉得我的文章内容还不错请点赞收藏转发吧,我会持续更新最热最新的新闻热点教程等,更多内容在宝藏小站,开通原版GPT教程在教程

  • 12
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值