奥数逼近金牌水平!谷歌最新AlphaGeometry模型登上Nature!菲尔兹奖得主点赞

7b74bdaad9f48816d90124b5e8654cbe.png

本文约1300字,建议阅读5分钟
谷歌DeepMind 最新AI研究突破登上了《Nature》!

大家好,我是二狗。

这篇《Solving olympiad geometry without human demonstrations》研究论文提出了AI系统 AlphaGeometry,能够以接近人类奥林匹克金牌得主的水平解决奥林匹克几何问题。

这是在迈向更先进和通用的人工智能系统的道路上发展深度数学推理的一个重要里程碑。

352a1f8054b25a65b45b8bb33debce4f.png

在对 30 道奥数几何题的基准测试中,AlphaGeometry 在标准奥数时限内成功解决了 25 道,正确率高达83%。 相比之下,之前最先进的AI系统仅解决了 10道,而人类金牌得主平均解决了 25.9 个问题。

另外值得一提的是,AlphaGeometry 在人类专家评估下解决了 2000 年和 2015 年奥林匹克竞赛中的所有几何问题,且与许多先前的方法不同,AlphaGeometry 生成的证明可读性很强。

4a4a0f5b4151214fc264e61485f76a72.png

谷歌DeepMind CEO 哈萨比斯对AlphaGeometry 团队取得的成就表示祝贺:

fae8ba422b3b36369150eecbb3a6c651.png


神经语言模型+符号推演引擎

AlphaGeometry 是一个由神经语言模型和符号推演引擎两个部分组成的神经符号系统,二者一起解决复杂几何定理的证明。类似于“思考,快和慢”的理念,一个系统提供快速、直观的想法,而另一个系统则提供更加深思熟虑、理性的决策。这其中:

  • 神经语言模型,可以预测有用的几何结构来解决问题;

  • 符号推演引擎,能够使用逻辑规则推导出结论;

而二者的结合能够扬长避短,AlphaGeometry系统中的语言模型引导符号推导引擎寻找几何问题的可能解决方案。

奥林匹克几何问题基于图表,需要添加如点、线或圆新的几何结构才能解决。AlphaGeometry 的语言模型可以从无数种可能性中预测添加哪些新结构最有用。这些线索有助于填补空白,并允许符号引擎对图表进行进一步推论并接近解决方案。

比如让AlphaGeometry 解决一个简单的问题:给定问题图及其定理前提(左),AlphaGeometry(中)首先使用符号引擎推导有关图的新陈述,直到找到解决方案或用尽新陈述。如果找不到解决方案,AlphaGeometry 的语言模型会添加一种可能有用的构造(蓝色),为符号引擎开辟新的推导路径。这个过程一直循环持续,直到找到解决方案为止(右)。

a9abbef83b2fcd4682d48ea3562bd3cc.jpeg


仅接受合成数据的训练(1 亿个)

由于缺乏推理技能和训练数据,AI系统经常难以解决几何和数学中的复杂问题。AlphaGeometry 的系统将神经语言模型的预测能力与规则约束演绎引擎相结合,协同工作来寻找解决方案。

谷歌DeepMind 开发了一种“符号推演与回溯”方法生成了 1 亿个合成训练数据,打破了数据瓶颈,成功地在没有任何人类演示的情况下训练出来了 AlphaGeometry。

谷歌的“符号推演与回溯”合成数据生成方法使用高度并行计算,系统首先生成十亿个几何对象的随机图,并详尽地推导出每个图中点和线之间的所有关系。AlphaGeometry 找到了每个图表中包含的所有证明,然后向后回溯工作找出需要的附加构造来得出这些证明。

ac12b28d5bd1195dc60017a9a07175c7.png


AGI数学推理的一个重要里程碑

AlphaGeometry展示了人工智能不断增长的逻辑推理能力以及发现和验证新知识的能力。

网友们纷纷表示祝贺:

1e1d0e5ae6cbb8dbd22931aed68520c7.png

8d686a70f5b1d44bb02b7f38d6193785.png

谷歌DeepMind表示:

解决奥林匹克级别的几何问题是在迈向更先进和通用的人工智能系统的道路上发展深度数学推理的一个重要里程碑。

我们决定开源 AlphaGeometry 代码和模型,并希望与合成数据生成和训练中的其他工具和方法一起,帮助在数学、科学和人工智能领域开辟新的可能性。

菲尔兹奖得主和IMO金牌获得者NGÔ BẢO CHÂU表示:

现在我知道了为何AI领域的研究人员会首先尝试解决 IMO 几何问题,因为这里寻找的解决方案有点像国际象棋,系统在每一步中的合理动作数量都相当少。但我仍然对谷歌DeepMind 这项工作感到惊讶,这是一项令人印象深刻的成就。

编辑:文婧

037847ddd1059fc99d081f5bd5aa5ca3.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值