“年轻的”IMO选手:扫荡“围棋”后,开始扫荡“数学”

--->更多内容,请移步“鲁班秘笈”!!<---

谷歌称著名数学家蒂莫西·高尔斯爵士(Sir Timothy Gowers)和约瑟夫·迈尔斯(Joseph Myers)博士使用国际海事组织(IMO)的官方规则对人工智能模型的解决方案进行了评分。该公司报告称,其组合系统获得了42分中的28分,略低于29分的金牌门槛。

AlphaProof解决了两个代数问题和一个数论问题,而AlphaGeometry 2解决了几何问题。这包括在比赛中最难的问题上获得满分,谷歌声称今年只有五名人类参赛者解决了这个问题。

图表显示了AlphaProof+AlphaGeometry 2在IMO 2024上相对于人类竞争对手的性能。AI获得28分(满分42分),达到了与比赛中银牌得主相同的水平。

AlphaProof

形式语言的优势在于能够验证数学证明的正确性,但由于数据稀缺,在机器学习的过程成为瓶颈。自然语言方法可以拥有更多的数据,但会产生不正确的推理步骤。AlphaProof通过微调语言模型将自然语言问题陈述转化为正式陈述来弥合这一差距,从而创建一个具有不同难度级别的大型正式问题库。

AlphaProof使用Gemini模型的微调版本,将自然语言的数学问题转换为一种称为 Lean 的正式断言,同时将预训练的语言模型与AlphaZero强化学习算法相结合。

当给定一个问题时,它会生成候选解决方案,并通过在正式断言语言Lean中搜索证明步骤来证明或反驳它们。每个经过验证的证明都用于加强AlphaProof的语言模型,从而提高其解决更具挑战性问题的能力。

该系统针对涵盖各种困难和数学主题的数百万个问题进行了训练,这些问题涉及到广泛的数据领域,且都是相当困难的问题。哪怕它在参加国际数学奥林匹克竞赛 (IMO) 竞赛期间也进行了循环训练。

“事实上,程序可以提出像这样不明显的结构,这非常令人印象深刻,远远超出了我的认知。” — Timothy Gowers 爵士教授,IMO 金牌得主和菲尔兹奖获得者。

在今年的比赛之前,AlphaGeometry 2可以解决过去25年中所有历史IMO几何问题的83%,而第一代只能解决53%。

对于IMO 2024,AlphaGeometry 2在收到其形式化后的19秒内解决了问题4。

问题4要求证明∠KIL和∠XPY之和等于 180°。AlphaGeometry 2建议构造 E,即直线BI上的一个点,使∠AEB = 90°。点E有助于确定AB的中点L,从而创建许多相似三角形对,例如证明结论所需的 ABE ~ YBI和ALE ~ IPC。

正式的推理方法

AlphaProof训练自己用形式语言Lean来证明数学断言。它将预训练的语言模型与AlphaZero强化学习算法相结合,该算法以前自学如何掌握国际象棋、将棋和围棋的游戏。

上图为AlphaProof的强化学习训练循环的过程信息图。大约有100万个非正式数学问题被形式化网络翻译成正式的数学语言。然后,求解器网络搜索问题的证明或反驳,通过AlphaZero算法逐步训练自身以解决更具挑战性的问题。

这项研究的意义在于通过以更扎实的方式应用逻辑和推理来解决大型语言模型的最坏趋势的前景。大型语言模型往往难以掌握基本的数学知识,也无法从逻辑上推理问题。

未来神经符号方法可以为人工智能系统提供一种方法,将问题或任务转化为一种形式,可以以一种产生可靠结果的方式进行推理。例如OpenAI正在研发代号为“草莓”的系统。

研究人员指出谷歌DeepMind不会让人类数学家失业。“我们的目标是提供一个可以证明任何事情的系统,但这并不是数学家工作的终点,”,“数学的很大一部分是提出问题,并找到要问的有趣问题。你可能会把它看作是另一种工具,类似于滑尺、计算器或计算工具。”

  • 9
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值