【论文精读】Formal Mathematical Reasoning: A New Frontier in AI

注:本文根据师兄汇报内容总结

1. 引言

  • 数学问题作为推理和规划任务的代理,对AI领域具有吸引力。
  • 数学在科学和工程中具有基础性作用,AI4Math有望推动这些领域的发展。
  • 常见方法是通过预训练语言模型(LLMs)处理数学数据(如arXiv论文和MathOverflow网页),然后在带有详细解题步骤的数学问题数据集上微调模型,这种方法称为“非形式化”方法。

2. AI在数学中的应用及形式化转向

2.1 现有数学LLMs及其局限性
  • NuminaMath在2024年7月获得AIMO进展奖,成功解决了50个测试问题中的29个。
  • 非形式化方法的成功主要局限于高中数学水平(不超过AIME)。
  • 高级数学中高质量训练数据稀缺,且许多问题的解不是可以通过与标准答案比较的数字。

2.2 形式化数学推理
  • 形式化数学通过形式系统(如一阶逻辑、依赖类型理论)表达数学,可提供自动反馈以缓解数据稀缺问题。
  • 形式化系统(如Lean)允许严格的证明验证,避免幻觉问题。
  • Lean是一种用于编写形式化证明的语言,已被数学家广泛使用,形成了Mathlib库,包含大量定义和定理。

3. AI在形式化数学推理中的最新进展

3.1 自动形式化
  • 自动形式化将非形式化数学(如教科书和论文)翻译为形式化系统中的定理。
  • 基于规则的方法:如Mizar、NaProChe等系统,使用受控自然语言。
  • 基于神经网络和LLM的方法:LLMs(如GPT-4)通过少量示例即可实现形式化翻译。

3.2 神经定理证明
  • 定理证明需要启发式方法,深度学习被广泛用于学习这些启发式方法。
  • Holophrasm和GPT-f等系统通过训练神经网络生成证明步骤。
  • 方法包括专家迭代、从错误中学习、非形式化证明草图等。

3.3 自然语言中的验证推理
  • 尝试通过训练或符号验证器验证自然语言推理。
  • OpenAI发布的PRM800K数据集用于探索训练验证器。

3.4 形式化系统验证和验证生成
  • 形式化验证工作需要大量人力,AI可用于生成初始证明或改进现有证明。
  • LLM生成的代码可能存在缺陷和安全隐患,需结合形式化验证方法。

4. 开放性挑战和未来方向

4.1 数据
  • 如何克服形式化数据稀缺问题?例如通过自动形式化、生成合成猜想和证明。
  • 知识转移:从不同证明框架(如Coq、Isabelle、Lean)和数据丰富的模态(如代码)中迁移知识。

4.2 算法
  • 如何扩展自动形式化?例如通过自动评估形式化陈述、分步形式化和与形式化系统的更多交互。
  • 如何改进模型架构以支持数学推理?例如多步推理、长上下文、抽象和层次化规划。
  • 如何有效搜索证明?例如扩展搜索规模、系统评估模型和搜索算法、评估证明目标的价值。

4.3 工具
  • 如何更好地协助人类数学家?例如提高工具的可用性和用户友好性、支持大规模分布式协作。
  • 如何帮助人类开发正确和安全的软件?例如将形式化方法纳入AI辅助系统设计和实现、增强AI在软件和硬件验证中的能力。

5. 里程碑和成功标准

5.1 定理证明
  • Level 0:识别正确的形式化证明。
  • Level 1:提供有用的数据片段。
  • Level 2:生成部分或完整的证明。
  • Level 3:在通用领域自动证明简单定理。
  • Level 4:自主规划和执行形式化项目。
  • Level 5:解决超出人类水平的问题。

5.2 自然语言中的验证推理
  • Level 0:生成未经验证的自然语言推理步骤。
  • Level 1:引入验证与生成。
  • Level 2:利用外部工具进行计算。
  • Level 3:在推理链中结合自然语言与形式化推理。
  • Level 4:在日常任务中识别数学并应用严格推理。

5.3 自动形式化
  • Level 0:存储形式化知识。
  • Level 1:生成自动形式化/非形式化候选。
  • Level 2:准确翻译非形式化与形式化陈述。
  • Level 3:推断缺失信息并标记无法填补的缺口。
  • Level 4:在遇到错误或不一致输入时自我纠正。
  • Level 5:发明新的数学定义以简化证明。

5.4 猜想
  • AI可能能够自行提出猜想,但“有趣”的定义和评估方法仍具挑战性。

5.5 形式化验证和验证生成
  • Level 1:处理小规模验证任务。
  • Level 2:协助验证和合成整个项目。
  • Level 3:超越生成,支持证明和系统维护。
  • Level 4:帮助用户推导形式化规范。

6. 结论与讨论

  • 通过在形式化系统(如Lean)中进行推理,AI模型的推理可以被严格验证,有望在数学、软件验证等领域取得重大进展。
  • 然而,许多用例难以通过基准测试或自动化指标直接评估。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值