【论文精读】Formal Mathematical Reasoning: A New Frontier in AI

_企鹅_

于 2025-03-18 10:54:13 发布

阅读量908

点赞数 28

分类专栏：论文精读文章标签：人工智能 ai

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_60634555/article/details/145911229

版权

论文精读专栏收录该内容

7 篇文章

订阅专栏

注：本文根据师兄汇报内容总结

1. 引言

数学问题作为推理和规划任务的代理，对AI领域具有吸引力。
数学在科学和工程中具有基础性作用，AI4Math有望推动这些领域的发展。
常见方法是通过预训练语言模型（LLMs）处理数学数据（如arXiv论文和MathOverflow网页），然后在带有详细解题步骤的数学问题数据集上微调模型，这种方法称为“非形式化”方法。

2. AI在数学中的应用及形式化转向

2.1 现有数学LLMs及其局限性

NuminaMath在2024年7月获得AIMO进展奖，成功解决了50个测试问题中的29个。
非形式化方法的成功主要局限于高中数学水平（不超过AIME）。
高级数学中高质量训练数据稀缺，且许多问题的解不是可以通过与标准答案比较的数字。

2.2 形式化数学推理

形式化数学通过形式系统（如一阶逻辑、依赖类型理论）表达数学，可提供自动反馈以缓解数据稀缺问题。
形式化系统（如Lean）允许严格的证明验证，避免幻觉问题。
Lean是一种用于编写形式化证明的语言，已被数学家广泛使用，形成了Mathlib库，包含大量定义和定理。

3. AI在形式化数学推理中的最新进展

3.1 自动形式化

自动形式化将非形式化数学（如教科书和论文）翻译为形式化系统中的定理。
基于规则的方法：如Mizar、NaProChe等系统，使用受控自然语言。
基于神经网络和LLM的方法：LLMs（如GPT-4）通过少量示例即可实现形式化翻译。

3.2 神经定理证明

定理证明需要启发式方法，深度学习被广泛用于学习这些启发式方法。
Holophrasm和GPT-f等系统通过训练神经网络生成证明步骤。
方法包括专家迭代、从错误中学习、非形式化证明草图等。

3.3 自然语言中的验证推理

尝试通过训练或符号验证器验证自然语言推理。
OpenAI发布的PRM800K数据集用于探索训练验证器。

3.4 形式化系统验证和验证生成

形式化验证工作需要大量人力，AI可用于生成初始证明或改进现有证明。
LLM生成的代码可能存在缺陷和安全隐患，需结合形式化验证方法。

4. 开放性挑战和未来方向

4.1 数据

如何克服形式化数据稀缺问题？例如通过自动形式化、生成合成猜想和证明。
知识转移：从不同证明框架（如Coq、Isabelle、Lean）和数据丰富的模态（如代码）中迁移知识。

4.2 算法

如何扩展自动形式化？例如通过自动评估形式化陈述、分步形式化和与形式化系统的更多交互。
如何改进模型架构以支持数学推理？例如多步推理、长上下文、抽象和层次化规划。
如何有效搜索证明？例如扩展搜索规模、系统评估模型和搜索算法、评估证明目标的价值。

4.3 工具

如何更好地协助人类数学家？例如提高工具的可用性和用户友好性、支持大规模分布式协作。
如何帮助人类开发正确和安全的软件？例如将形式化方法纳入AI辅助系统设计和实现、增强AI在软件和硬件验证中的能力。

5. 里程碑和成功标准

5.1 定理证明

Level 0：识别正确的形式化证明。
Level 1：提供有用的数据片段。
Level 2：生成部分或完整的证明。
Level 3：在通用领域自动证明简单定理。
Level 4：自主规划和执行形式化项目。
Level 5：解决超出人类水平的问题。

5.2 自然语言中的验证推理

Level 0：生成未经验证的自然语言推理步骤。
Level 1：引入验证与生成。
Level 2：利用外部工具进行计算。
Level 3：在推理链中结合自然语言与形式化推理。
Level 4：在日常任务中识别数学并应用严格推理。

5.3 自动形式化

Level 0：存储形式化知识。
Level 1：生成自动形式化/非形式化候选。
Level 2：准确翻译非形式化与形式化陈述。
Level 3：推断缺失信息并标记无法填补的缺口。
Level 4：在遇到错误或不一致输入时自我纠正。
Level 5：发明新的数学定义以简化证明。

5.4 猜想

AI可能能够自行提出猜想，但“有趣”的定义和评估方法仍具挑战性。

5.5 形式化验证和验证生成

Level 1：处理小规模验证任务。
Level 2：协助验证和合成整个项目。
Level 3：超越生成，支持证明和系统维护。
Level 4：帮助用户推导形式化规范。

6. 结论与讨论

通过在形式化系统（如Lean）中进行推理，AI模型的推理可以被严格验证，有望在数学、软件验证等领域取得重大进展。
然而，许多用例难以通过基准测试或自动化指标直接评估。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。