注:本文根据师兄汇报内容总结
1. 引言
- 数学问题作为推理和规划任务的代理,对AI领域具有吸引力。
- 数学在科学和工程中具有基础性作用,AI4Math有望推动这些领域的发展。
- 常见方法是通过预训练语言模型(LLMs)处理数学数据(如arXiv论文和MathOverflow网页),然后在带有详细解题步骤的数学问题数据集上微调模型,这种方法称为“非形式化”方法。
2. AI在数学中的应用及形式化转向
2.1 现有数学LLMs及其局限性
- NuminaMath在2024年7月获得AIMO进展奖,成功解决了50个测试问题中的29个。
- 非形式化方法的成功主要局限于高中数学水平(不超过AIME)。
- 高级数学中高质量训练数据稀缺,且许多问题的解不是可以通过与标准答案比较的数字。
2.2 形式化数学推理
- 形式化数学通过形式系统(如一阶逻辑、依赖类型理论)表达数学,可提供自动反馈以缓解数据稀缺问题。
- 形式化系统(如Lean)允许严格的证明验证,避免幻觉问题。
- Lean是一种用于编写形式化证明的语言,已被数学家广泛使用,形成了Mathlib库,包含大量定义和定理。
3. AI在形式化数学推理中的最新进展
3.1 自动形式化
- 自动形式化将非形式化数学(如教科书和论文)翻译为形式化系统中的定理。
- 基于规则的方法:如Mizar、NaProChe等系统,使用受控自然语言。
- 基于神经网络和LLM的方法:LLMs(如GPT-4)通过少量示例即可实现形式化翻译。
3.2 神经定理证明
- 定理证明需要启发式方法,深度学习被广泛用于学习这些启发式方法。
- Holophrasm和GPT-f等系统通过训练神经网络生成证明步骤。
- 方法包括专家迭代、从错误中学习、非形式化证明草图等。
3.3 自然语言中的验证推理
- 尝试通过训练或符号验证器验证自然语言推理。
- OpenAI发布的PRM800K数据集用于探索训练验证器。
3.4 形式化系统验证和验证生成
- 形式化验证工作需要大量人力,AI可用于生成初始证明或改进现有证明。
- LLM生成的代码可能存在缺陷和安全隐患,需结合形式化验证方法。
4. 开放性挑战和未来方向
4.1 数据
- 如何克服形式化数据稀缺问题?例如通过自动形式化、生成合成猜想和证明。
- 知识转移:从不同证明框架(如Coq、Isabelle、Lean)和数据丰富的模态(如代码)中迁移知识。
4.2 算法
- 如何扩展自动形式化?例如通过自动评估形式化陈述、分步形式化和与形式化系统的更多交互。
- 如何改进模型架构以支持数学推理?例如多步推理、长上下文、抽象和层次化规划。
- 如何有效搜索证明?例如扩展搜索规模、系统评估模型和搜索算法、评估证明目标的价值。
4.3 工具
- 如何更好地协助人类数学家?例如提高工具的可用性和用户友好性、支持大规模分布式协作。
- 如何帮助人类开发正确和安全的软件?例如将形式化方法纳入AI辅助系统设计和实现、增强AI在软件和硬件验证中的能力。
5. 里程碑和成功标准
5.1 定理证明
- Level 0:识别正确的形式化证明。
- Level 1:提供有用的数据片段。
- Level 2:生成部分或完整的证明。
- Level 3:在通用领域自动证明简单定理。
- Level 4:自主规划和执行形式化项目。
- Level 5:解决超出人类水平的问题。
5.2 自然语言中的验证推理
- Level 0:生成未经验证的自然语言推理步骤。
- Level 1:引入验证与生成。
- Level 2:利用外部工具进行计算。
- Level 3:在推理链中结合自然语言与形式化推理。
- Level 4:在日常任务中识别数学并应用严格推理。
5.3 自动形式化
- Level 0:存储形式化知识。
- Level 1:生成自动形式化/非形式化候选。
- Level 2:准确翻译非形式化与形式化陈述。
- Level 3:推断缺失信息并标记无法填补的缺口。
- Level 4:在遇到错误或不一致输入时自我纠正。
- Level 5:发明新的数学定义以简化证明。
5.4 猜想
- AI可能能够自行提出猜想,但“有趣”的定义和评估方法仍具挑战性。
5.5 形式化验证和验证生成
- Level 1:处理小规模验证任务。
- Level 2:协助验证和合成整个项目。
- Level 3:超越生成,支持证明和系统维护。
- Level 4:帮助用户推导形式化规范。
6. 结论与讨论
- 通过在形式化系统(如Lean)中进行推理,AI模型的推理可以被严格验证,有望在数学、软件验证等领域取得重大进展。
- 然而,许多用例难以通过基准测试或自动化指标直接评估。