自动形式化与通用人工智能：Google Research 2020年报告-CSDN博客

本文探讨了自动形式化系统的发展前景，旨在实现无需人类干预即可将自然语言转化为机器可验证语言的技术。通过深度学习的进步，自动形式化有望在不久的将来实现人类级别的数学推理能力。文中还讨论了实现自动形式化所需克服的技术障碍及其对未来人工智能系统的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原论文：A Promising Path Towards Autoformalization and General Artificial Intelligence
https://doi.org/10.1007/978-3-030-53518-6_1
选自论文集 Intelligent Computer Mathematics 13th International Conference, CICM 2020
作者Christian Szegedy是超级巨佬，googlenet一作，batchnorm，ssd，Inception-v4的联合作者

译者水平有限，错误难免，恳请读者批评指正。译者目前正在做这个方向的研究，欢迎读者与我交流，可博客留言或发邮件至infinitylyceum@163.com
本文引用了诸多文献，建议通过原文来获取这些文献

摘要

自动形式化系统可以学习阅读自然语言内容，并将其转化为抽象的、机器可验证的形式化语言。构造自动形式化系统最理想的方式是用最少的人类交互，从未标记的训练数据中引导。这是一项艰巨的任务，需要强大的自动推理和自然语言处理能力。本文认为，自动形式化很有前途，系统学习数学和计算机科学的所有领域中的复杂的，通用的推理，对数学，软件合成有深远的影响。本文提供了实现这些目标的现实路径的大纲，并给出了最近的调查结果，以支持这一方向的可行性。

引言

在深度学习蓬勃发展的当下，一般的推理能力似乎仍然是人类独有的技艺，许多文章认为，创造具有与人类相当的一般推理能力的人工智能可能需要几十年，甚至几个世纪，如果有可能的话。本文认为，在未来几年，我们将看到自动化系统在一般推理方面与人类竞争，而实现这一点的最快途径是通过自动形式化创建自动数学推理系统。 本文概述了所涉及的障碍，提出了一条现实可行的道路，并指出了这条道路的可行性。

数学是一门纯粹推理的学科。数学推理不是关于数学本身，而是关于一般的推理。无论是验证计算机程序的正确性或资源使用，还是推导物理模型的结果，只要它是基于完全形式化的前提和转换规则，都是数学推理。有些任务可能需要如此多的逻辑步骤，以至于人类发现不可能手动检查它们，但通常它们很容易由sat解决程序解决——这些程序的唯一目标是决定一个布尔表达式是否可以计算为真。

对于某些类型的表达式，比如那些在芯片设计中经常出现的表达式，SAT求解器工作得非常好。它们在计算机生成的证明中发挥了极大的作用，证明了一个以前未解决的著名数学猜想——布尔勾股定理问题。最后的证明有200tb长。

然而，SAT求解器无法验证关于无限多个情况的语句。例如，他们甚至不能验证整数的加法是可交换的。自动定理证明器(ATP)用于在一阶逻辑中找到中度困难的证明，可以处理这类问题。通过“锤子”（“hammers”）实现的证明自动化也适用于高阶逻辑以及交互式定理证明。大多数现有的证明自动化是基于手工设计的启发式，而不是机器学习，不具备开放式自我完善的能力。

数学推理就是对任何形式的特定事物进行推理。对任何形式的推理都可能是一个强大的通用工具。如果我们想要创造一个人工智能系统并展示它的一般智能，它应该能够推理数学的任何领域，或者至少在足够的时间里它应该能够学习这样做。如果它在实践中成功了，那么我们可以相信，只要它能被精确地形式化，它很可能能够学会应付任何科学学科。

人类数学由许多松散联系的领域组成，每一个领域都有自己的证明、论证和直觉。人类数学家花费数年的时间学习，只是为了成为其中一些领域的专家。在特定领域产生强大结果的人工系统不是“通用”推理引擎。然而，如果一个系统证明它可以在它接触的任何领域学习推理，那么这将是一个令人信服的人工一般智能的演示。

因此，我们很自然地会问: 我们是否会达到这样一个时刻: 在最成熟的数学领域，人工智能能够像世界上最优秀的人类一样学习推理。

形式化与自动形式化

形式化的任务是将非正式的描述转换成某种正式的、正确的和可自动检查的格式。数学形式化的例子包括开普勒猜想、四色定理和费特-汤普森定理的形式证明。这些形式化的工作需要大量的人力。例如，开普勒猜想的形式化花费了20多年的工作。自动形式化的目的是将这些工作自动化，并将它们扩展到以完全自动化的方式处理现有数学内容。

更一般地说，“形式化”可以指任何以非正式描述作为输入并产生机器可执行代码的过程。根据这个定义，形式化包括编程形式化和数学形式化。这个广义的概念也被证明是合理的，因为计算机可验证的证明实际上是提供某些最小验证内核的程序。例如，大多数证明助手都是完整的编程语言，允许运行任意程序，同时保证生成的证明的正确性。

复杂的数学尤其需要人们花时间来形式化。因此，在未来的几十年里，绝大部分的数学将不太可能被手工形式化。形式化能够完全自动化吗?理想的解决方案可以完全自动处理自然语言文本，让用户的干预最小。我们将能够自动将自然语言输入的数学的重要部分形式化并自动验证的自动化系统称为自动形式化系统。

自动形式化的必要性

以自动形式化为目标是训练–和评估–通用推理的人工智能系统的先决条件吗？

正如引言中所论证的，所有可形式化的推理都可以被看作是数学性的。相反，通用推理系统应该能够学会对任何数学领域进行推理，并且应该能够在需要或对另一项任务有用时发现新的数学领域。

不使用自动形式化（解释自然语言文本和用自然语言交流）似乎可以简化形式推理系统的工程。然而，评估一个高度复杂的、通用的、自动化的数学推理系统，而不具备自然语言交流能力，会引起几个问题。

对一个纯粹的形式化系统的训练和评估需要大量的形式化语句。创建一个由不同的、正确的形式化语句组成的大型语料库，本身就是一项艰巨的任务。
人类与我们系统的任何互动都是通过形式化的输入和输出。如果该系统由自动探索训练，并发展出自己的定义网（关于它不需要用自然语言交流），它将变成人类很难破译和解释的外星数学。
每当该系统需要应用于一个新的应用领域时，它将需要对该领域进行全面的人工形式化。这将大大限制其实用性。

如果我们能够开发出一个简洁的、定义明确的 "趣味性 "概念，并将其作为开放式探索的目标，那么在没有自动形式化的情况下训练一个强大的数学推理系统还是可能的。然而，与这样的系统进行交流将是非常困难的，因为它不能用人类的数学方式进行交流。此外，数学陈述和理论的 "趣味性 "和 "有用性 "不容易被正式捕获。很难决定某些数学领域是否会有外部应用，或是否会为其他领域的发展提供启示。有用性是高度背景性的。目前还没有已知的方法来引导搜索过程自动走向有用的定理和概念，以一种开放的方式。

由于目前人类的数学只有极小部分被形式化了，利用人类数学知识积累的重要部分的唯一方法是通过自然语言的处理。因此，最安全的选择是将人类数学的全部内容作为训练和基准的基础。

如果我们设法在推理能力和形式化能力之间启动一个正反馈循环，那么设计和训练一个能同时进行推理和形式化的人工智能代理可能比设计一个只进行推理或只进行形式化的代理更容易。改进系统的一个方面（翻译或推理）有助于为另一个方面收集新的训练数据。

推理能力的提高可以填补非正式论证中更大的漏洞，可以翻译和解释更非正式的输入。
改进非正式到正式的翻译，扩大了指导数学探索的数据量。
自动正规化不仅仅是一个挑战：成功的自动正规化将代表着通用人工智能的突破，对各个领域有重大影响。

成功的自动形式化

自动形式化将证明人类和人工智能之间复杂的自然语言理解是可行的：机器可以用自然语言对模糊的内容进行交流，并使用它来表达或指导内部经验。它将清楚地表明，自然语言对计算机来说也是一种可行的交流媒介。

就性质而言，自动格式化将对数学产生直接的实际影响。最初，一个强大的自动形式化系统可以用来验证现有的和新的数学论文，并可以实现强大的语义搜索引擎。在更普遍的形式化意义上，自动形式化的解决方案可以催生将自然语言描述转化为程序的编程代理。由于编程语言可以被完全形式化，在数学形式化上训练的推理系统可以被微调，以完成在特定编程语言中创建算法的任务。通过形式化领域层面的知识，系统可以学习从自然语言输入中产生代码。这种推理系统应该能够同时创建任务的形式化规范、可执行代码和新设计算法的正确性证明。

此外，这将产生强大而灵活的通用推理引擎，可以整合到人工智能应用中，将推理与感知相结合。这可以用来将强大的推理能力注入其他人工智能系统，并作为广泛的此类应用的基础（例如语义搜索、软件合成和验证、计算机辅助设计等）。

自动形式化的困难

设计和实施一个强大的自动形式化系统是一项艰巨的任务，并且是目前几个研究工作的主题。让我们从构建该系统的一些直截了当的尝试开始，分析其最可能的失败模式。我们假设一个基于以下两个组成部分的系统。

一个推理引擎（定理验证器）。
一个翻译组件，用于将非正式（自然语言）语句翻译成正式语句。。
翻译组件可以在先前形式化的命题和定义的背景下生成多个正式的候选命题。如果该系统在经过合理数量的尝试后，为相当一部分非正式语句创建了正式的翻译，那么它就是成功的。(然而，自动验证翻译的正确性仍然是一个模糊的、实际的问题，需要不断研究）。)
数学形式化的第一个问题是，它至少需要一些初始的核心形式化数据集，其中有大量的形式化和非正式数学内容的平行语料。一个限制因素是生成这种翻译的种子语料库的成本和努力。
一旦我们有了一个有点用处的 "种子 "翻译模型，就可以尝试通过生成几个数学语句的候选译文来引导和训练系统，并尝试证明/反驳每一个译文，直到我们找到一个正确的形式化，但不是琐碎的。这意味着我们至少可以看到四个主要的潜在失败模式。
种子形式化系统太弱，无法启动一个可以无限制地改进自己的反馈循环。
该系统可能开始产生错误的翻译，以进一步训练翻译模型，进入一个越来越差的翻译的反馈循环。
翻译被卡住了：它会产生很多不正确的语句，而这些语句永远不会被验证；而系统也会停止改进。
翻译从未跨越领域界限：它将某些领域的重要部分形式化，但从未成功地泛化到新的领域；在形式化语料库的有限部分后，训练陷入困境。
自然语言是依赖于上下文的：它可能包含隐藏在文本中很远的部分的假设，如果不进行彻底的搜索，就不可能找到。例如，论文往往会参考教科书中的 “基本术语”。形式化系统需要查找教科书，挖掘其定义的所有微妙之处，并验证这些定义是否与形式化系统资源库中的定义一致。如果不是，那么该系统将需要创建新的形式化定义，以匹配论文中的定义。此外，论文本身也可能使用不一致的符号。“语言的滥用”。此外，它可能只是有对人类读者来说很明显的错误。因此，直截了当的翻译尝试并不是一个强有力的解决方案，在实践中不太可能发挥作用。

自动形式化的路径建议

很难提出上一节中提出的障碍的解决方案。不过，我们还是可以以设计一个有合理机会被引导而不被卡住或误导的系统为目标。

我们建议依靠探索和近似翻译的组合来代替直接翻译。通过 “近似翻译”，我们的意思是，翻译模型不产生具体的正式转录，而是产生近似的嵌入向量。如下图所示，这些被用作探索算法的指南。

第一个技术问题涉及非正式数学内容（即数学论文和教科书）的输入格式。对于不需要理解公式、图表的用例，文字表述可以很好地发挥作用。然而，数学内容经常使用大量的公式和图表。几何插图在指导读者方面也发挥着作用。

最安全的途径似乎是依靠图像而不是文字表述。虽然这给系统的机器学习部分带来了更多的负担，但它可以大大减少工程的工作量。

令 $S$ 表示在某种形式化环境（例如HOL Light）中语法正确的形式化数学语句的集合， $S^{'}$ 表示那些在我们的数据库中已经存在形式证明的语句。 $C$ 是“转换策略”集合，包含可能的向前推理规则，可以看成一种函数 $c:S'^*\longrightarrow S$ ，由 $s\in S'$ 生成一系列真命题 $c (s)$ 或者生成失败。我们的系统将依赖于一些深度学习模型：

一个嵌入模型 $e_{\theta}:S\longrightarrow \mathbb{R}^n$ ，将形式数学陈述嵌入到低维向量。
一个近似翻译模型 $a_{\xi}:\mathbb{R}^{k\times l}\longrightarrow \mathbb{R}^n$ ，输入包含非形式命题的文档（图片），输出非正式输入命题的形式译文的近似嵌入。
一个探索引导模型 $g_{\eta}:S\times \mathbb{R}^n\times\mathbb{R}^n\longrightarrow [0,1]^C\times[0,1]$ ，该模型作为前提选择模型，结合了转换类型预测（假设可能转换的数量有限）。 $f_{\eta}(s, t, p)$ 将形式化语句 $s$ 、目标嵌入 $t$ 和附加转换参数的嵌入，同时预测最佳转换步骤 $0,1]^C$ 和转换参数列表 $p$ 的概率。

为了技术上的简单性，我们做了一个简化的假设，即语句和输入图像由固定维度的向量表示，但这并不重要，可以很容易地改变。如下所述，深度学习模型 $e_θ$ 、 $a_ξ$ 和 $g_η$ 的参数在锁定步骤中被训练。

该系统被设计成学习探索真实语句的集合，而这种探索是由一组目标嵌入引导的。这些目标嵌入向量是由翻译模型 $a_ξ$ 产生的。在这个过程中，我们维护以下数据集：

一个固定的以未加工图片方式储存的非正式目标内容集合 $T\subseteq \mathbb{R}^{k\times l}$ (图片中包含我们想要做形式化的陈述和定义的页面。)
近似翻译模型下 $T$ 的图片 $T'_{\xi}$ ： $\{a_\xi (t)|t\in T\}\subseteq \mathbb{R}^n$ (非形式陈述在形式端的预测嵌入。）
已经被探索过的数学命题集合 $D\subseteq S'$ ，即真命题和已证明命题，
探索的数学语句的嵌入： $D'_{\theta}=\{e_{\theta}(s)|s\in D\}\subseteq \mathbb{R}^n$

目标是找一个子集 $D'\subseteq D$ ，如果我们的翻译模型足够好，那么正确——但非平凡的正确——翻译可能符合他们的非正式描述。我们同时训练所有的模型，同时更新数据集 $T^{'}$ , $D$ 和 $D^{'}$ 。

嵌入模型 $e_θ$ 的目标是将语义上相似的语句映射到接近的向量。人们可以以某种有监督的、端到端的方式为一个或多个具体的语义任务训练这种模型。例如，该模型可以嵌入语句，以预测该语句是否对证明另一指定语句有用。另一个相关的语义任务是潜在空间的推理，其中模型被训练为在嵌入空间中进行近似的重写操作。

为了处理自然语言输入，我们的计算机视觉模型 $a_ξ$ 预测 $a_ξ(p)=e_θ(t(p))$ ，其中 $t (p)$ 代表页面 $p$ 的假设形式化。由于 $e_θ$ 被假定为反映语义相似性的嵌入模型， $t$ 可以是多值的，反映出同一非正式语句有几个正确的正式翻译，其嵌入向量预计会在 $\mathbb{R}^n$ 中聚集。

为了在训练 $θ$ 和翻译 $ξ$ 之间建立一个反馈循环，我们维护了一组已证明的定理、一大组非正式语句 $P$ 和非正式语句的近似翻译 $T_ξ=\{a_ξ(p)|p\in P\}$ 。为了生成训练数据，我们使用另一个深度神经网络 $g_η$ 从我们已经证明的定理开始，通过采样前向推理步骤进行引导性探索，目的是尽可能多地接近近似翻译的嵌入 $T_ξ$ 。为此， $η$ 通过强化学习进行训练，其中的奖励是基于与最接近的目标嵌入向量的负最小距离。指导模型 $g_η$ 对转换和转换参数（用于转换的 “前提”）进行采样。请注意， $g_η$ 可以在规避稀疏奖励问题的同时进行训练：即使我们没有接近任何一个原始目标，我们也可以假装我们到达的语句的嵌入从一开始就是我们的原始目标。这个想法被称为后见之明的经验回放。

一旦我们的引导式搜索发现足够多的语句与 $T_ξ$ 中的一些规定的嵌入相匹配，我们将检查它们是否非传统意义上的真实，并将它们作为重新训练 $a_ξ$ 的验证性翻译。随着我们的进展，我们也可以逐步训练 $e_θ$ 和 $g_η$ 。例如， $e_θ$ 可以通过分析探索过的语句的外延结构（导致新语句的战术参数）来训练，而 $g_η$ 则是利用探索过程中收集的奖励进行强化学习训练。

主要的优点是，这个系统有望对错误和不完整的输入更加稳健：如果探索足够强大，那么即使我们未能正确翻译一些语句，它也能发挥作用。另外，如果形式化被卡住了，系统可以放松它在嵌入空间中接受形式化尝试的距离，仍然可以产生有效的理论，但可能不完全对应于非正式语料库。另外，该系统应该能够更容易地推广到全新的领域，因为探索在早期阶段更可能是有效的。这可以引导系统的简单部分，并可以为翻译模型和后来的探索打下基础，使其能够继续成功引导。

进一步的想法

上一节给出了一个系统的大致轮廓，该系统可以通过自动形式化引导自己进行数学推理。本节考虑一些不那么关键但对第6节中描述的系统工程有帮助的额外细节。

基础和框架的选择

传统上，很多人会认为，选择正确的框架和基础对形式化项目的成功至关重要。对于交互式证明助手的人类用户来说，合适的框架可以影响形式化的生产力，但一般来说，这些影响很难量化，曾经有几种类型的逻辑基础和框架被成功地应用于大规模的形式化工作。Mizar, HOL Light, HOL4, Isabelle, Coq, Metamath 和 Lean。我们只列举了在形式化工作中表现出大量成功的证明助手：数以万计的定理，其中一些是非常复杂的。

在涉及到从自然语言自动形式化时，有几个考虑因素是适用的。基于纯构造性非经典逻辑的定理库可能与大多数主流数学文本的非构造性数学对象有明显的不匹配。另外，如果证明助手可以用新的高级算法（例如新的 “战术”（tactics，Lean等语言中的快速证明搜索技术——译者注））轻松扩展，那也是很有用的。与外部库，特别是机器学习系统对接所需的工程努力也是一个考虑点。

最后一个问题是逻辑的可表达性。尽管一阶逻辑通常能够表达ZF公理系统，但它需要维护公理方案，这是一个障碍。基于这些考虑，具有大型定理库的高阶逻辑系统（HOL, Isabelle, Coq, Lean）似乎最适合作为自动格式化系统的基础。

无监督预训练任务

自监督的预训练可能成为自动形式化系统的一个有利因素。BERT风格的正式和非正式语料库的预训练可以为其铺平道路，但正式内容允许预训练模型有更多的创造力和可能性，这些包括训练 "跳过树 "模型——从其上下文中生成缺失的树。这项任务包含了很多其他的逻辑推理任务：

跳过树：去除一些随机的或战略性选择的子树，预测整个缺失的子树。
类型推理模型。学习做公式的（部分）类型推理。
预测可能有助于证明语句的有用公设的嵌入或文本。
预测改写的结果（嵌入）。
预测替换或归纳不变量。
给定一个子树，预测包含的树。
用一连串的改写来重写一个公式，试着预测导致结果的改写序列。

之前的工作还包括预测表达式的符号积分，以及预测一般数学语句在潜在空间的重写下的表现。

其他技术考虑

对于形式化内容的神经表示，网络结构对推理系统的性能有很大影响。目前，具有节点共享的深度图嵌入网络做得最好，然而，最近，Transformer网络在形式积分上取得了突破性进展。

我们的主要方法是基于前向探索。然而，将前向探索的结果与目标语句相一致可能需要反向（面向目标）证明搜索。由于大多数研究是在反向证明搜索方面进行的，例如，与这种方法的整合可能是一个有用的想法和一个富有成效的工程方向。

如第6节所述，我们需要过滤掉那些不正确的、微不足道的或无趣的翻译候选者。第一个标准很明确：我们不期望错误的语句成为正确的形式化候选语句。摒弃那些微不足道的候选翻译（例如，由于过于笼统的假设或其他翻译错误）比较困难。这可以通过观察证明语句的难易程度来识别。另外，如果一个语句过长，或者有很多多余的子树，那么它就极不可能来自于人类内容的形式化。产生的语句的有用性应该是好的翻译的另一个强有力的标志。

课程学习是一种很有前途的学习方法，可以找到更长的证明。一个展示强势课程力量的显著结果是，他们训练一个强化学习系统找到由几千个基本证明步骤组成的证明，无需任何搜索，只需让策略网络在一次运行中预测它们。

证明助手中的战术是执行复杂算法的子程序，以产生关于某些公式正确性的长链论证。现有战术的例子包括应用SAT求解器或一阶自动证明器来证明需要简单逻辑推理的语句，但它们可以像使用ILP求解器的Grobner基来推理多项式方程或Diophantine不等式的线性系统一样复杂。鉴于这类算法的复杂性，人们不太可能从头开始合成一个通用的计算机代数系统。然而，绝大多数复杂的人类数学都是在没有计算机程序的帮助下发现的，所以我们可以希望在不合成复杂的战术的情况下也能达到与人类数学家的表现相匹配。

对于反驳和反例的生成，找到替换到提供反驳该语句的语句可能很重要。总的来说，使用基于深度学习的模型，不仅要嵌入公式的语法形式，还要嵌入与语句实验相关的一些经验流，这是一个有前途的研究方向。

定理证明和游戏引擎之间的一个区别是数学的广度更广。对于基于神经网络的系统来说，这可能意味着它需要非常大的神经网络来提炼出所有需要的技能，以同时应对所有的数学领域。人们可以尝试通过利用混合专家模型来应对这一问题。然而，它们固定的门控机制和僵化的模型架构相对来说很难扩展。更灵活的是利用人工市场机制的多代理架构，允许任意代理对数学猜想的状况进行投注，同时代理对正确的预测、形式证明定理和引入有趣的新猜想进行奖励。上述方向打开了一个有趣的机制设计问题的大盒子。[12]提出，在资源约束下，基于博彩市场的多代理系统有助于为数学语句分配一致的概率值。这可以为这种解决方案提供一些理论支持和指导。

自动形式化简史

自动形式化的想法是由John McCarthy在1961年首次提出的。另一个早期尝试是1990年Donald Simons的博士论文。2004年Claus Zinn的博士论文中进行了第一次彻底的研究。这些工作并没有产生哪怕是部分实用的解决方案。

Josef Urban在21世纪初开始研究这个课题。他设计了第一个大规模的大型理论推理基准，其动机是认为在大型数学事实知识库中进行推理是任何自动形式化系统的关键组成部分。2007年，他发表了用于大型理论推理的开创性的MaLARea系统。从那时起，他和Cezary Kaliszyk一直在带头研究大型理论的推理和自动格式化。

可行性

鉴于这个问题的巨大复杂性和广泛性，我们有理由问，为什么在短期内–也就是在几年内–自动形式化甚至被认为是一个现实的目标。本节试图通过已知的或正处于明显改进路径上的方法，为这项任务的可行性提供启发式论据。
自动形式化的成功取决于解决两个看似困难的任务。

通用的符号推理
强大的自然语言理解
本文的论点是，深度学习将使这两个领域的进步达到未来几年人类水平的形式化和推理性能所需的程度。让我们回顾一下它们最近的进展，重点是探索它们如何能够实现自动形式化。

搜索和推理

最近，AlphaZero证明了基于蒙特卡洛树搜索（MCTS）和残差卷积网络等的相对简单的算法可以在几个双人游戏中取得比人类更高的成绩：围棋、国际象棋和日本将棋，仅通过自行探索游戏，对每一个游戏都利用相同的算法，根本不需要在任何人类专家游戏上学习。实际上，AlphaZero能够在几天内重新发现所有重要的国际象棋、围棋和象棋知识，而这些知识是人类玩家花了几个世纪才发现的。

然而，数学推理在许多方面都与游戏不同。

自行探索的不可能性。如果认为开放式探索是一种选择，那就是决定探索什么。不能自行发挥使得自动课程学习对定理证明来说难上加难。
庞大的、无限增长的知识库，导致几乎无限的行动空间。
非常稀疏的奖励。在定理证明的情况下，很难对失败的证明尝试分配奖励。
数学知识的多样性：从本质上讲，双人游戏是非常连贯的，因为每个玩家必须能够回答任何其他玩家的任何行动。数学由广泛的、松散的学科组成，需要大量的人类专家来覆盖每一个学科。

DeepMath是通过卷积网络将深度学习应用于Mizar语料库的前提选择的第一次尝试，它为这项任务带来了一些初步的改进。同时，定理证明器E也通过整合神经网络指导得到了改进。2017年，TacticToe，已经证明了通过机器学习（即使没有使用深度学习）进行基于战术的高阶定理证明是可能的。

最近，DeepHOL系统在更普遍的情况下进一步展示了深度学习的力量：对于高阶逻辑和存在大量的知识库的前提下使用。然而，公式可以最好地描述为图，建议使用图神经网络，然后在端到端证明场景中的HOList基准上产生了显著的收益（成功率相对增加40%）。DeepHOL-Zero已经证明，相对简单的探索启发式允许引导系统在没有现有人类证明日志的情况下学习证明。虽然上述系统创建的证明非常短，但成功地证明了，在正确的课程下，在其有限的设置中，有可能训练出创建几千步的证明而不出错的模型。

自然语言处理和理解

自2017年以来，自然语言处理经历了一场与计算机视觉类似的革命，由于新的神经模型架构，特别是Transformer网络和在庞大的语料库中的大规模的自监督训练。这刺激了机器翻译和语言理解的快速发展。在一些基准上，这导致了人类或接近人类的表现，例如在SQuAD 1.0上。然而，这也导致了针对这些算法的共同弱点而开发的改进型基准。这个领域的进展依然强劲：改进的模型结构和在更大的语料库上的更好的任务已经以稳定的速度产生了显著的收益。在与计算机视觉的类比中，我们也可以预见，自然架构搜索也会在这个领域产生进一步的进展。自动形式化系统可以利用所有这些进展来加强从自然语言到形式化语句嵌入空间的翻译模型。

概述

以下是对支持自动形式化在未来几年可能成功的因素的简短概述。

加入了深度学习的搜索技术在双人游戏中的成功，特别是AlphaZero风格的蒙特卡洛树搜索。
深度学习在自动推理中的作用的展示：前提选择和证明指导。
自动证明搜索可以在没有模仿的情况下学习。
形式和自然语言内容的神经架构的快速进展和成功，特别是图神经网络和符号数学的Transformer。
在图像生成和无监督翻译中强加循环翻译一致性的成功，有力地表明自动形式化可以使用非常有限的标记的形式化定理对进行引导。
后见之明的经验回放成功地解决了机器人应用中的稀疏奖励问题。
通过大型深度网络模型和大规模自我监督预训练，自然语言处理的进展速度很快。在几个翻译和自然语言理解的基准中取得了令人印象深刻的结果。
生成性神经模型的快速改进，在从图像生成到药物发现的广泛领域产生了令人印象深刻的结果。
具有不同领域专长的代理的多代理系统可以产生无限的自我改进。
通过神经结构搜索和其他自动方法对神经结构进行自动优化。
可用于深度学习目的的计算资源仍在迅速扩大，而且越来越便宜。例如，截至2019年7月，谷歌的基于TPUv3的吊舱可以为深度学习目的提供超过100 petaFLOPS的性能。