On the Opportunities and Risks of Foundation Models-CAPABILITIES(2)

最新推荐文章于 2024-07-31 05:50:16 发布

可鲁贝洛斯-

最新推荐文章于 2024-07-31 05:50:16 发布

阅读量335

点赞数

分类专栏：论文文章标签：人工智能计算机视觉机器学习

原文链接：https://arxiv.org/pdf/2108.07258.pdf

版权

论文专栏收录该内容

10 篇文章 0 订阅

订阅专栏

文章探讨了基础模型在计算机视觉中的应用，包括任务规范和学习，以及在机器人技术中的潜力和挑战，如数据收集、安全性和鲁棒性。同时，文章讨论了基础模型在推理任务中的作用，包括生成能力、高级推理能力和多模态交互。最后，提到了基础模型在开发者和最终用户交互中的影响，以及理解的哲学问题，包括形而上学和认识论的层面。

摘要由CSDN通过智能技术生成

On the Opportunities and Risks of Foundation Models-CAPABILITIES(2)

CAPABILITIES

Vision

Key capabilities and approaches.

值得注意的是，目前的计算机视觉基础模型相对于它们的NLP模型：早期的努力仍然很大程度上集中在RGB图像输入和核心传统视觉任务的一个子集。然而，该领域继续在以具体化和交互式感知设置为中心的更广泛的挑战上取得进展（这对机器人技术的基础模型至关重要[Bohg等人）。我们在图7中注意到这些高阶目标的一个子集，包括物理场景的理解，对视觉常识和时间事件的推理，以及对社会启示的感知。每一个都是完全监督系统的目标，但已被证明具有挑战性，部分原因是难以大规模地注释这些任务。例如，视觉问题回答的标准系统很难回答需要常识性理解的问题，因为这些问题通常需要超出像素本身存在的外部知识。在交互代理中，具体化视觉系统的持续挑战。通过减少对显式注释的依赖，基础模型可以比以前更能进一步地实现这些目标。语言基础模型的相关进展，已经能够对语言事件捕获一定程度的常识，也提出了在多模态视觉输入中实现类似能力的潜在途径。虽然如何在基础模型中实现这些能力的确切路线图仍然是一个悬而未决的问题，但新的高效和灵活的架构（4.1：建模）、大规模培训（4.5：系统）、自我监督技术（4.2：培训）和少镜头适应方案（4.3：适应）的组合可能会为迄今为止难以实现的能力打开大门。

Central research challenges

我们对研究挑战的讨论是由下游应用领域激发的，其中基础模型可能进一步促进视觉模型的集成和影响。我们强调了几个这样的领域： (1)医疗保健和家庭环境的环境智能：建立在这些环境下环境智能的现有方法，基础模型可能提供更好地检测精细人类活动和医疗事件的潜力，以及改善临床医生、患者和日常消费者的辅助交互（参见3.1：医疗保健）。(2)移动和消费者应用：具有更强多模式接地的基础模型可以增强移动设置中服务的交互能力，基本提高视觉和语言输入的生成能力可以有利于计算摄影和内容编辑应用。(3)具体化的交互代理：感知模型作为输入和奖励功能基于大量自我中心（真实/模拟、人类/机器人）视觉数据训练的基础模型可能通过捕捉更广泛的视觉场景、对象和动作的分布，进一步推进这一进展（参见2.3：机器人）。基础模型可能对这些应用程序设置的进一步影响程度取决于Key capabilities and approaches.中概述的功能的实现程度。为了弥合目前、短期和长期预期能力之间的重大差距，我们必须解决目前基础模型的局限性，包括它们的培训和评估。以下是相应的关键挑战的一个子集：

语义的系统性和感知的鲁棒性。人类具有非凡的能力，能够将视觉理解概括到看不见的构图，以及对新物体和场景的物理和几何特性的推理。虽然目前的基础模型在图像合成能力和泛化到细粒度语言输入的早期结果方面显示出了良好的能力，但这些模型仍然难以推广到简单形状和颜色的组成。泛化性也超越了语义；视觉场景和物体的物理动力学和几何属性具有自然的规律性。基础模型已经显示了理解场景和物体几何的早期迹象。此外，在感知模型中对物理场景和几何理解的早期努力可能为正在进行的基础模型开发提供指导。事实上，在基础模型中继续合并多种模式（如音频）可能有利于这些目标。然而，能够将最初观察到的能力稳健地推广到人类层面上的各种自然场景和物体的具体技术仍然是基础模型的一个开放的研究挑战。

计算效率和动力学建模人类在处理物体、场景和事件的连续视觉流方面惊人地高效，以支持理解事件动态。语言(2.1：语言）的基础模型已经显示了对事件的长期一致性建模的初始步骤；捕获视觉输入中的长期时间相关性和因果一致性的类似能力将有利于下游设置，如机器人。然而，相对于语言中的单词标记级输入，低级的计算机视觉输入是非常高维的：一个1080p的帧包含超过200万像素。在这种情况下，在远程视频序列中为更丰富的事件动态建模似乎是一项令人生畏的工作，特别是在附加的模式下（例如，语音、光流等）。和不断增加的决议。可以理解的是，一种完全处理每个像素的简单方法可能是令人望而却步的。当前的视觉模型通常通过处理完全总结图像补丁甚至帧组的嵌入来解决这个问题，但这可能有丢失细粒度细节的潜在缺点。除了考虑原始输入空间外，视觉的基础模型可能需要重新设计基本架构原语（4.1：建模），以实现高效和有效的建模：三维卷积的替代方案可能更好地解决其三次复杂性，而基于粒子的表示可能对建模物理动力学更有效。此外，将这些视觉模型部署到下游应用程序设置也将需要改进系统设计（4.5：系统）。综上所述，大规模动态视觉输入的高效建模的瓶颈仍然是一个必须解决的多方面的研究方向。

培训、环境和评估对于实现基础模型的潜力，同样重要的是培训和评估它们的支持要素。目前的视觉基础模型主要集中在图7中所示的一小部分模式上（例如，RGB图像和文本的数据集），因为这些可能是最容易获取的。这促使了额外的大规模训练数据集的开发和使用，这些数据集包含跨广泛模式的不同输入集合。虽然额外的注释可能不是严格必要的，但输入质量会影响模型的学习效率；利用其他类型的基础模型（如语言）来帮助提高质量的技术是一条很有前途的前进途径。我们还想考虑静态数据集之外的设置：经典研究表明，人类的知觉理解与它的体现和交互式的生态环境有关。作为长期体现和交互能力的垫脚石（2.3：机器人），持续开发的捕捉物理、视觉和生态现实主义的模拟环境可能在提供可扩展和高保真视觉输入方面发挥重要作用。最后，还有一个度量学的问题：我们如何评估生成式基础模型输出对语义的忠实度？像弗雷切特的起始距离这样的标准指标存在已知的缺陷；自然语言处理中的平行指标（例如，像BLEU这样的指标与来自人类的因果判断并不相关）。将人工判断作为评估的一部分可能是一种途径，但成本巨大，可能无法扩展。围绕着视觉基础模型的培训（4.2：培训）、数据（4.6：数据）和评估（4.4：评估）设置的突出和开放的挑战确实非常微妙，并将成为未来研究的中心领域。

结论性的评论在本节中，我们探索了计算机视觉背景下的基础模型，从识别以前计算机视觉范式的根源，到将其当前和预期的能力背景化，再提出未来的研究方向。最后，我们简要讨论了计算机视觉的基础模型及其持续发展的一些更广泛的社会影响（另见5：社会）。相机在我们的社会中无处不在意味着计算机视觉技术的进步具有巨大的破坏性影响潜力；这将承担相应的责任，仔细考虑它的风险。在计算机视觉模型中存在学习偏差的历史，导致代表性群体的准确性较低和相关错误，因此不适当和过早地部署到一些现实世界的环境中。许多相同的基础问题继续存在于当前的基础模型中。随着来自其他传感器模式（如可穿戴或环境传感器，图7）的数据被纳入这些基础模型中，围绕隐私和监视的关注变得至关重要（见5.6：伦理）。此外，随着视觉基础模型的语义和生成能力的不断增长，生成的深度伪造图像和错误信息会带来更大的风险。虽然计算机视觉和基础模型所面临的有趣的开放挑战和机遇是重大的，但同时解决这些和相关的风险仍然是至关重要的。

Robotics

在这里插入图片描述图8。为机器人技术建立新型的基础模型将需要跨越不同环境和行为的大量数据集。模拟、机器人交互、人类视频和自然语言描述都可能是这些模型的有用数据源。尽管获取数据存在挑战，但开发新的机器人基础模型在任务规范和机器人学习中的各种问题公式方面具有巨大的潜力。图片来源： [Finn等人，2016年b；Szot等人，2021年]。

机器人技术研究的一个长期挑战是赋予机器人处理它们在现实世界中将遇到的无数条件的能力。在本节中，我们将讨论基础模型背后的想法如何潜在地帮助产生“多面手”机器人，例如，在新房子和新厨房里做一顿新餐。要朝着这一目标取得进展，现有的基础模型将是不够的。我们需要在多种数据源上进行训练的新型模型，将接地的机器人交互数据扩展到人类执行任务的视频，等等。我们关注的是这些基础模型如何应用于机器人控制自己的物理化身以成功执行不同任务的问题。这是一个高维的闭环决策问题：机器人所采取的行动直接影响其下一个感知的内容，进而影响机器人的下一个行动。这种闭环方面传统上并没有在语言和计算机视觉中进行研究，在那里，大型离线数据集占主导地位，基础模型已经取得了成功。我们关注的是如何在这种新的闭环数据体系中利用基础模型的演示好处——大规模的、自我监督的学习。一种新型机器人基础模型的前景在于其能够增强机器人改善日常生活关键方面的潜力，从制造[1999年2；桑尼曼等2020]，建筑[科什奈维2004；博克2007]，自动驾驶[索普等1988；巴杜等2020]，家庭援助[特伦和米切尔1995；布鲁克斯2002；迪尔曼2004；2007；古普达等人2018；什里达等2020]和个人援助[德拉根和斯里尼瓦萨2013；贾夫达尼等人2018年等。我们在本节的讨论主要集中在用于家务的移动操作机器人，但我们希望其本质广泛适用于上面列出的机器人的其他用例。

在构建新型机器人基础模型的关键道路上，是拥抱任务规范和任务学习方面的机会，同时应对数据采集、安全性和鲁棒性方面的挑战。考虑以下机器人学习范式：从对任务的描述开始，捕捉用户可能希望机器人做的事情（例如，“做早餐”）——学习相应的策略来生成所需的机器人动作。虽然策略可以以不同的方式参数化，但常见的选择是将任务表示和环境观察（例如，从固定或自我中心相机的场景图像，或从激光雷达等替代传感器的输入）映射到机器人动作[安德里乔维奇等人2017；奈尔等人2018]。当机器人以任务条件的方式行动时，后续的状态会被反馈给策略，产生更多的动作，直到任务得到满足。

然而，在实践中实施这种范例是很困难的。首先，描述一个人的目标的正确界面是什么？对于一个特定的用户，“做早餐”意味着一个完整的早餐，包括煎蛋、吐司和一杯橙汁；对于另一个用户来说，“做早餐”可能意味着用桑巴和一大杯滤咖啡。一般来说，像这样的高级上下文相关的目标并不是独立的，可能会引入许多歧义。如何以足够清晰的方式指定一个目标（和相应的子目标）来解决这些歧义，并以此让机器人在给定的任务上取得进展？此外，我们可能如何制作一般的任务表征，以帮助推广到类似的目标（例如，取一杯牛奶而不是橙汁）。更进一步，我们如何建立方法来帮助机器人学习新任务和新环境的政策（在这种情况下，是一个全新的厨房，有新的器具、电器、布局等）？

最近在应用语言和视觉的基础模型（2.1：语言和2.2：视觉）方面取得的突破表明，大规模的、自我监督的预训练在提高泛化方面有几个潜在的好处。利用不同的数据流来学习有意义的表征先验（类似于BERT和GPT-3等模型学习的那些）的能力为学习任务规范的强大的机器人基础模型带来了希望。不同的机器人交互数据可以用于学习行动条件动力学模型或策略，以索引一般和语义上有意义的技能，从而为任务学习提供了希望。然而，尽管这些机会还存在，但关键的障碍是收集正确的数据。与语言和视觉数据不同，机器人数据既不丰富，也不能代表足够多样化的实施例、任务和环境——我们（作为一个领域）仍然没有聚合于实现多面手机器人（例如，离线演示、第三人录音、以自我为中心的视频、自主体验等）。与获得正确数据规模和多样性的问题相结合，是确保安全性和健壮性的问题：我们如何在新环境中在不造成损害的情况下行事？

因此，为机器人技术建立新型的基础模型包括机会和挑战的二分法：任务规范和学习的机会，以平衡了数据收集和安全部署的挑战。本节探讨通过展示机器人基础模型可以帮助我们开发多面手机器人，不仅有意义的解决与构建系统相关的挑战，但也拥抱多模式的潜力，将感知、驱动、语言以及人机交互规范和学习。

Opportunities

机器人基础模型可以采取多种形式：机器人中的问题不容易符合一刀切的模型，因为不同的问题有不同的输入输出签名——这与NLP等领域形成对比，在这些领域，许多问题可以转换为一般的“文本输入、文本输出”签名。我们关注跨任务、环境和机器人实施例的通用任务规范和学习中的机会。

任务规范的基础模型之前机器人可以学习如何解决任务通用方式，他们必须理解所需的任务是什么：例如，在一个新厨房有用，机器人需要知道我们希望它做饭，以及行为我们希望避免。因此，开发多才机器人的第一步是建立一种可靠的任务规范的新型基础模型，即任务目标、偏好和约束的直观和有效的沟通。我们将任务规范形式化为一个过程，它将人类提供的任务描述转换为度量机器人任务完成情况和进度的定量度量——例如，奖励功能。这个信号对于优化机器人行为、诊断故障和提示人类反馈至关重要。由于描述任务的最自然方式可能因用户、环境或任务而异，任务规范的机器人基础模型应接受多种描述模式，如目标状态[Fu等人2018；辛格等人2019]，自然语言[麦格拉山等人2015；卡拉姆切蒂等人2017；米斯拉等人2017b；雷等人，2020]，互动修正[等人，2020；卡拉姆切蒂等人，2020]和物理反馈[Ross等人，2011；Bajcsy等。2017].

任务规范的通用模型的一个重要要求是转移到新环境和任务的能力。将任务描述转化为机器人学习的通用奖励信号仍然是一个开放的问题[Taylor et al. 2016]——机器人基础模型可以说非常适合这个问题。当应用于任务规范时，这样的模型应该通过从大型和广泛的数据集学习来提供更鲁棒的（4.8：鲁棒性）奖励信号——甚至利用上面列出的多种描述模式。任务规范的新基础模型的一个可能实例可能是通过对不同语言和视觉数据集的训练，从任意（语言、当前观察）对学习奖励信号的映射[Bahdanau等人2019；Fu等2019；Chen等2021c]。通过从这些广泛的、多样化的数据集中学习信息丰富的先验，这样的模型可能能够概括到看不见的语言指令和在看不见的环境中的观察。一般来说，新的基础模型能够巧妙地连接模式和广泛推广的潜力，使它们在通用任务规范中具有吸引力。

任务学习的基础模型。除了实现更通用的任务规范，机器人基础模型可以使学习解决新任务更加高效和可靠。在这种情况下，这些新类型的基础模型可能采取对行动、传感器观察、奖励和其他感兴趣的属性的联合分布的形式。对这个联合分布的不同维度的条件恢复不同的推理问题，每个问题对应不同的签名：

•动力学建模：𝑝（未来观察|行动，过去观察）[Finn和Levine 2017；Hafner等人2019；Wu等人2021d]。
•政策学习：𝑝（行动|观察，目标）[凯尔布林1993年；Schaul等人2015年；Ding等人2019年]。
•逆强化学习：𝑝（奖励函数|观察、行动）[Ng和罗素2000；Ziebart等人，2008；Finn等人，2016a]。

机器人基础模型的一个合理训练目标是以自回归方式预测上述联合分布的不同元素[Janner等人2021；Chen等人2021b，4.1：建模]。然而，这些并不是唯一的选择。特别是，机器人数据集包含大量的未标记数据，其中包括来自许多不同传感器模式的同步观测（如RGB和深度摄像机、触觉传感器、麦克风等）。以及机器人为产生这些观察结果而执行的一系列动作。这些目标可能有助于从未标记的数据中训练强大的机器人基础模型——只要数据表现出不同的、有意义的行为。2.3.2：机器人技术-挑战讨论了进一步收集此类数据的挑战。

在语言和视觉方面，基础模型已经证明了从大型、不同的数据集学习广泛适用的先验的能力，这些数据集随后可以适应下游任务（2.1：语言，2.2：视觉）。机器人基础模型通过利用不同的数据、自我监督目标和视觉模型所研究的方式，具有使感知和控制适应新环境、任务和实施例的潜力。考虑我们的厨房例子。要在新厨房里做饭，机器人需要适应特定的环境——它的空间布局、可用的设备等等。从线下的人体视频、机器人互动、文本和/或模拟中学习到的先验可能会编码厨房的一般方面，比如炉子通常靠在墙上，必须打开才能产生热量。这种常识性的知识、物理先验和视觉先验可以使对新环境的适应更加有效。同样，开发一个新的基础模型机器人任务学习可能使使用大量的烹饪视频训练数据集适应政策的共同技能，如“煎一个蛋”，一个特定的用户的偏好从少量的演示允许样本有效的适应。最后，由于它们具有学习前面描述的跨模态表示的潜力，机器人基础模型可以帮助实现适应新的实施例。这方面的适应对于使这些模型广泛有用至关重要。

Challenges and risks.

尽管有这个令人兴奋的愿景，但仍需要克服多个挑战。为了实现上述讨论的推广，我们必须收集具有足够大小和多样性的机器人数据集。此外，我们还需要一些机制来确保我们能够在现实世界中安全地部署学习到的行为。

数据需求和挑战。学习一个机器人的策略，通过传感器感知其环境的状态，并采取行动来完成任务，传统上需要机器人在现实世界中交互的大型数据集。另一方面，计算机视觉和自然语言处理中的许多学习任务都依赖于大型和多样化的离线数据集，这些数据集可以很容易地从网络中获取。由于现有的基础模型在语言和视觉方面的进步，我们对利用大型离线数据源来训练机器人技术的新基础模型的可能性感到兴奋。

实现这一目标的一条途径是收集大型数据集用于离线学习，例如使用远程操作[曼德勒卡等2019]、动觉教学[沙玛等2018]，或自主方法[平托和古普塔2016；古普塔等2018；莱文等人2018；达萨里等人2019；卡拉什尼科夫等人2021；陈等人2021d]，这在泛化方面显示了一些有希望的迹象。同时将机器人数据收集扩大到视觉和语言数据集的规模[邓等2009；克里希纳等2017；Raffel等人2019；高等人2020a]仍然是一个开放的挑战，机器人数据集的规模和质量表明，它们可以在学习机器人基础模型方面发挥重要作用。此外，由于机器人有主动和自主地塑造环境的能力，它们应该能够大规模地生成目标的未标记数据。

考虑到学习控制具有挑战性的闭环特性，收集与视觉和语言中使用的规模相当的数据集对于机器人技术来说可能是不够的。一个令人兴奋的选择是额外利用外部的、非机器人的数据来源，如人类的视频或现有的视觉和自然语言数据集。这类数据是多样的，在网络上大量存在[邓等2009；李等2012；海尔布伦等2015；Goyal等2017a；Damen等2018年；高等2020a；格劳曼等2021年]，如果适当利用，提供广泛泛化的可能性。优雅地解决机器人的领域与网络视频或语言之间的差距仍然是一个开放的挑战；然而，最近在领域适应方面的进展[史密斯等人2019；在机器人中使用预先训练的视频和语言模型[Lynch和Sermanet 2020；邵等人202020；陈等人为缩小这一差距提供了有希望的方向。

最后，仿真提供了大量丰富的交互式数据，机器人可以从中学习，通过一系列的传感器模式，如呈现的视觉效果、点云和模拟的触摸/音频。然而，一个主要的挑战在于弥合模拟和现实世界之间的差距，无论是在底层物理方面，还是在环境和任务的语义分布方面。最近的研究表明，通过使用广泛的领域随机化，任务从飞行[萨德吉和莱文2017]到接触丰富操作[马勒等2017；OpenAI等人2019]和运动[彭等2020；黄博等人2029]技能模拟中可以成功转移到真实机器人，真实世界的语义和视觉分布可以通过扫描模拟[Chang等人2017；Kolve等人2017b；Savva等2019a；Szot等2021；沈等2021a]。虽然这些都是缩小模拟到真实的差距的有希望的步骤，但有效的和一般的操作和运动技能的模拟到真实的学习仍然是一个开放的挑战。模拟数据、真实的机器人数据、人类视频和自然语言数据

安全性和鲁棒性。使机器人的新基础模型的开发更加复杂的是，确保它们在现实世界中训练或部署它们时的安全性和健壮性。我们可以期待这些机器人模型的安全风险不同于它们的语言模型，因为实体代理被授权在物理世界中直接操纵和与周围环境交互。基于学习的系统的一个核心安全挑战是在收集数据之前需要指定系统安全约束的鸡和蛋的问题，在此之后可能会出现需要额外约束的不可预见的不安全行为。例如，在培训分布之外适应新厨房的代理需要足够的安全保障，以确保安全的数据收集，这可能会对任务执行产生不利影响，或导致代理以新的方式失败。解决这个问题的一种方法是限制环境的复杂性或增加机器人的复杂性，这样通过构造就可以避免不可恢复的状态或不安全的行为。机器人还可以自动重置环境，以促进从大规模数据收集中不间断地学习（或适应）(Eysenbach等人2017；Gupta等人2021b]。这将意味着要么确保厨房里没有任何东西是易碎的，要么确保并更换代理在试图收集数据时可能损坏的物品。

为了解决机器人基础模型带来的风险，无法概括或产生意外行为的新刺激，潜在的未来方向包括开发代理的因果分析[德乐等人2021]、新的正式安全评估工具和现实的模拟环境[Corso等人2020；德罗西等人2017；朱利安和科钦德费尔2019年]。最后，为机器人基础模型提供正式的安全保证，例如，安全集的哈密顿-雅可比可达性[Chow等人2018；Fisac等人2019；赫伯特等人2021]或开发对人类操作员具有可解释性（4.11：可解释性）的学习安全边界，将有助于降低这些模型带来的风险[Berkenkamp等人2017]。随着这些新型基础模型的开发和研究的进展，解决这些挑战将是至关重要的。

结论虽然机器人基础模型的前景是众多的——跨越了从任务规范到任务学习的机器人管道的多个层次——但这些挑战是重大的。在物理世界中收集涵盖不同环境和实施例的数据是一个相当大的障碍，确保此类系统的安全性和健壮性同样迫切。尽管如此，我们的乐观情绪依然盛行；现在就解决这些挑战，在开发模型之前，我们提供了一个机会来确定如何从正确的来源收集正确的数据，以正确的规模，以我们想要的能力建立安全可靠的机器人基础模型。

支撑这一节的一直是一个多模态的主题。机器人基础模型——在所有可能的实例中——已经并将继续受益于人工智能的其他子领域的工作，如语言和视觉（2.1：语言，2.2：视觉）。然而，当我们考虑将这些扩展从其他领域，有跨学科的挑战在地平线上接触基础模型的其他方面：系统创新培训和部署这样的模型实时机器人（4.5：系统），创新的接口健壮的人机交互（2.5：交互），和教训将我们更好地掌握这些模型的安全性和鲁棒性（4.9：ai安全，4.8：鲁棒性）。围绕一般的基础模型，特别是机器人基础模型，建立一个可靠的生态系统和深思熟虑的研究实践，是实现这些目标的关键。

Reasoning and search

在这里插入图片描述图9。多模态可以允许基础模型不仅原因与正式的符号语言，还利用视觉方面的问题，如等价、对称，和欧几里得几何，修剪无限搜索空间和找到有前途的结构解决方案（2.4.1：推理任务），模仿人类对几何问题的推理。

推理和搜索一直是人工智能历史上的一个中心主题。从战略游戏到抽象的数学发现，经典的智力测试都是一个鼓舞人心的目标帖子，通过设计出更聪明的方法来寻找成功的解决方案，从而突破了“机器智能”的极限。在早期，符号方法是推理的主要方法[罗素和Norvig 2020]，但涉及的工程工作和形式化启发式以解决棘手的搜索空间的需要很快被证明是麻烦的。最近，使用神经网络的数据驱动方法显示出了令人鼓舞的结果——例如，通过利用统计结构和学习有用的启发式，击败了Go [Silver et al. 2016]，一个比经典的国际象棋挑战具有更大的行动空间的棋盘游戏。本节概述了现有的推理任务，这些任务需要扩展到更大的搜索空间，并广泛地理解世界（2.4.1：推理任务）。然后，我们在2.4.2中论证：基础模型应该在一般推理中发挥核心作用，以捕获无界搜索空间的统计规律，允许任务和场景之间的积极转移（普遍性），并在多模态环境中利用知识的基础（接地）。

What are the current tasks?

许多推理问题构成了无限的搜索空间，其中系统必须处理多种开放式的备选方案。考虑尝试证明一个具有𝐴𝐵=𝐴𝐶的等腰三角形△𝐴𝐵𝐶的角度∠𝐵和∠𝐶相等（图9）。一个系统可以在每一步的推理中执行任意数量的动作。例如，系统可以添加一个具有任意构造的新的辅助点，比如垂直线、平行线或切线圆，而搜索空间只会随着图变得更复杂而变大。证明这个定理的一种方法是画一条线𝐴𝐷，即𝐴的角平分线，并使用两个三角形△𝐴𝐵𝐷和△𝐴𝐶𝐷的同余来显示∠𝐵=∠𝐶，但是在没有广泛的搜索下系统如何找到它呢？

在这里插入图片描述图10。左：基于机器学习的药物反合成规划器AiZynthFinder预测的1,6-七二烯-3,5-二酮的反应途径[Genheden等，2020；吉川等，2021]。右图：命题逻辑中的样本证明树，其中绿色列出的公式表示公理。虽然它们来自不同的领域，但这两种树在结构上是相同的。

更一般地说，数学家并不局限于对图结构和欧几里得定理的搜索：数学家可以应用来自不同数学分支的大量定理，做出高级猜想，形式化新的数学概念，或者找到反例。这与围棋等更具结构化的人工智能挑战形成了鲜明对比，围棋的搜索空间被认为要小得多。

除了定理证明之外，许多现实世界的问题都涉及无界搜索空间，如程序合成[Gulwani等人2017]、药物发现[Drews 2000]、化学合成[Segler等人2018]、计算机辅助设计[Haigh 1985]、组合优化[Bengio等人2021]等。这些推理问题往往表现出类似的结构，像药物发现之间的反合成和定理证明命题逻辑，如图10所示：在这两个问题中，一个是构建合成树，一边的节点是化学产物和命题，和叶子节点的产品，和结束公理。在这些问题中，通常提供一个模拟环境，它允许求解器运行几个搜索线程来构建解决方案树。模拟器通常提供中间反馈，例如，在证明被认为完成之前，将剩余的命题通知解决者。求解器需要选择最有前途的搜索线程，并基于中间反馈进行。

最近，人们对应用基于学习的方法来解决推理问题的兴趣激增。为了克服无界搜索空间的挑战，研究人员首先从一个有限的搜索空间开始，使问题易于处理[Huang等人，2018；Bansal等人，2019]。但这种方法受到了解决方案可能采取的有限行动的影响。例如，求解器只能应用已知数据库中的定理来证明目标定理，而不能综合新的定理和引理。因为大型语言模型提供了一种将输出空间建模为序列的通用方法，所以它们很快成为一个更有利的选择，允许生成任意类型的操作。研究人员已经将这些基于语言模型的方法应用于各种应用，如预测蛋白质结构[高级等人2020]，证明形式定理[波鲁和苏茨克弗2020；汉等人2021]，推测定理，从自然语言合成程序[陈等人2021f；凌等人2016]，修复、生成和理解代码.研究还表明，缩放模型大小显著提高了推理能力[Polu和苏茨克弗2020]，而且来自语言建模的标准技术，如预训练，也可以大大提高这些任务的性能.

What’s the role of foundation models?

生成性。我们认为，基础模型的生成能力对有效的推理至关重要。由于存在无界的搜索空间，因此要列举各种可能性变得很困难。相反，使用基础模型，人们可以对最优决策的分布进行建模，并生成合适的候选对象来进行下一步。特别是，由于基础模型提供了一种将输出空间建模为序列的通用方法，因此下一代决策是完全不受约束的，因此是通用的。这种灵活性对于我们所讨论的许多推理挑战都是必不可少的，以允许在数学猜想等领域进行创造性的生成[Li等人2021b]和综合新的程序[Chen等人2021f]。随着基础模型的扩展，捕获这种统计结构的能力也在巨大增长[波鲁和苏茨克弗2020]。
普遍性。正如我们在上一节中提到的，许多推理问题都表现出类似的潜在结构。我们相信，由基础模型施加的统一框架可以跨任务转移和共享重要的启发式，从推广对一个任务工作有效的低级技术到新的场景，一直到直接找到在各种问题中工作良好的元技术。此外，由于基础模型是跨多个领域进行训练的，它可以正向转移基础模型权重中编码的元知识[帕帕迪米特里奥和尤拉夫斯基2020；Wu等2021f；Lu等2021a]。基础模型训练和适应框架鼓励关注点的分离，基础模型训练学习元知识，如药物反合成和命题逻辑证明之间的共享搜索树结构，适应阶段可以集中学习特定任务的词汇。因此，基础模型可以降低自适应阶段学习问题的复杂度，提高样本的复杂度和泛化性。
接地。推理问题通常很容易用符号语言来表达（例如，数学、代码、分子的微笑表示）。然而，这些符号具有深层的语义意义——“等腰三角”在人类头脑中描绘出生动的形象。基础模型可以实现深层的基础和语义意义。首先，以其他形式的基础表征，如视觉或物理，对于在推理任务中掌握抽象概念并赋予它们具体的意义至关重要[拉金和西蒙1987；Jaminik2001]。由于这些模型可以在多种模式上进行训练，因此基础模型可以帮助理解一系列的数据源（例如，图像、文本）。因此，在几何例子中，通过对在自然图像中学习到的几何形状的理解，基础模型可以有效地利用问题的图解表示。然而，在推理中对齐的多模态数据非常稀缺，而且基础模型是否能够以无监督的方式发现不同模态之间的联系（例如，发现与相应的代数方程的交换图）仍然是一个有待解决的问题。此外，即使在符号领域内，符号也可以有不同层次的解释。例如，可以将高级的编程语言翻译成低级的汇编代码。基础模型可以学习包含这些不同视图的共享表示。过去的研究表明,自我监督的任务[Han等人.2021；彭等人2021；Li等人2021a]允许模型理解高级代码代码背后的内部工作。

Future challenges in reasoning.

由于这些问题的内在困难，与原始图像和文本相比，高质量的注释数据非常稀缺，而且更难收集。人们已经多次试图减轻这一问题。在数学方面，研究人员提出生成综合定理，希望将其推广到现实定理[王和邓2020；20；吴等人2021a；Firoiu等人2021；Zhou等人2021c]。另一种方法是设计自我监督任务以增加数据集[安永和梁2020；任等2020；韩等2021；Roziere等2021；安永和梁2021]，或更好的训练前目标[Wu等2021f]。然而，我们在设计自我监督任务时仍然缺乏一般的原则方法，因为大多数现有的工作都是针对特定的问题设置量身定制的[安永和梁2020；任和Leskovec 2020；Han et al. 2021]。建立一个基础模型将鼓励一个统一的框架，构建一套可以应用于所有推理问题的自我监督任务。此外，交互性（2.5：交互），有足够的可伸缩性，缓解数据稀缺问题通过把人类进入循环最低限度地指导学习课程或数据增强过程，例如，在选择公理添加或猜想探索，而互动工具本身是一个激励使用基础模型进行推理[韩等2021；陈等2021f]在帮助人们的认知要求最高或最费力的方面。解释友好的交互工具可以通过帮助人类学习高能力的基础模型，在教育中找到进一步的教育应用。

提高高级推理能力是现有基础模型面临的核心挑战。人类在解决困难的问题解决任务时执行抽象推理和高级规划[Miller et al. 1960]。例如，在构建一个软件工具或证明一个定理时，我们通常从一个高级草图开始，然后深入研究低级细节[科丁格和安德森1990]。现有的基础模型没有经过训练来生成这样的高层计划。相反，他们往往只关注于预测下一个低水平的步骤[波鲁和苏茨克弗2020；Han等人2021；Chen等人2021f]。不幸的是，为了训练基础模型来模拟类人推理，我们再次面临着数据收集的挑战。尽管这些数据确实存在于有限的环境下[Li et al. 2021b]，但一般来说，用于高级推理的数据稀缺且难以收集。一个研究方向是在学习过程中让抽象和模块化的层次结构自行出现[Ellis等人2021；Hong等人2021]，但如何将这些方法扩展到更普遍和更现实的环境仍然是一个开放的问题。

除了这些挑战之外，还有许多开放式问题对其他部分中讨论的主题也至关重要。什么构成了可进行可靠推理的良好体系结构（4.1：建模）？我们如何从理论上理解和解释这些模型（4.10：理论和实际上的4.11：可解释性）？我们能否训练出稳健的推理模型，可以推广到域外问题（4.8：鲁棒性和4.3：自适应）？我们相信，对这些方面的基础模型的研究可以大大拓宽它们对推理领域的影响。

Interaction

在这里插入图片描述图11。基础模型将通过降低构建注入人工智能的应用程序的难度阈值，为开发者带来重大机会，并通过提高可实现的交互类型的上限，为应用程序用户带来重大机会。在某些情况下，开发者和用户之间的界限将开始模糊，用户可能可以轻松地开发自己的人工智能应用程序，例如使用自然语言。

早期形式的基础模型如GPT-3[布朗et al. 2020]和大卫·E[拉梅什等。2021]展示了高水平的多功能性的能力甚至nonML专家原型强大的人工智能注入应用程序，能够无缝集成模式从文本到图像。随着基础模型的发展成熟，模型的能力将继续扩大，它们的多功能性可能最终导致我们与人工智能交互方式的根本性变化，允许我们快速原型和构建高度动态和生成的注入人工智能的应用程序。在本节中，我们将从两个重要利益相关者的角度讨论这些变化带来的机会： (1)应用程序开发人员将与基础模型交互以设计用户体验；(2)将使用或受到由基础模型驱动的人工智能注入应用程序影响的最终用户。最后，我们考虑这样的场景，即今天严格区分开发者和最终用户的界限可能会开始模糊，为创造更接近满足用户需求和价值观的人工智能应用程序提供了新的机会。

Impact on AI-infused application developers’ development process.

基础模型将如何改变开发者创建注入人工智能的应用程序的方式？尽管在机器学习算法和系统基础设施方面取得了巨大进展，但一些人指出，设计新颖的、积极的人工智能交互形式仍然困难[Dove等人，2017；Cooper等人，2014]。创建一个强大的特定任务模型所需的大量数据、计算资源和技能经常与引出和满足用户需求和价值所需的迭代原型化过程相冲突[Yang et al. 2016]。

人工智能的反应可能是不可预测的，而模型可以产生巨大的生成输出空间，使人们难以建立有效的关于自己表现的心理模型，这进一步加剧了这一挑战。在解决交互式机器学习工作（例如，蜡笔[失败和奥尔森2003]、重组[Amershi等人2012]）和向最终用户传达人工智能中不确定性的设计框架（例如，混合倡议原则[霍维茨1999]）方面已经取得了一些进展。然而，仍需要做更多的工作来克服这些障碍[Yang et al. 2020]。

基础模型为解决上面提到的许多挑战提供了重要的机会。例如，基于语言的基础模型的能力将自然语言作为输入，并推广到许多下游任务，可以显著降低难度“阈值”[Myers et al. 2000]应用程序开发，也就是说，通过使开发复杂的模型而无需收集大量的数据和从头开始训练大型模型。这甚至可以使非ml专家能够快速地建立注入人工智能的应用程序的原型。与此同时，基础模型强大的生成和潜在的多模式能力可以提供一个更高的“上限”[Myers等人，2000]，说明在质量和多样性方面可以实现的交互类型，我们将在下面讨论。然而，我们如何成功地利用这些能力将取决于我们如何有效地将基础模型分解成由应用程序开发人员更容易管理的表单。

不幸的是，与基础模型同样的普遍性和高上限，也会使这些模型难以处理，因为它们可能比单一用途的人工智能模型更加不可预测和复杂。事实上，最近的研究表明，很难使像GPT-3这样的模型一致地执行预期的任务[雷诺兹和麦克唐纳尔，2021]，而理解它的能力仍然是一个活跃的研究领域[Hendrycks等人，2021a]。为了提高人工智能注入应用的可靠性和可信度，我们建议未来的工作应该继续研究如何从基础模型中实现更可预测和健壮的行为(例如，通过微调，或在交互的主要模式是自然语言提示的情况下，通过提示工程[雷诺兹和麦克多纳2021；2021；Liu等人2021d]，校准[Zhao等人2021]，或预先格式化特定任务的端点。18详情请参见4.8：健壮性)。

Impact on end-user interaction with AI-infused applications.

除了开发人员可能创建注入人工智能的应用程序的新方式之外，模型将为与这些应用程序交互的体验带来什么改变？现有的开发面向用户的人工智能应用程序的设计框架专注于增强（而不是取代）用户的能力，正如道格拉斯·恩格尔巴特[恩格尔巴特1963]所描述的那样——我们期望这些框架应该并且将继续与未来的人工智能应用程序的开发相关。例如，维护用户的代理和反映他们的价值观将继续是基础模型驱动的应用程序的中心主题。此外，允许人工智能代理主动和自动执行用户程序的好处与等待用户直接操作的好处[施奈德曼和梅斯1997]将需要仔细权衡[Horvitz 1999]。此外，用户的价值应该通过参与式[Lee等人2019年]和价值敏感设计[Smith等人2020年]等过程直接收集和反映，这些过程主张在人工智能注入应用程序的设计过程中积极参与所有利益相关者。

这些问题在基础模型中可能会变得特别突出，因为该模型的行为方式可能会让用户和社区感到惊讶和失望。生成能力可能会暴露出与社区目标相反的偏见或观点，或者更隐蔽地，在没有社区意识到的情况下，在他们的行为中利用这些联想。这将给利用基础模型来监测其模型行为的群体带来很大的负担，并在可能的范围内，使他们以适当的方式采取行动。

虽然考虑注入人工智能的应用程序以增强用户能力的设计框架应该保持不变，但由于基础模型具有强大的生成和多模态能力，可实现的实际交互形式可能会显著多样化。早期的可以认为是基础模型驱动的软件工具多媒体创建和编辑已经开始推动一个新前沿，使新手内容创造者生成高质量的多媒体从粗糙的、直观的规范（例如，协作创作作家[李等2022]，文本图像生成数字艺术家，19掌握音乐家，20和代码完成programmers）.21改进基础模型可能使更雄心勃勃的工具（例如，粉丝可能提供主题材料歌曲将生成的风格他们最喜欢的乐队，或企业主可能提供简单的描述他们的产品将用于创建一个完整的网站）。此外，基础模型将用于丰富静态多媒体（例如，自动改写遗留多媒体内容到新的格式，或生成独特的经验为每个玩家在新的视频游戏），甚至可能导致新形式的多模式交互使用界面本身混合不同的模式，如视觉和基于手势的交互。

我们开始看到基础模型是如何在人工智能地下城22到微软PowerApps23和副驾驶等应用中实现具体的交互的。当我们开始设想新的互动形式时，我们越来越重要地思考这些互动对个人用户和社会的潜在影响，以最大限度地发挥它们的积极影响。例如，基于模型驱动的应用程序将如何改变我们彼此之间通信的方式？一个强大的模式会代替我们写电子邮件吗？如果是这样，这将如何重塑人们的信任、可信度和身份，知道作者可能没有自己写电子邮件，这将如何改变我们的写作风格[汉考克等人，2020年]？谁将拥有模型生成内容的作者？同意的责任和所有权如何被滥用[Weiner2018]（见5.5：更深入的讨论）？基础模型将对我们的工作、语言和文化产生什么长期影响[汉考克等人，2020年；Buschek等人，2021年]？与最后一个问题特别相关的是，基础模型是根据观察数据进行训练的，并不一定告诉我们因果关系。因此，我们如何确保基础模型的使用引导我们走向一个期望的未来，而不是重复过去？虽然这些问题不一定是基础模型所特有的，但随着基础模型加速有效的人工智能应用程序的创建，它们将被放大并变得更加普遍。

Blurring the line between developers and end-users.

今天，人工智能模型开发人员和最终用户之间的界限是僵化的——终端用户很少拥有数据、计算资源和专业知识，能够开发出适合自己价值观和需求的新模型。虽然在某些情况下，通用模型（即不是特定用户或特定社区的模型）就足够了，但近年来，在越来越多的情况下，这种模型不能为用户服务。

例如，一个文本分类模型设计来识别有问题的评论一个在线社区可能适合社区，但将失败在其他人的规范和文化可能存在显著差异（例如，NSFW社区Reddit可能更容忍某些内容，而科学社区可能拒绝看似平凡的轶事，不是基于科学研究）[钱德拉塞卡兰等et al. 2018]。在另一个例子中，针对一个目标人群设计的人工智能传感器和机器人工具可能无法快速适应具有不同能力和需求的用户[Caramcheti等人，2021年]。虽然最近的工作为未来研究最终用户如何通过手动提供模型的参数或数据集（例如，人工智能[Lee et al. 2019]）共同创建AI模型，但结果仍然是初步的，往往集中于基本模型。

如果基础模型能够充分降低构建注入人工智能的应用程序的难度阈值，那么它们就可以提供一个重要的机会，通过允许用户积极参与模型的开发过程，将用户的需求和价值与模型的行为更紧密地结合起来。例如，最近的研究表明，当GPT-3在其自然语言提示中给予足够的任务描述时，它可以以几个镜头甚至零镜头的方式稳健地执行分类任务[Brown et al. 2020]。在线社区试图调节自己的内容可能能够利用这样一种能力来创建定制的人工智能分类器过滤内容基于分类任务描述，社区已经同意（当然，这种权力也可能被滥用沉默的声音某些成员在社区我们指出5.2：滥用进一步讨论这个话题）。此外，基础模型将展示的强大的上下文学习能力可能允许基础模型驱动的应用程序在每个用户的基础上更有效地优化其界面。这可能为解决人机交互和机器人交互中的许多突出问题打开了大门，比如在混合自主设置中平衡用户的直接操作和自动化的能力。

当然，我们仍然需要克服一些重要的挑战，才能真正实现这种模糊用户和开发者之间界限的潜力。这些挑战包括减轻现有的偏见在基础模型，以及使模型的行为更加健壮和可管理甚至non-ML专家（ML专家相比，它可能更难non-ML专家理解基础模型的全部能力和机制，这可能导致意想不到的缺陷在开发周期[杨et al. 2018]）。未来的工作应该探索如何将基础模型置于交互式机器学习的背景下，并研究我们如何支持那些对机器学习经验有限的人，以一种健壮的方式利用这些模型。尽管如此，终端用户能够参与开发人工智能应用程序的能力是一个令人兴奋的机会，这可能为我们未来如何与这些应用程序交互引入一个新的范式。

Philosophy of understanding

一个基础模型怎么能理解它所训练的数据呢？这个问题的答案将会提供关于基础模型对智能系统的贡献的总体能力的极大信息。在本节中，我们将重点关注自然语言的案例，因为语言的使用是人类智力的一个标志，也是人类经验的核心。

目前最好的基础模型可以以惊人的流畅性消费和产生语言，但它们总是陷入不连贯性，表明它们只是“随机鹦鹉”[Bender et al. 2021]。这些失误是内在局限性的证据，还是未来的基础模型会真正理解它们所处理的符号？

我们在本节中的目的是澄清这些问题，并帮助围绕这些问题构建辩论。我们首先解释我们所说的基础模型，特别注意基础模型是如何被训练的，因为训练制度界定了模型获得的关于世界的信息。然后，我们将讨论为什么澄清这些问题对于进一步发展这些模型很重要。最后，我们试图阐明我们通过理解的意思，解决理解是什么（形而上学），以及我们如何可能来可靠地确定一个模型是否已经实现了理解（认识论）。

最终，我们得出结论，对未来模型理解自然语言的能力的怀疑可能还为时过早。基础模型单独能够实现理解绝不是不明显的，但我们也不知道有明确的理由认为它们不能实现理解。

What is a foundation model

对基础模型没有一个精确的技术定义。相反，这是一个大型模型家族的非正式标签，而这个模型家族很可能会随着时间的推移而增长和变化，以响应新的研究。这对对它们的基本属性的推理提出了挑战。然而，所有的基础模型都有一个共同的定义特征：它们是自我监督的。我们关注的是自我监督是模型中唯一的正式目标的情况。

在自我监督中，该模型的唯一目标是学习它所训练的符号序列中的抽象共现模式。这个任务也使许多这些模型能够生成可信的符号字符串。例如，许多基础模型的结构都是这样的，人们可以提示它们像“三明治含有花生”，并要求它们生成一个延续——比如“黄油和果冻”。其他模型的结构都是为了更好地填补空白；你可能会提示一个带有“三明治含有__和果冻”的模型，并期望它填满“花生酱”。这两种功能都来自于这些模型从其训练数据中提取共现模式的能力。

这种自我监督并不能告诉模型任何关于这些符号的含义。它直接得到的唯一信息是关于哪些词倾向于与哪些词同时出现的信息。从表面上看，知道“三明治中含有花生”很可能会继续使用“黄油和果冻”，这并没有说明三明治是什么，果冻是什么，这些东西将如何组合，等等。这似乎表明了基础模型所能实现的内在限制。然而，我们不需要将模型限制为只查看文本输入。只要它只是学习它所暴露的序列的共现模式，那么根据我们的定义，它就可以一个基础模型。作为学习的一部分，该模型可能会表示给定文本片段和特定传感器读取之间的强关联，或者像素值序列和数据库条目之间的强关联。这些联系可能反映了我们所居住的世界的重要方面，以及我们用来谈论它的语言。

What is at stake?

在考虑分析理解是什么之前，有必要反思一下为什么我们可能会关心一个基础模型能否实现它这个问题。这些模型将被用于具有各种功能的许多目的。我们在部署中的一些目标可能只能在模型能够理解的程度上才能实现。这里我们列出了几个这样的目标：

信任：有人可能会说，我们不能信任一个系统的语言行为，除非它理解它正在使用的语言。当然，我们目前相信工程系统会做一些事情（例如，制造汽车零部件），甚至没有产生理解的问题，但语言在这方面可能是特殊的，因为它是独特的人类。此外，语言还可以用来欺骗和歪曲事实，因此，理解本身显然并不意味着信任。总的来说，理解可以被视为在语言使用的环境中建立信任的必要条件。

可解释性：如果真正的自然语言理解在某种程度上涉及维护和更新一个世界的内部模型（包括，例如，语音上下文），如果我们（工程师）能够分析语言输入和输出接口与这个内部模型，可以获得大量的可解释性，可预测性和这些系统的控制。

问责：与前面的观点无关，未来我们可能会发现以某种方式对人工产生的语言负责是可取的[HAI适应代理集团2021]。根据我们对责任、责任、代理等概念的看法，语言理解可能成为先决条件。

仅仅是理解将在任何这些问题中发挥不可或缺的作用的可能性，就提供了建立一个理论化框架的强大动力。

什么是理解？

我们的中心问题是，一个基础模型是否可以用来理解一种自然语言。有了以上内容，我们现在可以提高它：自我监督是否足以理解，记住，用于这个监督的数据没有限制？为了解决这个问题，我们首先需要定义我们的理解意思。

作为一个开始，我们发现明确区分一个有时在讨论该主题时被混淆的区别是有帮助的。其区别是形而上学和理解的认识论之间的区别。形而上学关注的是一个实现理解的主体（“原则上”）意味着什么。相比之下，认识论关注的是如何（“在实践中”）我们能够知道一个主体已经达到了相关类型的理解。简而言之，形而上学更多的是关于我们的最终目标，而认识论更多的是关于我们如何（如果有的话）可以知道当我们达到它。因此，我们的认识论在一定程度上取决于我们的形而上学。

理解的形而上学。语言哲学为理解自然语言提供了许多替代选择。为了简洁，简化了景观，以下三大类观点都与人工智能和自然语言处理的研究路线有关：

内在主义：语言理解相当于为了响应语言输入而对正确的内部表征结构的检索。因此，如果没有丰富的内部概念库，语言理解甚至是不可能的。
引用主义：粗略地说，当一个代理能够知道该语言中的不同句子需要什么才能成为真实的（相对于一个上下文）时，他们就能理解该语言。也就是说，单词有指称，（陈述性的）话语是真实可评价的，理解涉及到一种相对于情境或场景的呈现来评估它们的能力。
实用主义：理解不需要内部表征或计算，真理和参考也不是基本的。相反，重要的是代理应该倾向于以正确的方式使用语言。这可能包括对推理或推理模式的倾向，适当的会话动作，等等。至关重要的是，相关的语言能力构成了理解能力。

虽然这是一个关于可能性空间的简化图片，但我们已经看到了它们是如何以完全不同的方式与上述目标联系起来的。例如，根据实用主义者的观点，实现语言理解并不意味着我们信任或解释系统的能力，因为它不能保证主体的内部结构或它与（非语言）世界的关系。相比之下，在内在主义的观点中，至少强烈提出了一种相当稳健的内部/因果可解释性。一个基础模型能否在原则上理解语言的问题具有一个非常不同的特征，这取决于我们所采用的这些形而上学的特征。

内在主义和参照主义都可以被定义为一个映射问题：将一个语言符号与“意义”或“语义值”联系起来。对于内部主义，这将是一个表示或概念，一个用于计算值的程序，或一些其他类型的内部对象。对于引用主义来说，它可能是从一个单词到一个外部引用的映射，或者是从一个情况到一个真值的映射（所有这些都相对于一个上下文）。自我监督是否足以在基础模型中实现所需的映射？在这里，培训例子的性质可能是相关的。如果该模型只接收语言输入，那么它学习这种映射的能力可能会从根本上受到限制，从而阻止它学习相关意义上的参考。（事实上，梅里尔等人[2021]确定了一些理论上的限制，尽管是在对学习符号意义的含义的非常强烈的假设下。）然而，如果输入符号流包括世界上事物的各种数字痕迹——图像、音频、传感器等。–那么，共现模式可能包含足够的信息，使模型为所需的映射诱导高保真代理。对于参照论，还有一个进一步的问题，即这些代理如何与现实世界相关联，但同样的问题也出现在人类语言使用者身上。

本德和科勒[2020]给出了一个有趣的论点，结合了参照主义和实用主义。他们想象一个代理O，拦截两个说自然语言的人之间的交流。O居住在一个与人类非常不同的世界，所以没有必要的经验来把人类的话语在参照主义要求的方式。尽管如此，O还是从人类的话语模式中学习到这样的程度，直到O甚至可以成功地假装自己是人类中的一员。本德和科勒然后寻求激励的直觉，我们可以很容易地想象的情况下O无法地面L在人类的世界将揭示自己，这将反过来揭示O不理解L.指导假设似乎是世界的复杂性是如此之大，没有再多的文本交换可以完全覆盖它，和差距最终会揭示自己。在我们所定义的术语中，不能引用被认为意味着代理没有处于正确的理解的性格状态。

从根本上说，Bender和Koller描述的场景是，一些用于理解的关键信息缺失了，一个简单的行为测试揭示了这一点。我们可以同意这一评估，而不能得出基础模型一般无法理解的结论。这再次让我们回到所涉及的培训数据的细节。如果我们修改本德和科勒的场景，这样传输包括数字编码图像，音频，和传感器读数从人类的世界，和O能够学习联系这些数字痕迹和语言单位，那么我们可能更乐观——可能有一个实际问题关于O的能力获得足够的数据概括，但也许不是一个原则上限制O可以实现什么。

我们初步得出结论，没有一个简单的先验理由来认为，我们三种立场中任何一种的理解都不能以相关的方式学习。由于这种可能性仍然存在，我们面临着困难的认识论挑战，即澄清我们如何希望评估潜在的成功。

认识论的理解。实用主义的一个积极特征是，通过将成功与具体行为的表现联系起来，对于如何测试它并没有很大的概念谜题。我们只需要说服自己，到目前为止，我们对系统行为的有限观察表明了我们对我们认为作为目标的更一般的行为类别的可靠倾向。当然，就适当的目标达成一致是非常困难的。当提出具体的建议时，它们总是会遭到反对，而且往往是在证明了假定的成功之后。

图灵测试的历史在这里是有指导意义的：虽然许多人工代理已经通过了实际的图灵测试，但没有一个被广泛接受为智能的。类似地，近年来，在NLP中提出了一些基准任务来评估理解的特定方面（例如，回答简单的问题，执行常识性推理）。当系统超过了我们对人类表现的估计时，社区的反应通常是说该测试是有缺陷的，而不是说已经达到了目标。可能有一些行为是我们真正的目标，但它只是很难限制或变成一个实际的测试。不过，这可能揭示了内在主义或参照主义是我们一直想要的。

如果我们把内在主义或参照论作为最终目标——我们理解的黄金标准——那么行为测试作为一种评估理解是否已经达到的手段，充其量永远是不完美的。缺陷是双重的。首先，行为测试总是有差距，可以让简单的模型顺利通过。其次，一个系统可能已经实现了这些视图所需的映射，但我们可能无法通过行为测试来显示这一点。最近使用GPT-3模型的经验表明，这可能会变得多么具有挑战性：根据人们使用的提示，人们可以看到令人惊讶的连贯输出或完全的废话，所以及时的工程需要深入的专业知识.

因此，内在主义和参照主义都需要结构评估方法，使我们能够研究它们的内部表征，探索它们的信息[Tenney等人2019；2019；曼宁等人2020]，研究其内部动态[2017]，并可能根据支持因果推理的特定实验协议积极操纵它们[维格等人2020；盖格尔等人2020]。我们从关于复杂基础模型的内部工作的实际实验中学到的东西可能存在基本的限制，但很明显，当我们的目标与内部主义或参照主义相一致时，这些方法将是有用的。

Moving the discussion forward.

很明显，对于基础模型是否能够理解语言这个问题，似乎没有简单的答案。甚至要开始解决这个问题，就必须解决一个困难的形而上学问题，关于这个问题有许多本质上不同的观点。形而上学的问题变成了一个认识论问题，带来了许多实际挑战。尽管如此，上述讨论确实引出了一个实际的结论：如果将基础模型作为人工代理中的语言理解的路径，那么多模态训练机制很可能是最可行的策略，因为它们似乎最有可能为模型提供必要的信息。那么，自我监督是否足够，这是一个完全开放的问题。