（精读论文）Foundation Models in Robotics= Applications, Challenges, and the Future

最新推荐文章于 2025-04-27 20:03:06 发布

ai___小学生

最新推荐文章于 2025-04-27 20:03:06 发布

阅读量2.3k

点赞数 30

文章标签： chatgpt 机器人人工智能

本文链接：https://blog.csdn.net/m0_56205207/article/details/142761894

版权

在这里插入图片描述
“Foundation Models in Robotics: Applications, Challenges, and the Future”，作者是来自斯坦福大学、普林斯顿大学等多所高校的研究人员。文章介绍了预训练基础模型在机器人领域的应用，探讨了其面临的挑战和未来发展方向。以下是我对文章的分析与提炼，精读可看后文。

研究背景

传统的机器人深度学习模型是在针对特定任务的小数据集上进行训练的，这限制了它们在不同应用中的适应性。而预训练的基础模型在互联网规模的数据上进行训练，具有更好的泛化能力，在某些情况下还能对训练数据中未出现的问题找到零样本解决方案。这些基础模型可能有助于提高机器人自主性的各个方面，从感知到决策和控制。然而，在将基础模型应用于机器人领域时，仍然存在一些挑战，如机器人相关训练数据的稀缺、安全保证和不确定性量化以及实时执行等。

基础模型介绍

术语和数学基础

标记化（Tokenization）：将字符序列划分为更小的单元（标记），可以是字符、单词片段、完整单词或句子部分。不同的基础模型采用不同的标记化策略，如GPT系列使用字节对编码（Byte-Pair Encoding）。
生成模型（Generative Models）：学习从概率分布中采样以创建与训练数据相似的数据示例，可以是无条件的或有条件的。
判别模型（Discriminative Models）：用于回归或分类任务，学习区分不同的类别或类别之间的边界。
Transformer架构：大多数基础模型基于Transformer架构，其关键创新是多头自注意力机制，能够并行计算，提高训练和推理速度。

大型语言模型（LLM）

具有数十亿参数，在数万亿个标记上进行训练，如GPT-2、BERT等。
可以在自然语言处理任务中取得最先进的性能，并且可以进行微调以适应特定的用例。

视觉Transformer（ViT）

将图像视为图像块的序列，通过添加位置信息和使用自注意力机制来处理图像分类、分割和目标检测等计算机视觉任务。
例如ViT-G、ViT-e和ViT-22B等模型。

多模态视觉 - 语言模型（VLMs）

接受不同模态的输入，如图像和文本，用于分析视觉数据并提供跨模态理解。
例如CLIP模型，通过对比学习来联合训练文本编码器和图像编码器，以最大化图像和文本嵌入的余弦相似度。

具身多模态语言模型

将真实世界的传感器和驱动模态纳入预训练的大型语言模型中，如PaLM-E模型，它不仅在互联网规模的通用视觉 - 语言数据上进行训练，还在具身的机器人数据上进行训练。

视觉生成模型

提供零样本文本到图像的生成能力，如OpenAI的DALL - E和DALL - E2模型，它们在互联网上的数亿个图像 - 字幕对数据上进行训练。

基础模型在机器人领域的应用

机器人决策制定和控制

语言条件模仿学习用于操作：学习一个基于当前状态和语言指令的目标条件策略，用于机器人操作任务。例如Play - LMP从远程操作的游戏数据中学习，CLIPort结合CLIP的语义理解和Transporter的空间精度进行视觉 - 基于操作的任务。
语言辅助强化学习：将基础模型（如LLM和VLMs）集成到强化学习问题中，以提高机器人的策略学习能力。例如Adaptive Agent（AdA）是一个基于RL的基础模型，通过快速的上下文学习来适应开放式的具身3D问题；Palo等人提出的方法通过整合LLM和VLMs来解决机器人操作任务中的核心RL挑战。
语言 - 图像目标条件价值学习：构建一个价值函数，用于对齐不同模态中的目标并保持时间一致性。例如R3M为机器人操作提供预训练的视觉表示，VIP是一种自监督的方法，用于学习视觉目标条件价值函数和表示。
机器人任务规划使用大型语言模型
语言指令用于任务规范：LLMs可用于为复杂的长期机器人任务提供高级任务规划，例如SayCan使用LLM进行高级任务规划，并通过学习价值函数将指令与环境相关联。
代码生成用于任务规划：LLMs可以生成实现高级任务所需的任务序列代码，例如ProgPrompt使用LLMs直接生成动作序列，Code - as - Policies探索使用代码编写LLMs根据自然语言命令生成机器人策略代码。
上下文学习（ICL）用于决策制定：ICL在自然语言处理中广泛应用，也被用于机器人领域，通过在提示中包含示例来进行决策，无需参数优化。
机器人Transformer：基础模型可用于机器人的端到端控制，例如Xiao等人展示了使用真实世界图像进行自我监督的视觉预训练对学习电机控制任务的有效性；RT - 1和RT - 2等模型展示了在机器人操作和导航任务中的良好性能和可扩展性。
开放词汇机器人导航和操作
开放词汇导航：机器人能够理解和响应语言提示、指令或语义信息，在未见过的环境中导航。例如VLN - BERT利用多模态视觉和语言表示进行视觉导航，LM - Nav利用预训练的图像和语言模型在真实世界的户外环境中进行视觉导航。
开放词汇操作：机器人能够在未见过的环境中操作任何对象。例如VIMA从多模态提示中学习机器人操作，RoboCat是一个自我改进的AI代理，学习操作不同的机器人手臂。

感知

开放词汇对象检测和3D分类
对象检测：零样本对象检测允许机器人识别和定位从未遇到过的对象。例如GLIP通过重新定义对象检测为短语接地，学习到语言感知和语义丰富的视觉表示；OWL - ViT是一个开放词汇对象检测器，使用视觉Transformer架构和对比图像 - 文本预训练。
3D分类：零样本3D分类器使机器人能够在没有明确训练数据的情况下对环境中的对象进行分类。例如PointCLIP将CLIP的预训练知识转移到3D点云理解，ULIP是一种统一的语言、图像和点云表示，用于3D理解。
开放词汇语义分割：将图像中的每个像素分类为语义类别，提供关于对象边界和位置的细粒度信息。例如LSeg是一个语言驱动的语义分割模型，通过创建联合嵌入空间来关联语义相似的标签；Segment Anything Model（SAM）引入了一个可提示分割的框架，具有较高的灵活性，但实时性较差。
开放词汇3D场景和对象表示
语言在3D场景中的基础：将文本描述与视觉场景相结合，使机器人能够将单词与对象、位置和关系相关联。例如LERF将CLIP嵌入到密集的多尺度3D场中，产生可查询的3D表示；CLIP - Fields通过解码潜在向量来训练一个隐式场景表示，用于分割、实例识别等任务。
场景编辑：当机器人依赖于世界的隐式表示时，能够编辑和更新该表示可以提高机器人的适应性。例如CLIP - NeRF使用CLIP来解耦条件神经辐射场中形状和外观的依赖关系，实现对NeRF的编辑；DFFs通过基于查询的场景分解和编辑来更精确地编辑场景。
对象表示：学习对象之间的对应关系可以促进操作任务。例如Feature Fields for Robotic Manipulation（F3RM）基于DFF开发场景表示，用于找到对应的对象区域；从DINO特征中直接提取对象对应关系。
学习到的可供性（Affordances）：指对象、环境或实体为代理提供特定功能或交互的潜力。例如Affordance Diffusion合成手 - 对象交互的复杂图像，Vision - Robotic Bridge估计人类在场景中交互的位置和方式，并将其应用于不同的机器人学习范式。
预测模型：预测动力学模型或世界模型预测在特定代理动作下世界状态的变化。例如GAIA - 1模型生成驾驶视频的预测，COMPASS构建一个多模态图来捕获关键的关系信息，并用于解决多个机器人任务。

具身AI

通用AI：一些研究人员提出了生成式模拟器用于机器人学习，以开发通用的机器人。例如Generative Agents讨论了如何生成模拟人类行为的代理，Gato是一个通用的多模态、多任务、多具身的通用策略代理。
模拟器：高质量的模拟器或基准对于机器人开发至关重要。例如Gibson强调对具身代理的真实世界感知，Habitat是一个用于具身AI研究的模拟平台，包括Habitat - Sim和Habitat - API。

挑战和未来方向

克服训练基础模型的数据稀缺性

用游戏数据等扩展学习，通过多种方式增强数据，克服3D数据稀缺，利用VLMs增强数据，突破物理技能局限。

实时性能

基础模型推理时间是瓶颈，需提高计算效率，考虑网络可靠性，可采用回退模式或蒸馏模型。

多模态表示的局限性

多模态交互存在假设挑战，某些模态需转换后用于训练。

不确定性量化

要保证基础模型在机器人应用中的可靠性，注意概率解释区别，解决分布偏移问题。

安全评估

严格测试机器人系统安全性，包括部署前、更新期间和运行时，结合多种测试方法。

使用现有基础模型或构建新模型

可即插即用现有模型，也可构建新模型或微调现有模型。

机器人设置的高可变性

预训练任务无关等模型，捕获多样数据提高通用性。

基准测试和可重复性

依赖硬件实验影响可重复性，需结合多种方法解决。

文章目录

摘要：
I. 介绍
II. 基础模型背景
III. ROBOTICS
IV. 感知
- A. 开放词汇对象检测和 3D 分类
- - 对象检测：
  - 3D 分类：
B. 开放词汇语义分割
V. 具体化的人工智能
- A. 通用人工智能
- B. 模拟器
VI. 挑战与未来方向
VII. 结论
致谢

摘要：

我们调研了预训练基础模型在机器人领域的应用。机器人领域的传统深度学习模型通常是在为特定任务定制的小数据集上进行训练，这限制了它们在多样化应用中的适应性。相比之下，基于互联网规模数据预训练的基础模型似乎具有更出色的泛化能力，而且在某些情况下展现出能够找到训练数据中未出现问题的零样本解决方案的新兴能力。基础模型可能具有提升机器人自主性堆栈中多个组件的潜力，这些组件包括从感知到决策制定和控制等。例如，大型语言模型能够生成代码或提供常识推理，而视觉 - 语言模型能够实现开放词汇的视觉识别。然而，仍存在一些重要的开放研究挑战，特别是与机器人相关的训练数据稀缺、安全保证、不确定性量化以及实时执行等方面。在本次调查中，我们研究了近期使用或构建基础模型解决机器人问题的论文。我们探讨了基础模型如何有助于提升机器人在感知、决策制定和控制领域的性能。我们讨论了阻碍基础模型在机器人自主性中应用的挑战，并提出了未来发展的机会和可能路径。对应本文的 GitHub 项目可以在此处找到链接: link。

索引术语 — 机器人学，大型语言模型（LLMs），视觉 - 语言模型（VLM），大型预训练模型，基础模型

I. 介绍

基础模型是在大规模互联网数据上预训练的，并且可以通过微调来适应广泛的下游任务。基础模型在视觉和语言处理方面取得了显著的突破；例如包括 BERT [1]，GPT-3 [2]，GPT-4 [3]，CLIP [4]，DALL-E [5] 和 PaLM-E [6]。基础模型有望在机器人领域如自动驾驶、家庭机器人、工业机器人、辅助机器人、医疗机器人、野外机器人和多机器人系统等方面开启新的可能性。预训练的大型语言模型（LLMs）、大型视觉 - 语言模型（VLMs）、大型音频 - 语言模型（ALMs）和大型视觉导航模型（VNMs）可以用于提升机器人环境中的各种任务。将基础模型集成到机器人中是一个快速发展的领域，机器人社区最近开始探索如何在这些领域的感知、预测、规划和控制中利用这些大型模型。
在基础模型出现之前，机器人领域的传统深度学习模型通常是在为不同任务收集的有限数据集上进行训练的 [7]。相反，基础模型是在大量且多样的数据上进行预训练的，这在其他领域（如自然语言处理、计算机视觉和医疗保健 [8]）已被证明可以显著提高适应性、泛化能力和整体性能。最终，基础模型可能具有在机器人领域带来这些相同好处的潜力。与任务特定模型相比，基础模型的知识迁移可能减少训练时间和计算资源。特别是对于机器人学来说，多模态基础模型可以将从各种传感器收集的多模态异构数据融合和对齐为机器人理解和推理所需的紧凑同质表示 [9]。这些学习的表示有可能被用于自主性堆栈的任何部分，包括感知、决策制定和控制。此外，基础模型提供了零样本能力，即 AI 系统在没有先前示例或特定任务的专门训练数据的情况下执行任务的能力。这将使机器人能够将学到的知识推广到新的情况，提高在非结构化设置中机器人的适应性和灵活性。
将基础模型集成到机器人系统中可能通过增强机器人感知和与环境互动的能力来实现上下文感知的机器人系统。例如，在感知领域，大型视觉 - 语言模型（VLMs）被发现可以通过学习视觉和文本数据之间的关联来提供跨模态理解，帮助执行零样本图像分类、零样本目标检测 [10] 和 3D 分类 [11] 等任务。再例如，3D 世界中的语言接地 [12]（将 VLMs 的上下文理解与三维（3D）现实世界对齐）可能通过将单词与 3D 环境中的特定对象、位置或动作相关联来增强机器人的空间意识。
在决策制定或规划领域，LLMs 和 VLMs 被发现可以帮助机器人在高级规划中进行任务规范 [13]。机器人可以通过利用操纵、导航和交互中的语言线索来执行更复杂的任务。例如，对于机器人策略学习技术如模仿学习 [14] 和强化学习 [15]，基础模型似乎提供了提高数据效率和增强上下文理解的的可能性。特别是，语言驱动的奖励可以用来引导 RL 代理，通过提供形状奖励 [16]。此外，研究人员还利用语言模型为策略学习技术提供反馈 [17]。一些工作已经表明，VLM 模型的视觉问答（VQA）能力可以在机器人用例中被利用。例如，研究人员使用 VLM 来回答与视觉内容相关的问题，以帮助机器人完成任务 [18]。此外，研究人员表示利用 VLM 帮助数据注释，为视觉内容生成描述性标签 [19]。
尽管基础模型在视觉和语言处理方面具有变革性能力，但基础模型在真实世界机器人任务中的泛化和微调仍然具有挑战性。这些挑战包括：1）数据稀缺：如何获取用于机器人操纵、运动、导航和其他机器人任务的大规模数据，以及如何使用这些数据进行自监督训练；2）高变异性：如何处理物理环境、物理机器人平台和潜在机器人任务中的大多样性，同时仍保持基础模型所需的通用性；3）不确定性量化：如何处理（i）实例级不确定性，如语言模糊或 LLM 幻觉；（ii）分布级不确定性；以及（iii）分布偏移，特别是由于闭环机器人部署导致的；4）安全评估：如何严格测试基于基础模型的机器人系统的安全性（i）在部署之前；（ii）在模型的生命周期中更新时；以及（iii）在目标环境中运行时。5）实时性能：如何处理某些基础模型的高推理时间，这可能会阻碍它们在机器人上的部署，以及如何加速基础模型的推理速度以满足在线决策制定所需的速率。
在本次调查中，我们研究了现有关于在机器人中使用基础模型的文献。我们研究了当前的方法和应用，提出了当前的挑战，并建议未来的研究方向来解决这些挑战，并识别将基础模型集成到机器人自主性中可能暴露的潜在风险。另一篇关于机器人领域基础模型的调查论文与我们的同时出现在 arXiv 上 [20]。与该论文相比，我们的论文强调未来的挑战和机会，包括安全和风险，并且我们更加强调在应用、算法和架构方面的比较。与一些专注于特定上下文指令的现有调查不同，例如提示 [21]、视觉变压器 [22] 或决策制定 [13]、[23]，我们提供了一个更广泛的视角，将基础模型的不同研究线索与其对机器人学的相关性和应用联系起来。相反，我们的研究范围比论文 [24] 窄得多，后者探讨了基础模型在许多学科中的广泛应用，其中机器人学是其中之一。我们希望这篇论文能明确近期的研究进展和现有研究的不足，并指出未来面对这一研究领域的机遇和挑战。最终，我们希望为机器人研究人员提供一个资源，让他们了解这个激动人心的新领域。
我们限制了本次调查的范围，只包括以下类别的论文：
1）背景论文：不直接涉及机器人，但了解基础模型所必需的论文。这些论文在调查论文的背景部分（第 II 节）中讨论。
2）机器人论文：以即插即用方式将基础模型集成到机器人系统中的论文，或为机器人系统适配或微调基础模型的论文，或构建新的机器人特定基础模型的论文。
3）机器人相关论文：在机器人领域附近的应用领域（如计算机视觉、具身 AI）提出方法或技术的论文，并有明确的应用于机器人的未来路径。
本次调查的结构如下：在第 II 节中，我们提供了基础模型的介绍，包括 LLMs、视觉变压器、VLMs、具身多模态语言模型和视觉生成模型。此外，在本节的最后部分，我们讨论了用于训练基础模型的不同训练方法。在第 III 节中，我们介绍了如何将基础模型集成到机器人决策制定的不同任务中。首先，我们讨论了使用语言条件模仿学习和语言辅助强化学习进行机器人策略学习。然后，我们讨论了如何使用基础模型来设计一个可用于规划目的的语言条件值函数。接下来，我们介绍了使用基础模型进行任务规范和代码生成以进行任务规划。在第 IV 节中，我们研究了一系列机器人感知任务，这些任务有可能通过采用基础模型来增强。这些任务包括语义分割、3D 场景表示、零样本 3D 分类、可供性预测和动力学预测。在第 V 节中，我们介绍了关于具身 AI 代理、通用 AI 代理以及为具身 AI 研究开发的模拟器和基准的论文。在第 VI 节中，我们通过讨论在机器人系统中采用基础模型的不同挑战，并提出了未来研究的潜在途径，结束了本次调查。最后，在第 VII 节中，我们提供了结论性评论。

Fig. 1. Overview of Robotics Tasks Leveraging Foundation Models.

II. 基础模型背景

基础模型具有数十亿个参数，并在大规模的互联网数据集上进行预训练。训练如此规模和复杂性的模型涉及大量的成本。获取、处理和管理数据可能非常昂贵。训练过程需要大量的计算资源，需要专门的硬件，如 GPU 或 TPU，以及用于模型训练的软件和基础设施，这需要财务资源。此外，训练一个基础模型是时间密集型的，这可能转化为更高的成本。因此，这些模型通常用作即插即用模块（指的是将基础模型集成到各种应用程序中，而无需广泛的定制）。表 I 提供了关于常用基础模型的详细信息。在本节的其余部分，我们将介绍 LLMs、视觉 Transformer、VLMs、具身多模态语言模型和视觉生成模型。在本节的最后部分，我们将介绍用于训练基础模型的不同训练方法。

A. 术语和数学基础知识

在本节中，我们首先介绍基础模型背景下的常见术语，并描述各种类型基础模型的基本数学细节和训练实践。
标记化：
给定一个字符序列，标记化是将该序列划分为更小的单元，称为标记的过程。取决于标记化策略，标记可以是字符、单词的一部分、完整的单词或句子的部分。标记表示为与总词汇量大小相等的 1-hot 向量，并通过学习的嵌入矩阵映射到低维实数向量。一个 LLM 接受这些嵌入向量的序列作为原始输入，产生嵌入向量的序列作为原始输出。然后这些输出向量被映射回标记，进而映射到文本。例如，GPT-3 的词汇量为 50,257 个不同的标记，嵌入维度为 12,288。
标记解码（从低维实值嵌入向量到高维 1-hot 向量）并不是确定性的，这导致词汇表中每个可能的标记都有一个权重。这些权重通常被 LLMs 用作标记上的概率，以在文本生成过程中引入随机性。例如，GPT-3 中的温度参数在总是选择权重最高的标记（温度为 0）和根据权重建议的概率分布绘制标记（温度为 1）之间进行混合。这种随机性仅存在于标记解码过程中，而不是 LLM 本身。据作者所知，事实上，这是 GPT 系列模型中唯一的随机源。
常用的标记化方案之一，也被 GPT 系列模型使用，称为字节对编码 [75]。字节对编码从每个单个符号（例如，字母、标点符号）的标记开始，然后通过将常见一起出现的符号对分组来递归地构建标记，逐步将标记分配给越来越大的组（对的组合等），这些组在文本语料库中经常一起出现。标记化过程可以扩展到文本数据之外，涵盖各种数据模态，如图像、视频和机器人动作。在这些情况下，可以将相应的数据模态视为序列数据，并类似地进行标记化以训练生成模型。例如，正如语言构成单词序列一样，图像由图像块序列组成，力传感器在每个时间步产生感觉输入序列，一系列动作代表机器人任务的序列性质。

生成模型：

生成模型是一种学习从概率分布中采样以创建看起来来自与训练数据相同分布的数据示例的模型。例如，一个人脸生成模型可以生成人脸图像，这些图像与用于训练模型的真实图像集无法区分。这些模型可以被训练成有条件的，这意味着它们根据广泛可能的条件信息从条件分布中生成样本。例如，一个性别条件人脸生成器可以生成男性和女性人脸的图像，其中所需的性别作为条件输入提供给模型。
判别模型：
判别模型用于回归或分类任务。与生成模型不同，判别模型被训练来区分不同的类或类别。它们的重点在于学习输入空间内类之间的边界。而生成模型学习从数据的分布中进行采样，判别模型学习评估给定输入特征的输出标签的概率分布，或（取决于模型的训练方式）学习评估输出的概率分布的某个统计量，例如给定输入的预期输出。

Transformer 架构：

大多数基础模型都是基于 Transformer 架构构建的，该架构在基础模型和大型语言模型的兴起中起到了工具性的作用。以下讨论是从 [76] 以及在线博客、未发表的报道和维基百科 [77]-[79] 综合而成的。Transformer 同时作用于一组称为上下文窗口的嵌入标记向量（x1, …, xN）。Transformer 架构的关键创新是多头自注意力机制，该机制最早在开创性工作 [76] 中提出。在这种架构中，每个注意力头计算一个与上下文窗口中一个标记与其他标记的相关性强弱相对应的重要性权重向量。每个注意力头通过计算重要性权重时使用的不同投影矩阵，在数学上编码不同的相似性概念。每个头可以在所有标记和所有头之间并行训练（后向传递）和评估（前向传递），与基于 RNN 或 LSTM 的先前模型相比，这导致了更快的训练和推理。
数学上，一个注意力头将上下文窗口中的每个标记 xi 映射到一个 “查询” qi = WTqxi，将上下文头中的每个其他标记 xj 映射到一个 “键” kj = WTkxj。然后通过缩放的点积测量查询和键之间的相似性，qTikj/√d，其中 d 是查询和键向量的维度。然后对所有 j 取 softmax，得到权重 αij，表示 xi 对 xj 的 “关注” 程度。然后将标记映射到 “值” vj = WTvxj，注意力在位置 i 的输出然后作为对加权的值的求和给出，Pjαijvj。Transformer 注意力模型成功的一个关键原因是，它可以通过将前面的步骤并行化为矩阵计算来使用 GPU 和 TPU 进行高效计算，
attn (Q, K, V) = softmax (QK⊤/√d) V, (1)
其中 Q, K, V 是具有行 qTi, kTi 和 vTi 的矩阵。模型中的每个头独立产生这个计算，使用不同的 Wq, Wk, Wv 矩阵来编码不同类型的注意力。然后将每个头的输出生成连接、规范化，通过一个全连接的 ReLU 层，并再次规范化，以产生注意力层的输出。多个层以各种方式排列以给出 “编码器” 和 “解码器”，它们共同构成了一个 Transformer。
Transformer 模型的大小通常通过（i）上下文窗口的大小，（ii）每层的注意力头数，（iii）每个头中的注意力向量的大小，以及（iii）堆叠的注意力层数来量化。例如，GPT-3 的上下文窗口是 2048 个标记（对应于大约 1500 个单词的文本），每个注意力层有 96 个头，每个头有 128 维的注意力向量，模型中有 96 个堆叠的注意力层。
基本的多头注意力机制不会在数据中强加任何固有的序列或方向性。然而，Transformer（特别是在自然语言应用中）通常通过在输入标记序列上施加位置编码来用作序列预测器。然后它们以自回归方式应用于标记序列，这意味着它们预测序列中的下一个标记，将这个标记添加到它们的上下文窗口中，然后重复此过程。这个概念将在下面详细说明。

自回归模型：

自回归的概念已被应用于许多领域，作为一种随机过程的表示，其输出因果依赖于先前的输出。自回归模型使用过去数据的窗口来预测序列中的下一个数据点。然后窗口向前滑动一个位置，递归地将预测的数据点摄入窗口，并将最老的数据点从窗口中移出。模型再次预测序列中的下一个数据点，重复此过程无限期。经典的线性自回归模型，如自回归移动平均（ARMA）和带外生输入的自回归移动平均（ARMAX）模型，是标准统计工具，至少可以追溯到 1970 年代 [80]。这些建模概念首先被适应到深度学习模型，首先使用 RNN，然后是 LSTM，它们都是可学习的非线性自回归模型。虽然 Transformer 模型本质上是自回归的，但它们通常被适应到自回归框架，用于文本预测任务。
例如，GPT 系列 [81] 基于原始 Transformer 模型，使用 [82] 中介绍的一种修改，该修改完全移除了 Transformer 编码器块，只保留了 Transformer 解码器块。这通过减少近一半的模型参数数量，同时减少在编码器和解码器中学习的冗余信息，从而具有优势。在训练期间，GPT 模型试图从标记化的语料库 X = (x1, …, xn) 生成输出标记，以最小化长度为 N 的上下文窗口内的负对数似然，
LLLM = −∑i log P (xi | xi−N, …, xi−1). (2)
这导致了一个大型预训练模型，它可以自回归地预测给定上下文窗口中的标记的下一个可能标记。虽然功能强大，但 GPT 系列的单向自回归性质意味着这些模型可能在双向任务（如阅读理解）上的性能可能落后。

掩码自编码：

为了解决 GPT 系列的单向限制，并允许模型进行双向预测，BERT [1] 等工作使用了掩码自编码。这是通过架构更改实现的，即添加双向编码器，以及一种称为掩码语言建模（MLM）的新颖预训练目标。MLM 任务简单地掩码语料库中一定百分比的标记，并要求模型预测这些标记。通过此过程，模型被鼓励学习围绕单词的上下文，而不是仅仅学习序列中下一个可能的单词。

对比学习：

如 CLIP [4] 之类的视觉 - 语言基础模型通常依赖于与鼓励显式预测行为的 LLM 不同的训练方法。视觉 - 语言模型使用对比表示学习，目标是学习输入模态之间的联合嵌入空间，其中相似样本对的距离比不相似样本对的距离近。许多 VLM 的训练目标是目标函数的某种变化，
ℓ(v→u) i = − log exp (sim (vi, ui)/τ) / ∑k=1N exp (sim (vi, uk)/τ), (3)
ℓ(u→v) i = − log exp (sim (ui, vi)/τ) / ∑k=1N exp (sim (ui, vk)/τ), (4)
L = 1/N ∑i=1N (λℓ(v→u) i + (1 − λ)ℓ(u→v) i). (5)
这个目标函数是 ConVIRT [83] 推广的，并且最早出现在先前的工作 [84]-[87] 中。这个目标函数训练图像和文本编码器以保留真实文本和图像对之间的相互信息。在这些方程中，ui 和 vi 分别是来自 i ∈ 1, …, N 图像和文本对的第 i 个编码文本和图像。sim 操作是文本和图像嵌入之间的余弦相似度，τ 是温度项。在 CLIP [4] 中，作者使用对称交叉熵损失，这意味着最终的损失是两个损失组件的平均值，每个组件的权重相等（即 λ = 0.5）。

扩散模型：

除了大型语言模型和 VLM 等多模态模型之外，用于图像生成的扩散模型（例如 DALL-E2）[88] 是本调查中考虑的另一种基础模型。虽然扩散模型是在先前的工作 [89]、[90] 中建立的，但 [91] 中提出的扩散概率模型推广了该方法。扩散概率模型是一个深度生成模型，它以迭代的前向和后向过程进行训练。前向过程将高斯噪声添加到输入 x0 中，直到 xT 时结果为零均值各向同性噪声。这意味着前向过程产生了一个噪声轨迹 q (x1:T | x0)，
q (x1:T | x0) := ∏t=1T q (xt | xt−1). (6)
在每个时间步 q (xt|xt−1) 由具有均值√(1 − βtxt−1) 和协方差 βtI 的正态分布描述，其中 βt 是计划或固定的超参数。后向过程需要模型学习将去噪零均值高斯并生成输入图像的转换。这个过程也被定义为马尔可夫链，其中时间 t 的转换分布是 pθ(xt−1 | xt) := N (xt−1; µθ(xt, t), Σθ(xt, t))。为了完整性，后向过程马尔可夫链给出为，
pθ(x0:T ) := p (xT) ∏t=1T pθ(xt−1 | xt). (7)
扩散模型使用证据下界损失函数的简化形式进行训练，该损失函数是变分生成模型（如变分自动编码器（VAEs））中典型的。用于训练的简化损失函数是
L = Eq [DKL (q (xT | x0) || p (xT))] + ∑t>1 DKL (q (xt−1 | xt, x0) || pθ(xt−1 | xt)) − log pθ(x0 | x1),
其中 DKL (q || p) 表示 Kullback-Leibler 散度，它是衡量分布 q 与分布 p 差异的一种度量。

B. 大型语言模型（LLM）示例和历史背景

LLM 拥有数十亿个参数，并在数万亿个标记上进行训练。这种大规模使得模型如 GPT-2 [92] 和 BERT [1] 能够在 Winograd Schema 挑战 [93] 和通用语言理解评估（GLUE）[94] 基准测试中分别取得最先进的性能。它们的继任者包括 GPT-3 [2]、LLaMA [95] 和 PaLM [96]，这些模型在参数数量（通常现在超过 1000 亿）、上下文窗口大小（通常现在超过 1000 个标记）和训练数据集大小（通常现在为数十 TB 的文本）方面都有显著增长。GPT-3 是在 Common Crawl 数据集上进行训练的。Common Crawl 包含了超过 12 年的网络爬取的 PB 级公开数据，包括原始网页数据、元数据和文本摘要。LLM 也可以是多语言的。例如，ChatGLM-6B 和 GLM-130B [97] 是一个拥有 1300 亿参数的双语（英语和中文）预训练语言模型。LLM 也可以进行微调，这个过程是通过使用特定领域的数据调整模型参数，使 LLM 的性能与特定用例保持一致。例如，GPT-3 和 GPT-4 [3] 已经使用带有人类反馈的强化学习（RLHF）进行了微调。

C. 视觉 Transformer

视觉 Transformer（ViT）[98]-[100] 是一种用于计算机视觉任务的 Transformer 架构，包括图像分类、分割和目标检测。ViT 将图像视为一系列称为标记的图像块。在图像标记化过程中，图像被划分为固定大小的块。然后这些块被展平成一个一维向量，称为线性嵌入。为了捕获图像块之间的空间关系，每个标记都添加了位置信息。这个过程称为位置嵌入。将包含位置编码的图像标记输入到 Transformer 编码器中，自注意力机制使模型能够捕获输入数据中的长期依赖关系和全局模式。在本文中，我们只关注那些具有大量参数的 ViT 模型。ViT-G [101] 扩展了 ViT 模型，并拥有 20 亿个参数。此外，ViT-e [102] 拥有 40 亿个参数。ViT-22B [103] 是一个拥有 220 亿参数的视觉 Transformer 模型，它被用于 PaLM-E 和 PaLI-X [104] 中，并有助于机器人任务。DINO [105] 是一种自监督学习方法，用于训练 ViT。DINO 是一种无标签的知识蒸馏形式。知识蒸馏是一个学习框架，其中较小的模型（学生网络）被训练来模仿较大、更复杂模型（教师网络）的行为。两个网络共享相同的架构，但具有不同的参数集。给定一个固定的教师网络，学生网络通过最小化学生网络参数的交叉熵损失来学习其参数。神经网络架构由 ViT 或 ResNet [106] 主干和包括多层感知（MLP）层的投影头组成。使用 DINO 学习的自监督 ViT 特征包含关于图像的语义分割的明确信息，包括场景布局和对象边界，其清晰度是使用监督 ViT 或卷积网络无法实现的。DINOv2 [107] 提供了各种预训练的视觉模型，这些模型是在 [107] 中介绍的 LVD-142M 数据集上使用不同的视觉 Transformer（ViT）进行训练的。它使用具有 8 个 V100-32GB GPU 的 20 个节点的计算集群，通过判别性自监督方法进行训练。DINOv2 在图像（例如检测）或像素级别（例如分割）提供了各种视觉特征。SAM [59] 提供了零样本可提示的图像分割。它将在第 IV 节中详细讨论。

D. 多模态视觉 - 语言模型（VLMs）

多模态指的是模型接受不同 “模态” 输入的能力，例如图像、文本或音频信号。视觉 - 语言模型（VLM）是一种接受图像和文本的多模态模型。在机器人应用中，常用的 VLM 是对比语言 - 图像预训练（CLIP）[4]。CLIP 提供了一种比较文本描述和图像之间相似性的方法。
CLIP 使用互联网规模的图像 - 文本对数据来捕获图像和文本之间的语义信息。CLIP 模型架构包含一个文本编码器 [92] 和一个图像编码器（ViT 的修改版本），它们被联合训练以最大化图像和文本嵌入的余弦相似性。CLIP 使用对比学习与语言模型和视觉特征编码器一起，以结合用于零样本图像分类的模型。
BLIP [108] 通过联合优化三个目标来关注多模态学习。这些目标包括图像 - 文本对比损失、图像 - 文本匹配损失和语言建模损失。该方法通过引导字幕来利用噪声网络数据，从而增强训练过程。CLIP2 [109] 旨在构建良好对齐和基于实例的文本 - 图像 - 点代理。它使用跨模态对比目标学习语义和实例级对齐的点云表示。FILIP [110] 专注于在多模态学习中实现更细粒度的对齐。它结合了一个跨模态后期交互机制，该机制利用视觉和文本标记之间的最大相似性。该机制指导对比目标并改善视觉和文本信息之间的对齐。FLIP [111] 提出了一种用于 CLIP 的简单且更有效的训练方法。FLIP 在训练过程中随机掩盖并移除图像块的重要部分。这种方法旨在提高 CLIP 的训练效率，同时保持其性能。

E. 具身多模态语言模型

具身智能体是一个与虚拟或物理世界交互的 AI 系统。例如包括虚拟助手或机器人。具身语言模型是将真实世界的传感器和执行模态结合到预训练的大型语言模型中的基础模型。典型的视觉 - 语言模型是在一般的视觉 - 语言任务上进行训练的，例如图像字幕或视觉问答。PaLME [6] 是一个多模态语言模型，它不仅在互联网规模的通用视觉 - 语言数据上进行训练，而且还在具身的机器人数据上进行训练。为了将模型连接到真实世界的传感器模态，PaLME 的架构将（连续）输入，如图像、低级状态或 3D 神经场景表示注入仅解码器的语言模型的语言嵌入空间，使模型能够关于文本和其他模态进行联合推理。主要的 PaLM-E 版本是由 PaLM LLM [96] 和 ViT [103] 构建的。ViT 将图像转换为一组嵌入向量，这些向量通过仿射变换投影到语言嵌入空间中。整个模型是端到端训练的，从预训练的 LLM 和 ViT 模型开始。作者还探索了不同的策略，例如冻结 LLM 只训练 ViT，这会导致更差的性能。给定多模态输入，PaLM-E 的输出是自回归解码的文本。为了将此输出连接到机器人进行控制，可以使用语言条件短期策略。在这种情况下，PaLM-E 充当高级控制策略。实验表明，单个 PaLM-E 除了作为视觉 - 语言通才之外，能够在多个机器人具身中执行许多不同的机器人任务。该模型表现出正向迁移，即同时在互联网规模的语言、通用视觉 - 语言和具身领域进行训练，与在单个任务上训练模型相比，会导致更高的性能。

F. 视觉生成模型

像 OpenAI 的 DALLE [112] 和 DALL-E2 [88] 这样的网络规模扩散模型提供了零样本文本到图像生成。它们是在从互联网上数亿对图像 - 字幕进行训练的。这些模型学习图像的语言条件分布，从中可以使用给定的提示生成图像。DALL-E2 架构包括一个先验网络，它从文本字幕生成 CLIP 图像嵌入，以及一个以图像嵌入为条件的解码器来生成图像。

III. ROBOTICS

在这里插入图片描述
在本节中，我们将深入探讨机器人的决策、规划和控制。在这个领域内，大型语言模型（LLMs）和视觉语言模型（VLMs）可能具有作为增强机器人能力的宝贵工具的潜力。例如，LLMs 可以促进任务规范的过程，使机器人能够接收并解释人类的高级指令。VLMs 也可能为这个领域做出贡献。VLMs 专门分析视觉数据。这种视觉理解对于机器人的明智决策和复杂任务执行至关重要。机器人现在可以利用自然语言提示来提高他们在操纵、导航和交互任务中的表现。视觉 - 语言目标条件策略学习，无论是通过模仿学习还是强化学习，都有望使用基础模型进行改进。语言模型还扮演着为策略学习技术提供反馈的角色。这个反馈循环促进了机器人决策的持续改进，因为机器人可以根据从 LLM 收到的反馈来改进他们的行动。本节强调了 LLMs 和 VLMs 在机器人决策中的潜在贡献。与感知部分（IV）或具身 AI 部分（V）等其他部分相比，评估和比较本节论文的贡献提出了更大的挑战。这是因为本节中的大多数论文要么依赖于硬件实验，使用低级控制和规划栈中的自定义元素，这些元素不易转移到其他硬件或其他实验设置，要么利用非基于物理的模拟器，这些模拟器允许忽略堆栈的这些低级部分，但留下了不同硬件实现之间不可移植性的问题。在第 VI 节中，我们讨论了未来研究中需要解决的基准测试和可重复性的缺乏。

A. 机器人决策和控制的策略学习

在本节中，我们讨论机器人策略学习，包括语言条件模仿学习和语言辅助强化学习。

语言条件模仿学习用于操作：在语言条件模仿学习中，学习到一个目标条件策略πθ(at|st, l)，该策略根据当前状态st ∈ S和语言指令l ∈ L输出动作at ∈ A。损失函数被定义为最大似然目标条件模仿目标：

LGCIL = E(τ,l)∼D |τ| X t=0 logπθ(at|st, l), (9)

其中D是语言注释的演示数据集D = {τi} N i 。演示可以用轨迹表示，或图像、RGB-D体素观察等的序列。语言指令与演示配对，用作训练数据集。每个语言注释的演示τi由τi = {(s1, l1, a1),(s2, l2, a2), …}组成。

在测试时，机器人被给出一系列指令，语言条件的视觉运动策略πθ在闭环中提供动作at，给定每个时间步的指令。这个领域的主要挑战是：(i) 获得足够数量的演示和条件标签来训练一个策略，(ii) 闭环策略下的分布偏移——策略的反馈可能导致机器人进入训练数据没有很好覆盖的状态空间区域，从而负面影响性能。（本节以下的所有论文都关注机器人操作任务。）

由于通过将演示与语言指令配对来生成语言注释数据是一个昂贵的过程，Play-LMP [26]中的作者提出从远程操作游戏数据中学习。在这种设置中，从未标记的游戏数据中学习可重用的潜在计划表示。此外，学习到一个目标条件策略来解码推断的计划以执行用户指定的任务。此外，分析了模仿学习中的分布偏移，并表明在这种设置中，与专家正向演示相比，游戏数据对扰动的鲁棒性更强。注意，(9)中的语言目标l可以用任何其他类型的目標代替，例如目标图像，这是目标条件模仿学习中另一个常见的选择。

在一项后续工作中[28]，作者提出了多上下文模仿（MCIL），它使用未结构化数据的语言条件模仿学习。多上下文模仿框架基于重新标记的模仿学习和标记的指令遵循。MCIL假设可以访问多个上下文模仿数据集，例如，目标图像演示、语言目标演示或一键任务演示。MCIL通过使用每个上下文的相关编码器将上下文编码到共享潜在空间中，同时训练单个潜在目标条件策略。然后，通过平均所有数据集来计算目标条件模仿损失。策略和目标编码器是端到端训练的。

语言条件模仿学习中处理数据注释挑战的另一种方法涉及利用基础模型通过标记演示来提供反馈。在[115]中，作者提出使用预训练的基础模型来提供反馈。要将训练好的策略部署到新任务或新环境，策略是通过使用随机生成的指令进行播放，预训练的基础模型通过标记演示来提供反馈。此外，这种配对的指令-演示数据可以用于策略微调。

CLIPort [25]还提出了一个用于基于视觉的操作的语言条件模仿学习。提出了一个双流架构，它结合了CLIP的语义理解力和Transporter [116]的空间精确性。这个端到端框架解决了语言指定的操作任务，而无需任何显式的对象姿态或实例分割表示。CLIPort将语义概念接地到精确的空间推理中，但它仅限于2D观察和动作空间。为了解决这个限制，PerAct（Perceiver-Actor）[27]的作者提出用3D体素表示观察和动作空间，并采用体素块的三维结构，通过变压器进行高效的 language-conditioned 行为克隆，以模仿仅仅几个演示的6-DoF操作任务。虽然像CLIPort这样的2D行为克隆方法仅限于单视图观察，但像PerAct这样的3D方法允许多视图观察以及6-DoF动作空间。PerAct只使用CLIP的语言编码器来编码语言目标。

PerAct将语言目标和RGB-D体素观察作为输入到Perceiver Transformer，并通过检测下一个最佳体素动作来输出离散化动作。PerAct通过监督学习进行训练，使用来自演示数据集的离散时间输入动作。演示数据集包括与语言目标配对的体素观察和关键帧动作序列。动作由6DoF姿态、抓取器开启状态和避障动作组成。

在训练期间，随机采样一个元组，智能体根据观察和目标预测关键帧动作。

将语义表示接地到空间环境中对于有效的机器人交互至关重要。CLIPort和PerAct利用CLIP（基于对比学习进行训练）进行语义推理，Transporter和Perceiver进行空间推理。

Voltron [29]提出了一个用于机器人语言驱动表示学习的框架。Voltron捕获从视频和字幕中学习的语义、空间和时间表示。对比学习捕获语义表示，但丢失了空间关系，相比之下，掩码自动编码捕获空间而不是语义表示。Voltron通过语言条件的视觉重建来换取局部空间表示，并通过视觉基础的语言生成来捕获语义表示。这个框架包括抓取可行性预测、单任务视觉运动控制、指称表达式接地、语言条件模仿和意图评分任务。

Voltron模型将视频及其相关的语言字幕作为输入到多模态编码器，其输出被解码以重建一个或多个来自掩码上下文的帧。Voltron从掩码自动编码主干开始，并通过在MAE编码器上以语言前缀为条件添加一个动态组件来扩展模型。通过以多个帧为条件来捕获时间信息。

将利用语言条件模仿学习与真实机器人一起部署机器人政策学习技术，这带来了持续的挑战。这些模型依赖于端到端学习，其中策略将像素或体素映射到动作。由于它们是通过在演示数据集上进行监督学习来训练的，因此它们易受与泛化和分布偏移相关的问题的影响。为了提高鲁棒性和适应性，数据增强和领域适应等技术可以使策略对分布偏移更具鲁棒性。

CACTI [14]是一个新颖的框架，旨在使用基础模型（如Stable Diffusion [117]）来增强机器人学习中的可扩展性。CACTI引入了数据收集、数据增强、视觉表示学习和模仿策略训练四个阶段。在数据收集阶段，收集有限领域的专家演示数据。在数据增强阶段，CACTI采用视觉生成模型（如Stable Diffusion [117]）来增强视觉多样性，通过增强具有场景和布局变化的数据。在视觉表示学习阶段，CACTI利用在领域外数据上训练的预训练零样本视觉表示模型来提高训练效率。最后，在模仿策略训练阶段，使用模仿学习在增强数据集上学习一个通用的多任务策略，以压缩的视觉表示作为输入。CACTI在模拟和现实世界的厨房环境中进行多任务和多场景操作训练。这些技术的使用增强了框架的泛化能力，使其能够从广泛的环境中学习。

除了语言之外，最近的工作还研究了其他形式的任务规范。值得注意的是，MimicPlay [118]提出了一种分层模仿学习算法，该算法从人类游戏数据中学习潜在空间中的高级计划，并从少量远程操作演示中学习低级电机命令。通过利用这两个数据源的互补优势，该算法可以显著降低训练长时程操作任务的视觉运动策略的成本。一旦训练完成，它能够在测试时根据一个人类视频演示来执行新任务。MUTEX [119]进一步探索了在视频、图像、文本和音频等多模态任务规范中学习统一策略，通过跨模态学习，与单模态基线相比，显示出改进的策略性能。

语言辅助强化学习：强化学习（RL）是一类方法，它使机器人能够通过与环境交互来优化策略，通过优化奖励函数。这些交互通常在模拟环境中进行，有时会增强来自物理机器人硬件的数据，用于模拟到现实的转移。RL与优化控制密切相关。与模仿学习不同，RL不需要人类演示，而且（理论上）有潜力达到超人类性能。在RL问题中，使用从与环境的交互中收集的滚动数据来最大化策略的预期回报。

从环境中以奖励信号形式收到的反馈指导机器人学习哪些动作会导致有利的结果，哪些动作不会。在本节中，我们讨论了将基础模型（LLM、VLM等）纳入RL问题的研究。

快速灵活的适应是人工代理所需的能力，对于向通用智能的进步至关重要。在自适应代理（AdA）[30]中，作者提出了一个RL基础模型，该模型是一个在多样化任务上预训练的代理，旨在通过使用来自反馈的快速上下文学习来快速适应开放的具身3D问题。这项工作考虑了导航、协调和劳动分工任务。在测试时，在未见过的环境中给代理几个情节，代理进行试错探索，以优化其策略以达到最佳性能。

在AdA中，使用基于模型的RL2 [120]训练了一个变压器架构，以训练具有大规模基于注意力的内存的代理，这对于适应是必需的。通过一些修改，使用TransformerXL [121]来启用长且可变长度的上下文窗口，以增加模型内存以捕获长期依赖关系。代理在XLand环境中收集多样化的数据，该环境包括1040个可能的任务[122]，在一个自动化的课程中。此外，使用蒸馏来启用扩展到具有超过500M参数的模型。

Palo等人[15]提出了一种通过整合大型语言模型（LLMs）和视觉语言模型（VLMs）来增强强化学习的方法，以创建一个更统一的RL框架。这项工作考虑了机器人操作任务。他们的方法解决了与探索、经验重用和转移、技能调度以及从观察中学习相关的核心RL挑战。作者使用LLM将复杂任务分解为更简单的子任务，这些子任务然后被用作基于变压器的代理与环境的交互。代理使用监督学习和强化学习的组合进行训练，使其能够根据环境的当前状态预测要执行的最佳子任务。

B. 语言图像目标条件价值学习

在价值学习中，目标是构建一个价值函数，使不同模态中的目标保持一致，并由于价值函数的递归性质而保持时间一致性。可重用表示用于机器人操作（R3M）[31]为机器人操作提供了使用多样化的人类视频数据集（如Ego4D）的预训练视觉表示，并可用作机器人操作任务中策略学习的冻结感知模块。R3M的预训练视觉表示在Franka Emika Panda的机械臂上得到了展示，并支持不同的下游操作任务。R3M使用时间对比学习进行训练，以捕获时间依赖性，视频语言对齐以捕获场景的语义特征（如对象及其关系），以及L1惩罚以鼓励稀疏和紧凑的表示。对于一批视频，使用时间对比损失，训练编码器以生成表示，其中时间上更近的图像之间的距离相对于时间上更远或来自不同视频的图像被最小化。

类似于R3M，价值隐式预训练（VIP）[36]采用时间对比学习来捕获视频中的时间依赖性，但它不需要视频语言对齐。VIP也专注于机器人操作任务。VIP是一种自监督方法，用于从视频中学习视觉目标条件价值函数和表示。VIP为下游任务学习基于视觉目标的奖励，并可用于零样本奖励规范。奖励模型来自预训练的视觉表示。预训练涉及使用未标记的人类视频。人类视频不包含任何用于机器人策略学习的动作信息，因此学习到的价值函数不显式依赖于动作。VIP引入了一种新颖的时间对比目标，它生成时间上平滑的嵌入。价值函数通过距离嵌入隐式定义。所提出的隐式时间对比学习通过递归的一步时间差最小化吸引同一轨迹中初始和目标帧的表示，并通过排斥中间帧的表示。这种表示捕获跨任务帧的长期时间依赖性和相邻帧之间的局部时间平滑性。

语言图像价值学习（LIV）[37]是一个以控制为中心的视觉语言表示。LIV通过学习多模态视觉语言价值函数和表示来推广先前的VIP工作，这些表示使用与语言对齐的视频。对于用语言目标或图像目标指定的任务，训练了一个多模态表示，该表示编码一个通用价值函数。LIV也专注于机器人操作任务。LIV是一个基于大型人类视频数据集（如EPICKITCHENS [123]）的预训练控制为中心的视觉语言表示。在策略学习期间，表示保持冻结。在预训练的表示之上使用一个简单的MLP用于策略网络。策略学习与语言视觉表示的预训练是解耦的。LIV模型在带有文本注释的任意视频活动数据集上进行预训练，模型可以在领域内机器人数据的小数据集上进行微调，以特定于上下文的方式将语言接地。LIV使用CLIP中使用的基于互信息的图像文本对比表示学习目标的推广，因此LIV可以被认为是CLIP和VIP的组合。VIP和LIV都使用对比学习来自监督学习目标条件价值函数目标。LIV将VIP框架扩展到多模态目标规范。LOREL [38]从离线数据中学习语言条件奖励，并在模型预测控制期间使用它来完成语言指定的任务。

价值函数可以用来帮助将LLM获得的语义信息与机器人正在操作的物理环境接地。通过利用价值函数，机器人可以将LLM处理的信息与其周围的具体位置和对象关联起来。在SayCan [32]中，研究人员通过学习调查了将大型语言模型与物理世界集成。他们使用语言模型来提供任务接地（Say），使能够根据高级指令确定有用的子目标，并学习到可供性函数来实现世界接地（Can），使能够识别可行的动作来执行计划。Inner Monologue [33]研究了提供给LLM的接地环境反馈的作用，从而与环境闭合回路。通过利用感知模型（例如，场景描述符和成功检测器）的集合以及预训练的语言条件机器人技能，将反馈用于具有大型语言模型的机器人规划。反馈包括特定于任务的反馈，例如成功检测，以及特定于场景的反馈（“被动”或“主动”）。在SayCan和Inner Monologue中，使用来自Everyday Robots的真实世界移动操作机器人考虑机器人操作和导航任务。Text2Motion [124]是一个基于语言的规划框架，用于长时程机器人操作。类似于SayCan和Inner Monologue，Text2Motion计算与每个技能相关联的分数（SLMM），在每个时间步。任务规划问题是通过最大化给定语言指令和初始状态的技能序列的技能序列的可能性来找到技能序列。在Text2Motion中，作者提出验证生成的长时程计划在符号上是正确的和几何上是可行的。因此，定义了几何可行性分数（Sgeo），它是序列中所有技能实现奖励的概率。为了计算整体分数，将LLM分数乘以几何可行性分数（SSkill = SLMM · Sgeo）。

VoxPoser [34]构建3D价值图，将可供性和约束接地到感知空间中。VoxPser考虑机器人操作任务。给定环境的RGB-D观察和语言指令，VoxPoser利用大型语言模型来生成代码，该代码与视觉语言模型交互，以提取一系列3D可供性图和约束图。将这些图组合在一起以创建3D价值图。然后，将价值图用作目标函数，以指导运动规划器为日常操作任务综合轨迹，而无需任何先前的训练或指令。

在[35]中，提出了使用CLIP的奖励塑造。这项工作考虑机器人操作任务。所提出的模型利用CLIP将场景中的对象接地，该场景由与空间关系规则配对的目标文本描述，并通过使用原始像素作为输入来塑造奖励。他们使用在构建像CLIP这样的大规模视觉语言模型方面的进展来设计一个框架，该框架仅从目标文本描述和原始像素观察生成任务奖励信号。然后使用此信号来学习任务策略。

在[125]中，介绍了分层通用语言条件策略2.0（HULC++）。这项工作考虑机器人操作任务。使用自监督的视觉语言可供性模型来从现实世界中的非结构化离线数据学习通用语言条件机器人技能。此方法需要将总数据的1%用语言进行注释。视觉语言可供性模型具有编码器-解码器架构，带有两个解码器头。两个头共享相同的编码器，并以输入语言指令为条件。一个头预测图像上的分布，其中每个像素可能性是一个可供点。另一个头预测高斯分布，从中采样相应的预测深度。给定视觉观察和语言指令作为输入，可供性模型输出一个像素级的heat map，该热图表示可供性区域和相应的深度图。

C. 使用大型语言模型进行机器人任务规划

LLM可用于提供高级任务规划，以执行复杂的长期机器人任务。

用于任务规范的语言指令：如上所述，SayCan [32] 使用LLM进行语言中的高级任务规划，尽管使用学习到的价值函数将这些指令与环境接地。

时态逻辑对于在机器人系统中施加时间规范很有用。在[39]中，提出了从自然语言（NL）到时态逻辑（TL）的翻译。创建了一个带有28k NL-TL对的 dataset，并使用该dataset微调T5 [126]模型。LLM通常用于规划任务子目标。这项工作考虑了机器人导航任务。

在[40]中，不是直接的任务规划，而是执行从自然语言任务描述到中介任务表示的少样本翻译。该表示被任务和运动规划（TAMP）算法使用，以联合优化任务和运动计划。使用自回归重新提示来纠正合成和语义错误。这项工作也考虑了机器人导航任务。

使用语言模型进行任务规划的代码生成：经典的任务规划需要广泛的领域知识，搜索空间很大[127]、[128]。LLM可用于生成实现高级任务所需的任务序列。在ProgPrompt [41]中，作者介绍了一种提示方法，该方法使用LLM直接生成动作序列，无需任何额外的领域知识。对LLM的提示包括可用动作的规范、环境中的对象以及可以执行的示例程序。VirtualHome [129]用作演示的模拟器。

Code-as-Policies [42] 探索了使用代码编写LLM根据自然语言命令生成机器人策略代码的使用。这项工作考虑了使用来自Everyday Robots的真实世界移动操作机器人进行机器人操作和导航任务。该研究表明，LLM可以通过表达处理感知输出并调用控制原语API的函数或反馈循环来重新用于编写策略代码。为了实现这一点，作者利用了少样本提示，其中示例语言命令被格式化为注释，并附带相应的策略代码。在此数据上没有任何额外的训练，他们使模型能够在给定新命令时自主地组合API调用并生成新的策略代码。该方法利用了经典的逻辑结构，并引用了像NumPy和Shapely这样的第三方库来执行算术运算。通过链接这些结构并使用上下文信息（行为常识），LLM可以生成表现出空间几何推理、泛化到新指令以及为模糊描述（例如“更快”）提供精确值（例如，速度）的机器人策略。

“代码作为策略”的概念将使用语言模型生成的程序（LMP）生成机器人策略的过程形式化。这些策略可以表示反应性策略，如阻抗控制器，以及基于航点的策略，如基于视觉的拾取和放置或基于轨迹的控制。在多个真实机器人平台上证明了这种方法的有效性。这种方法的一个关键方面是分层的代码生成过程，它涉及递归地定义未定义的函数。这使得LLM能够生成更复杂的代码结构，以满足所需的策略要求。

在[43]中，作者提供了使用ChatGPT进行机器人设计的原则，并展示了LLM如何帮助机器人能力快速泛化到不同的外形。这项工作考虑了机器人操作和空中导航任务。首先，定义了一个高级机器人函数库，该库映射到机器人可以执行多个原子任务。然后，制作一个提示，其中包括这些函数以及沿着任务描述的所需约束。ChatGPT然后为给定的机器人配置和任务提供可执行代码。然后，用户可以评估生成的代码，并适当的反馈和修改对LLM的提示，以进一步帮助完善和生成可以在物理机器人上部署的安全程序。该研究表明，这种方法可以应用于模拟和现实世界中的多种形式。

D. 决策制定中的情境学习（ICL）

情境学习（ICL）[130] 不需要参数优化，而是依赖于提示中包含的一组示例（提示的概念）。这种学习方法与提示工程密切相关，并在自然语言处理中得到了广泛的应用。思维链方法[131]是情境学习中的一个突出技术。它涉及执行一系列中间步骤，以解决复杂的多步骤问题的最终解决方案。这种技术允许模型生成与人类认知过程平行的逐步解释。然而，尽管ICL有许多好处，但它也面临着某些挑战，包括与模糊性和解释、特定领域知识、透明度和可解释性相关的问题。从广义上讲，情境学习对LLM领域产生了重大影响，许多机器人工作已经使用它将LLM应用于特定领域。

Mirchandani及其同事[132] 研究了这一点，他们说明大型语言模型（LLM）具有卓越的模式识别能力。他们揭示，通过情境学习，LLM可以有效处理超出标准基于语言提示的通用模式。这种能力使得LLM可以在离线轨迹优化和在线情境强化学习等场景中得到应用。此外，Jia及其团队在思维链预测控制[133]的工作中，建议了一种识别演示中特定简短序列的方法，称为“思维链”。他们专注于理解和表示这些序列的层次结构，强调在任务中实现子目标。这项工作考虑了来自演示的机器人策略学习，用于接触丰富的对象操作任务。

E. 机器人Transformer基础模型

通过提供集成了感知、决策和动作生成的框架，可用于机器人的端到端控制。
Xiao等人[48]展示了使用真实世界图像进行自监督视觉预训练，直接从像素输入学习电机控制任务的有效性。这项工作专注于机器人操作任务。他们表明，无需对预训练编码器进行任何任务特定的微调，就可以利用视觉表示进行各种电机控制任务。这种方法突出了利用自监督学习从真实世界图像中获取通用视觉表示的潜力，这些表示可以应用于不同的电机控制任务。类似地，Radosavovic等人[49]研究了在多样化的野外视频中使用自监督视觉预训练对真实世界机器人任务的影响。

这项工作考虑了机器人操作任务。他们发现，从这些视频中获得的预训练表示在一系列真实世界机器人任务中是有效的，考虑了不同的机器人实体。这表明学到的视觉表示在各种任务和机器人平台之间具有良好的泛化能力，展示了自监督预训练在真实世界机器人应用中的广泛适用性。

这两项研究都强调了自监督视觉预训练的优势，即模型在大量未标记数据上进行训练，以学习有用的视觉表示。通过利用真实世界的图像和视频，这些方法使学习来自多样化和非结构化视觉数据成为可能，从而为机器人系统中的运动控制任务带来更健壮和可转移的表示。

另一个基于Transformer的策略模型的例子是机器人Transformer（RT-1）[44]，作者展示了一个显示出有前途的可扩展性属性的模型。为了训练这个模型，作者使用了一个包含超过130k真实世界机器人经验的大型数据集，包括700多个任务，这些数据是在17个月内使用13个机器人收集的。RT-1接收图像和自然语言指令作为输入，并输出离散的基础和手臂动作。它可以泛化到新任务，在变化环境中保持鲁棒性，并执行长期指令。

作者还展示了模型有效吸收来自不同领域数据的能力，包括模拟和不同的机器人。

后续工作，称为机器人Transformer 2（RT2）[45]，展示了一个视觉-语言-动作（VLA）模型，通过从网络和机器人数据中学习，迈出了更大的一步。该模型有效地利用这些数据为机器人控制生成通用动作。为此，作者使用现有的视觉-语言模型，并直接在机器人轨迹上与它们共同微调，从而得到一个作为语言模型、视觉-语言模型和机器人策略运行的单一模型。为了使共同微调成为可能，动作被表示为简单的文本字符串，然后使用LLM标记器将其标记为文本标记。产生的模型RT-2使视觉-语言模型能够输出低级闭环控制。与RT-1类似，动作是基于与相机观察配对的机器人指令产生的，动作空间包括机器人末端执行器的6-DoF位置和旋转位移、夹爪伸展和剧集终止命令。通过广泛的实验，作者表明利用VLM有助于提高视觉和语义概念的泛化，并使机器人能够响应所谓的思维链提示，其中代理执行更复杂的多阶段语义推理。RT-1和RT-2都考虑了使用Everyday Robots的真实世界移动操作机器人进行机器人操作和导航任务。RT-2和其他相关机器人工作的一个关键限制是，机器人展示的物理技能范围限于机器人数据中观察到的技能分布。虽然解决这一限制的一种方法是收集更多样化和灵巧的机器人数据，但可能有其他有趣的研究方向，如使用人类视频、机器人模拟或其他机器人实体中的动作数据。

接下来利用Transformer架构的工作确实集中在从结合了多种机器人实体的数据中学习。在RT-X[46]中，作者提供了多个数据集的标准化数据格式和模型，以探索在机器人操作背景下训练大型跨实体机器人模型的可能性。特别是，他们通过21个机构的合作收集了22个不同机器人的数据集，展示了527种技能（160266个任务）。有了这个统一的数据集，RT-X展示了基于RT-1和RT-2的模型在接受这种多实体、多样化数据的训练后，在机器人领域之间表现出积极的转移，并利用其他平台的经验提高了多个机器人的能力。

其他工作已经研究了用于机器人控制的通用预训练Transformer，这些Transformer是用来自多个机器人的自监督轨迹数据训练的。例如，感知-动作因果Transformer（PACT）[47]是一个生成性Transformer架构，它使用自监督从机器人数据中构建表示。这项工作考虑了机器人导航任务。

PACT在给定的机器人上预训练了对多个任务有用的表示。类似于大型语言模型如何从大量文本数据中学习，PACT是在机器人的丰富安全状态-动作数据（轨迹）上训练的，学习预测适当的安全动作。通过自回归方式随时间预测状态和动作，模型隐含地捕获了特定于机器人的动态和行为。PACT在涉及移动代理的实验中进行了测试：一个装有激光雷达传感器的轮式机器人（MuSHR）和一个使用第一人称RGB图像的模拟代理（Habitat）。结果表明，这种特定于机器人的表示可以作为安全导航、定位和映射等任务的起点。

此外，实验表明，在预训练模型上微调较小的任务特定网络，与同时从头开始训练一个单一模型进行所有任务相比，性能显著更好，与独立训练每个任务的单独大型模型相比，性能相当。

这方面的另一项工作是自监督多任务预训练与控制Transformer（SMART）[134]，它引入了与控制Transformer相关的自监督多任务，为顺序决策任务提供了量身定制的预训练-微调方法。在预训练阶段，SMART捕获了对短期和长期控制都至关重要的信息，促进了跨各种任务的可转移性。随后，微调过程可以适应跨越不同领域的广泛任务。实验强调了SMART在跨任务和领域提高学习效率的能力。这项工作考虑了车杆摆动、车杆平衡、跳跃器跳跃、跳跃器站立、猎豹奔跑、步行者站立、步行者奔跑和步行者行走任务。该方法对分布变化表现出鲁棒性，并证明即使在质量较低的预训练数据集上也有效。

一些工作已经研究了将Transformer模型与经典规划和控制层结合使用，作为模块化机器人控制架构的一部分。例如，在[50]中，提出了一个多模态Transformer（LATTE），它允许用户使用语言指令重新塑造机器人轨迹。

这项工作考虑了机器人操作和导航任务。LATTE Transformer接收初始轨迹猜测的几何特征以及障碍物地图配置、用户的语言指令和环境中每个对象的图像作为输入。模型的输出针对轨迹中的每个航点进行修改，以便最终的机器人运动可以遵循用户的语言指令。初始轨迹计划可以使用任何几何规划器生成，如A∗、RRT∗或模型预测控制。随后，该计划在模型内丰富了语义目标。LATTE利用预训练的语言和视觉-语言模型来利用世界的语义表示。

F. 开放词汇机器人导航和操作

1）开放词汇导航：开放词汇导航解决了通过未见环境导航的挑战。开放词汇能力意味着机器人具有理解并响应语言提示、指令或语义信息的能力，而不受预定义数据集的限制。在本节中，我们探讨了检查将LLM、VLM或两者结合以即插即用方式集成到机器人导航任务中的论文。此外，我们还讨论了通过构建明确为机器人导航任务量身定制的基础模型的不同方法的论文。

在VLN-BERT[135]中，作者提出了一个基于视觉-语言Transformer的模型，该模型利用多模态视觉和语言表示使用网络数据进行视觉导航。

该模型旨在评估指令（如“…在棕色沙发上停下来”）与代理捕获的一系列全景RGB图像之间的兼容性。

类似地，LM-Nav[136]考虑了视觉导航任务。

LM-Nav是一个系统，它利用预训练的图像和语言模型为视觉导航提供文本界面。LM-Nav展示了从自然语言指令在真实世界室外环境中进行视觉导航。LMNav利用了一个LLM（GPT-3[2]）、一个VLM（CLIP[4]）和一个VNM（视觉导航模型）。首先，LM-Nav通过VNM构建环境的拓扑图，估计图像之间的距离。然后使用LLM将自然指令翻译成中间语言地标序列。VLM用于通过地标和图像的联合概率分布，将视觉观察与地标描述结合起来。使用VLM的概率分布、LLM指令和VNM的图连通性，使用搜索算法规划最优路径。然后由VNM的目标条件策略执行计划。

虽然LM-Nav利用LLM和VLM作为视觉导航任务的即插即用工具，但ViNT[137]的作者提议构建一个针对视觉导航任务的基础模型。ViNT是一个图像目标条件导航策略，它在多样化的训练数据上进行训练，并且可以在零次拍摄中控制不同的机器人。它可以微调以适应不同的机器人平台和各种下游任务。

ViNT在来自不同机器人平台的各种导航数据集上进行训练。它以目标达成目标进行训练，并利用基于Transformer的架构来学习导航性。ViNT使用EfficientNet CNN对视觉观察和视觉目标进行编码，并以不受具体实现限制的方式预测时间距离和归一化动作。此外，ViNT可以通过基于扩散的子目标提议来增强，以帮助探索在训练期间未遇到的环境。图像到图像的扩散生成子目标图像，ViNT然后导航到这些图像，同时在后台构建拓扑图。

另一项考虑零次拍摄导航任务的工作是音频视觉语言地图（AVLMaps）[138]。AVLMaps为来自音频、视觉和语言提示的跨模态信息提供了3D空间地图表示。AVLMaps接收多模态提示并在真实世界中执行零次拍摄导航任务。输入是深度和RGB图像、相机姿态和音频。使用预训练的基础模型对视觉特征进行编码。计算视觉定位特征（使用NetVLAD[139]、SuperPoint[140]）、视觉-语言特征（使用LSeg[58]）和音频-语言特征（使用AudioCLIP[141]），并将不同模态的预测组合成3D热图。计算热图的逐像素联合概率，并用于规划。此外，导航策略作为可执行代码生成，借助GPT-3的帮助。最后，预测3D热图，指示多模态概念（如对象、声音和图像）的位置。

许多机器人专家可能会对经典模块化机器人导航系统与端到端学习系统的优势进行比较。语义导航[142]试图通过提出对语义视觉导航方法的实证分析来解决这个问题。该研究比较了在六种不同的家庭中，没有任何先验知识、地图或仪器的经典、模块化和端到端学习范式的方法。研究发现，模块化学习方法在现实世界场景中表现良好。相比之下，端到端学习方法由于模拟和真实世界图像之间存在显著的领域差距，面临挑战。这一领域差距阻碍了端到端学习方法在真实世界导航任务中的有效性。对于从业者来说，该研究强调模块化学习是对象导航的可靠方法。策略设计中的模块化和抽象化使得从模拟到现实的成功转移，使模块化学习成为实际实施的有效选择。对于研究人员来说，该研究还突出了限制当前模拟器作为评估基准可靠性的两个关键问题。首先，图像中存在大量的Simto-Real差距，这阻碍了从模拟到现实世界学习策略的可转移性。其次，模拟和真实世界错误模式之间存在脱节，这进一步复杂化了评估过程。

开放词汇导航的另一条研究线是对象导航任务。在这项任务中，机器人必须能够找到人类描述的对象并导航到该对象。导航任务在语言目标未检测到时被分解为探索，在目标被检测到并且机器人导航到目标时被分解为利用。

随着机器人在环境中移动，它使用RGB-D观察和姿态估计创建自上而下的地图。在[143]中，作者引入了一个零次拍摄对象导航设置，使用开放词汇分类器（如CLIP[4]）计算图像和用户指定描述之间的余弦相似度。

这些类型问题的常见数据集和基准是Matterport3D[144]、[145]、Gibson[146]和Habitat[147]。L3MVN[148]通过构建环境地图并使用大型语言模型的推理能力选择长期目标，增强了视觉目标导航。

系统可以利用预训练的语言模型（如RoBERTa-large[149]）确定适当的长期导航目标，实现有效的探索和搜索。Chen等人[150]提出了一个无需训练的模块化系统，用于对象目标导航，该系统通过主动探索构建结构化场景表示。

系统利用场景图中的语义信息推断目标对象的位置，并将语义与几何边界整合，使代理能够有效地导航到最有希望的对象搜索区域，同时避免在不熟悉的环境中绕道。

HomeRobot[151]为开放词汇移动操作（OVMM）任务引入了一个基准。OVMM任务是在任何未见环境中找到对象、导航到对象、捡起对象并导航到目标位置放置对象的问题。HomeRobot为模拟和真实世界中的OVMM任务提供了基准。

2）开放词汇操作：开放词汇操作指的是在以前未见的环境中操纵任何对象的问题。视觉运动注意力代理（VIMA）[152]从多模态提示中学习机器人操作。VIMA是一个基于Transformer的代理，它预测基于任务提示和交互历史的电机命令。VIMA引入了一种结合文本和视觉标记的新形式的任务规范。多模态提示将不同的机器人操作任务，如视觉目标到达、从视觉演示中学习以及新概念定位转化为一个序列建模问题。

它提供了跨不同任务的统一策略训练，可能允许零次拍摄泛化到以前未见的任务。VIMA-BENCH作为多模态机器人学习的基准被引入。VIMA-BENCH模拟器支持可以在多模态提示中使用的物体和纹理集合。RoboCat[153]是一个自我改进的AI代理。它使用一个1.18B参数的仅解码器Transformer。

它学习操作不同的机器人手臂，从最少100个演示中解决问题，并从自生成的数据中改进。RoboCat基于Gato[154]架构，并用自我改进周期进行训练。

为了让机器人在真实世界中有效操作，它们必须能够操纵以前未见的对象。刘等人提出了StructDiffusion[155]，旨在使机器人能够使用部分视点云和自然语言指令构建以前见过或未见的对象的目标配置。他们首先使用分割将场景分割成对象。

然后他们使用多模型Transformer结合单词和点云嵌入，并输出6-DoF目标姿态预测。预测通过扩散和训练有素的鉴别器进行迭代细化，以确定采样的配置是否可行。开放世界对象操作（MOO）[156]利用预训练的视觉-语言模型从语言命令和图像中提取以对象为中心的信息，并将机器人策略限定在当前图像、指令和提取的对象信息上，以图像上叠加的单像素形式。MOO使用Owl-ViT进行对象检测，并使用RT-1进行语言条件策略学习。

机器人操作的另一个任务涉及自动场景重新排列和内部绘画。DALL-E-Bot[157]使用预训练的图像扩散模型DALL-E2[88]以类似人类的方式执行零次拍摄自动场景重新排列。DALL-E-Bot自动对象重新排列不需要任何进一步的数据收集或训练。首先，初始观察图像（混乱场景）被转换为每个对象的表示，包括使用Mask R-CNN[158]的分割掩码、对象标题和CLIP视觉特征向量。然后通过描述场景中的对象生成文本提示，并将其提供给DALL-E以创建重新排列任务的目标图像（对象应该以类似人类的方式重新排列）。

接下来，使用它们的CLIP视觉特征匹配初始和生成图像中的对象。通过对齐它们的分割掩码来估计姿态。机器人根据估计的姿态重新排列场景，以创建生成的布局。

在表II中，报告了一些特定于机器人的基础模型，以及有关它们的规模、架构、预训练任务、推理时间和硬件设置的信息。

IV. 感知

与周围环境交互的机器人接收不同形式的原始感官信息，如图像、视频、音频和语言。这些高维数据对机器人理解、推理和在环境中交互至关重要。包括在视觉和自然语言处理领域开发的基础模型在内的基础模型，是将这些高维输入转换为更易于解释和操作的抽象、结构化表示的有前途的工具。特别是，多模态基础模型使机器人能够将不同的感官输入整合到一个统一的表示中，包含语义、空间、时间和可供性信息。这些多模态模型反映了跨模态交互，通常通过跨模态对齐元素以确保连贯性和对应关系。例如，文本和图像数据被对齐用于图像字幕任务。本节将探讨一系列与机器人感知相关的任务，这些任务通过使用基础模型对齐模态得到改进，重点关注视觉和语言。机器学习社区有大量文献研究多模态性，感兴趣的读者可以参考调查论文 [161]，该论文提出了多模态学习的分类。我们关注多模态模型在机器人学中的应用。
在这里插入图片描述

A. 开放词汇对象检测和 3D 分类

对象检测：

零次拍摄对象检测允许机器人识别和定位它们以前从未遇到过的对象。Grounded Language-Image Pre-training (GLIP) [52] 通过将对象检测重新定义为短语定位来集成对象检测和定位。这种重新定义使得可以学习到既具有语言意识又在对象级别语义丰富的视觉表示。
在这个框架中，检测模型的输入不仅包括图像，还包括描述检测任务所有潜在类别的文本提示。为了训练 GLIP，编译了一个包含 2700 万个定位实例的数据集，包括 300 万个人工标注对和 2400 万个通过网络爬虫获得的图像 - 文本对。研究表明，GLIP 在广泛的对象级识别任务中具有出色的零次拍摄和少次拍摄可转移性。最近，PartSLIP [162] 展示了 GLIP 可以用于 3D 对象的低次拍摄部分分割。
PartSLIP 从多个视图渲染对象的 3D 点云，并将这些视图中的 2D 边界框结合起来检测对象部分。为了处理来自不同视图的嘈杂 2D 边界框，PartSLIP 在 3D 的超点上运行投票和分组方法，将多视图 2D 标签分配给超点，并最终对超点进行分组以获得精确的部分分割。为了实现 3D 部分分割的少次拍摄学习，提出了提示调整和多视图特征聚合以提高性能。
OWL-ViT [51] 是一个开放词汇对象检测器。OWL-ViT 使用具有对比图像 - 文本预训练和检测端到端微调的视觉 Transformer 架构。与将检测框架定义为具有单个文本查询的短语定位问题并限制可能的对象类别数量的 GLIP 不同，OWL-ViT 可以处理多个基于文本或图像驱动的查询。OWL-ViT 已被应用于机器人学习，例如在 VoxPoser [34] 中作为开放词汇对象检测器来寻找 “感兴趣的实体”（例如，花瓶或抽屉把手），并最终定义值图以优化操作轨迹。
Grounding DINO [53] 结合了 DINO [105] 和定位预训练，通过融合视觉和语言将封闭集 DINO 模型扩展到开放集检测。Grounding DINO 在开放集对象检测中的表现优于 GLIP。这种优越的性能主要是由于 Grounding DINO 的 Transformer 架构，它促进了多模态特征在多个阶段的融合。

3D 分类：

零次拍摄 3D 分类器可以使机器人在没有明确训练数据的情况下对环境中的对象进行分类。基础模型是执行 3D 分类的强大候选。PointCLIP [54] 通过将点云与文本对齐，将 CLIP 对 2D 图像的预训练知识转移到 3D 点云理解。作者提出将每个点投影到一系列预定义的图像平面上来生成深度图。然后，CLIP 视觉编码器用于编码点云的多视图特征，并为每个视图预测自然语言的标签。点云的最终预测是通过加权聚合每个视图的预测来计算的。PointBERT [55] 使用基于 Transformer 的架构从点云中提取特征，将 BERT 的概念推广到 3D 点云。
与将匹配点云和文本的任务转换为图像 - 文本对齐的 PointCLIP 不同，ULIP [56]，[57] 是一种用于 3D 理解的语言、图像和点云的统一表示。它通过预训练对象三元组（图像、文本、点云）来实现这一点。该模型是使用来自 ShapeNet55 [163]（一个大规模 3D 模型库）的少量自动合成的三元组进行训练的。ULIP 使用 CLIP 作为视觉 - 语言模型。在预训练期间，CLIP 模型保持冻结状态，并通过使用对比学习将对象的 3D 特征与其与 CLIP 相关的文本和视觉特征对齐来训练 3D 编码器。预训练过程允许 ULIP 学习一个联合嵌入空间，其中三种模态被对齐。ULIP 的一个主要优点是它可以显著提高 3D 骨干模型的识别能力。这是因为预训练过程允许 ULIP 学习到更健壮和有区分性的特征，然后可以用来提高 3D 模型的性能。ULIP 的另一个优点是它对 3D 模型架构不敏感，因此可以轻松集成到现有 3D 管道的预训练过程中。ULIP 采用 BERT 的掩蔽语言建模到 3D，通过在预训练期间随机标记 3D 补丁并预测回它们来标记化 3D 补丁。ULIP [56]，[57] 已经表明，通过使用 ULIP 的统一多模态表示，可以提高 PointBERT 等模型的识别能力。

B. 开放词汇语义分割

语义分割将图像中的每个像素分类到语义类别中。这提供了关于对象边界和图像内位置的细粒度信息，并使具体化的代理能够在更细粒度的层面上理解和与环境交互。有几项工作探索了如何通过使用 CLIP 等基础模型来增强语义分割任务的泛化能力和灵活性。
LSeg 是一种语言驱动的语义分割模型 [58]，它将语义相似的标签关联到嵌入空间中的相似区域。LSeg 使用基于 CLIP 架构的文本编码器来计算文本嵌入，并使用具有密集预测 Transformer (DPT) [164] 架构的图像编码器。类似于 CLIP，LSeg 使用文本和图像嵌入创建一个联合嵌入空间。LSeg 在训练时冻结文本编码器，并训练图像编码器以最大化文本嵌入和真实像素类别的图像像素嵌入之间的相关性。它允许用户在测试时任意缩小、扩展或重新排列任何图像的标签集（包含未见过的类别）。
Segment Anything Model (SAM) [59] 引入了一个用于可提示分割的框架，包括可提示分割的任务定义、一个分割基础模型（即 Segment Anything Model，或 SAM）和一个数据引擎。SAM 适应了一个预训练的视觉 Transformer，来自掩蔽自编码器（MAE）[113] 作为图像编码器，同时使用来自 CLIP [114] 的文本编码器进行稀疏提示（点、框和文本）和用于掩模的单独密集提示编码器。与其他在网络规模数据上以无监督方式训练的基础模型不同，SAM 是使用数据引擎进行监督学习训练的，这些数据引擎有助于扩大可用注释的数量。与模型一起，作者发布了 Segment Anything 1 Billion (SA-1B) 数据集。它由 11M 图像和 11 亿个分割掩模组成。在这项工作中，作者对五个零次拍摄转移任务进行了实验，包括点有效掩模评估、边缘检测、对象提议、实例分割和文本到掩模。系统的可组合设计，由提示工程技术促进，使得与专门为固定任务集训练的系统相比，应用范围更广。然而，这项工作的一个局限性，特别是与机器人应用相关，是 SAM 不能实时运行。
FastSAM [60] 和 MobileSAM [61] 在更快的推理速度下实现了与 SAM 相当的性能。Track Anything Model (TAM) [62] 结合了 SAM 和 XMem [165]，一个先进的视频对象分割（VOS）模型，实现了交互式视频对象跟踪和分割。Anything-3D [166] 采用了一系列的视觉 - 语言模型和 SAMs，将对象提升到 3D 领域。它使用 BLIP [108] 生成文本描述，同时使用 SAM 从视觉输入中提取感兴趣的对象。然后，Anything-3D 使用文本到图像扩散模型将提取的对象提升到神经辐射场（NeRF）[167] 表示中，使它们能够集成到 3D 场景中。
在这些显著进展中，实现实时性能的细粒度检测仍然具有挑战性。例如，LSeg [58] 报告了与误分类相关的失败案例，当测试时输入标签不包括像素的真实标签时，模型因此将最高概率分配给最接近的标签。另一个失败案例发生在一个特定像素可以有多个正确标签时，模型必须将其分类为其中的一个类别。例如 “窗户” 和 “房子” 可能都被定义为标签，但在推理过程中，代表 “窗户” 的像素可能被错误地标记为 “房子”。SAM 也不能为细结构提供精确的分割，并且经常无法产生清晰的边界。所有使用 SAM 作为子组件的模型可能会遇到类似的局限性。在未来，应该考虑能够为像素分配多个标签的细粒度语义分割模型，当有多个正确的描述时。此外，对于机器人应用来说，开发能够实时运行的模型至关重要。

C. 开放词汇 3D 场景和对象表示

场景表示使机器人能够理解其周围环境，促进空间推理，并提供上下文感知。语言驱动的场景表示将文本描述与视觉场景对齐，使机器人能够将单词与对象、位置和关系关联起来。在本节中，我们研究了使用基础模型来增强场景表示的最新工作。

3D 场景中的语言定位：

语言定位是指结合环境的几何和语义表示。一种可以为代理提供强大几何先验的表示是隐式表示。隐式表示的一个例子是神经辐射场（NeRF）[167]-[169]。NeRF 从不同视点捕获的一组 2D 图像（无需显式深度信息）创建场景和对象的高质量 3D 重建。NeRF 神经网络以相机姿态为输入，并预测场景的 3D 几何形状以及颜色和强度。大多数基于 NeRF 的模型都在单一环境中记忆光场，并且没有在大量数据集上预训练，因此它们不是基础模型。然而，可以结合 CLIP 等基础模型与 NeRF 一起使用，以从代理的环境中提取语义信息。
Kerr 等人 [64] 提出了将 CLIP 嵌入到密集多尺度 3D 场中的语言嵌入辐射场（LERFs）。这产生了一个可以查询以产生语义相关性图的环境的 3D 表示。LERF 模型以 3D 位置（x，y，z）、视向（φ，θ）和缩放因子为输入，并输出 RGB 值、密度（σ）以及 DINO [105] 和 CLIP 特征。LERF 在两个阶段进行优化：最初，计算训练视图上 CLIP 嵌入的多尺度特征金字塔；然后，使用图像缩放和平位置换金字塔以获得 CLIP 嵌入；最后，通过余弦相似度监督 CLIP 嵌入，并使用标准均方误差监督 RGB 和密度。
像 LERF 这样的模型继承了 CLIP 和 NeRF 的缺点。例如，CLIP 在捕获对象之间的空间关系方面存在困难。此外，CLIP 的语言查询可能会突显出类似于词袋模型的显著问题，后者难以区分具有相反情感的术语。此外，NeRF 依赖于与预先捕获的多视图图像相关联的已知相机姿态。
在 CLIP-Fields [170] 中，隐式场景表示 g (x, y, z)：R3 → Rd 通过将 d 维潜在向量解码到不同模态特定的输出来训练。该模型通过将像素标签反投影到 3D 空间并训练输出头以使用对比损失从开放词汇对象检测器 Detic、CLIP 视觉表示和使用对比损失的一热实例标签来预测语义标签，从而从预训练的图像模型中提取信息。然后可以将场景表示用作分割、实例识别、空间上的语义搜索和从图像中进行 3D 视图定位的空间数据库。
另一项相关工作是 VLMaps [171]，它将 LSeg 的像素嵌入投影到自上而下的网格地图中的网格单元。这种方法不需要训练，而是直接将像素嵌入反投影到网格单元，并平均重叠区域中的值。通过结合 VLMap 和代码编写 LLM，作者展示了使用地标（例如，移动到植物）或相对于地标的空间引用（在键盘和碗之间）进行空间目标导航。Semantic Abstraction（SemAbs）[172] 通过将视觉 - 语义推理和 3D 推理解耦，提出了另一种 3D 场景理解方法。在 SemAbs 中，给定场景的 RGB-D 图像，语义感知的 2D VLM 为每个查询对象提取 2D 相关性图，而语义抽象的 3D 模块使用相关性图预测每个对象的 3D 占用。由于 3D 模块的训练与特定对象标签无关，因此系统展示了强大的泛化能力，包括对新对象类别的泛化和从模拟到真实世界的泛化。
当前的 VLM 可以推理 2D 图像，但它们并不在 3D 世界中扎根。构建 3D VLM 基础模型的主要挑战是 3D 数据的稀缺性。特别是，与语言描述配对的 3D 数据稀缺。解决这个问题的一种策略是利用在大规模数据上训练的 2D 模型来监督 3D 模型。例如，FeatureNeRF [173] 的作者提出了通过神经渲染将 2D 视觉基础模型（即 DINO 或 Latent Diffusion）蒸馏到 3D 空间中，以学习 3D 语义表示。FeatureNeRF 从单个或少量图像中预测连续的 3D 语义特征体积，这些特征体积可以用于关键点转移或对象部分共分割等下游任务。
在 3D-LLM [11] 中，作者提出使用 2D VLM 作为主干来训练 3D-LLM，该模型可以接受 3D 表示（即具有其特征的 3D 点云）作为输入，并完成一系列不同的 3D 相关任务。3D 特征从 2D 多视图图像中提取，并映射到 2D 预训练 VLM 的特征空间。为了克服 3D 数据的稀缺性，作者提出了一种有效的提示程序，用于 ChatGPT 生成包含各种任务的 3D - 语言数据。这些任务包括 3D 字幕、密集字幕、3D 问答、3D 任务分解、3D 定位、3D 辅助对话和导航。此外，为了捕获 3D 空间信息，作者提出了一种 3D 定位机制，通过 1）将 3D 特征与位置嵌入相结合，2）将 LLM 词汇表与 3D 位置标记相结合。在第一部分中，生成并连接了三个维度的位置嵌入和 3D 特征。在第二部分中，表示定位区域的边界框的坐标被离散化为体素整数作为位置标记 < xmin, ymin, zmin, xmax, ymax, zmax>。重要的是要强调，通常创建 3D 表示需要使用 2D 多视图图像和相机矩阵。这些资源并不像当前基础模型训练的大量互联网规模的文本和图像数据那样容易获得。

场景编辑：

当具体化的代理依赖于世界的隐式表示时，编辑和更新这种表示的能力增强了机器人的适应性。例如，考虑一个场景，机器人使用预训练的 NeRF 模型进行导航和操作。如果环境的一部分发生变化，能够调整 NeRF 而不必从头开始重新训练模型，可以节省时间和资源。
在 NeRF 的情况下，Wang 等人 [63] 提出了一种称为 CLIPNeRF 的文本和图像驱动的方法来操纵 NeRF。这种方法使用 CLIP 来分离条件神经辐射场中形状和外观的依赖关系。CLIP-NeRF 使用图像或文本提示来编辑 NeRF 的形状和外观。它由两个模块组成：分离的条件 NeRF 和 CLIP 驱动的操作。前者以位置编码 γ(x, y, z)、形状代码 zs、视向 v (φ, θ) 和外观代码 za 为输入，并输出颜色和密度。通过将变形网络作为输入附加到传统的 NeRF MLP20，该网络产生密度，并通过将此 MLP 的输出与外观代码连接起来以获得颜色值，从而实现解耦。CLIP 驱动的操作模块以图像示例或文本提示为输入，并分别输出形状变形∆zs 和外观变形∆za，分别来自形状映射和外观映射 MLP。这些变形值旨在扰乱分离条件 NeRF 模块中的形状代码和外观代码，以产生所需的输出。
CLIP-NeRF 方法的一个关键限制是提示可能会影响整个场景而不仅仅是选定区域。例如，提示更改花瓣的颜色可能会影响其叶子的形状和颜色。为了解决这个限制，Kobayashi 等人提出了训练蒸馏特征场（DFFs）[65]，然后通过基于查询的场景分解和编辑来操纵 DFFs。使用预训练的 2D VLM（如 LSeg [58] 和 DINO [105]）作为教师网络，并通过体积渲染将其蒸馏成 3D 蒸馏特征场。通过两个 NeRF 场景的密度和颜色值的 alpha 合成来实现编辑。当与 CLIP-NeRF 结合使用时，这种方法使 CLIP-NeRF 能够有选择地编辑多对象场景的特定区域。Tschernezki 等人在 [174] 中探索了一种类似的方法，作者展示了与使用原始 2D 图像中的特征相比，强制执行 NeRF 嵌入中特征的 3D 一致性提高了分割性能。
更受控的 3D 场景编辑的另一种方法是使用结构化的 3D 场景表示。Nerflets [175] 将 3D 场景表示为局部神经辐射场的组合，每个局部神经辐射场都保持自己的空间位置、方向和尺寸。与标准 NeRF 使用单个大型 MLP 来预测颜色和密度不同，各个 Nerflets 被组合起来预测这些值，由其权重调节。在优化姿势 2D 图像和分割之后，Nerflets 反映了分解的场景，并支持更受控的编辑。
机器人中图像编辑的一个应用是在策略学习期间进行数据增强。ROSIE [176] 使用 Imagen 编辑器 [177] 修改训练图像，添加额外的干扰物和未见过的物体和背景，以训练鲁棒的模仿学习策略。GenAug [178] 类似地生成具有类别内和跨类别对象替换、视觉干扰物和多样化背景的图像。CACTI [14] 流程包括一个步骤，通过 Stable-Diffusion [117] 在训练图像上绘制不同可能的物体。这些方法为训练鲁棒策略生成逼真的图像；然而，在保持物理现实感的同时生成足够多样性的图像，例如对于物体接触，仍然是一个挑战。现有方法使用学习或提供的掩模来指定要保留的图像区域，或基于特定机器人任务的启发式规则。
另一个方向是使用生成模型来定义计划的目标图像。DALL-E-Bot [157] 使用 DALL-E 2 从观察中定义类人排列的目标图像。

对象表示：

学习对象之间的对应关系可以促进操作，通过在已知类别或测试时的新颖对象类别中从训练对象转移到新颖对象实例来实现技能转移。
传统上，使用关键点和关键帧等强监督来学习对象对应关系。神经描述场（NDFs）[179] 通过利用占用网络的逐层激活消除了密集注释的需要；然而，这种方法仍然需要每个目标对象类别的许多训练形状。其他工作已开始直接从预训练视觉模型的图像特征中构建对象表示。
机器人操作的特征场（F3RM）[180] 基于 DFF 开发支持查找相应对象区域的场景表示。F3RM 使用与 NDF 相似的特征表示用于相对于对象的 6-DoF 姿态（例如，抓住杯子的把手），除了允许从一些演示中找到相应的 6-DoF 姿态外，姿态嵌入也可以直接与 CLIP 的文本嵌入进行比较，以利用语言指导（例如，拿起碗）。对象之间的对应关系也直接从 DINO 特征 [181] 中提取，无需训练。这种方法首先使用多个视图提取两个对象的密集 ViT 特征图。通过在特征图上计算循环距离度量 [182] 来找到两个对象上的相似区域。有了 2D 补丁对应关系，就可以使用 RANSAC 和 Umeyama 的方法 [183] 一起解决对象之间的 7-D 刚体变换（即，一个 SO (3) 姿态、一个平移和一个缩放标量）。

D. 学习到的可供性

可供性指的是对象、环境或实体向代理提供特定功能或交互的潜力。它们可以包括推动、拉动、坐下或抓取等动作。检测可供性弥合了感知和行动之间的差距。
可供性扩散 [66] 综合了例如一个铰接手与给定对象的复杂交互。给定一个 RGB 图像，可供性扩散旨在生成人手与手 - 对象交互（HOI）的图像。作者提出了一个基于大规模预训练扩散模型的两步生成方法，基于交互的位置（布局）和交互的方式（内容）。布局网络生成手和对象的 2D 空间布局。内容网络然后合成手抓住对象的图像，条件是给定的对象和采样的 HOI 布局。可供性扩散输出手的铰接和接近方向。
视觉 - 机器人桥（VRB）[67] 在人类行为的互联网视频上训练一个视觉可供性模型。特别地，它估计人类在场景中交互的可能位置和方式。这个模型捕捉了这些行为可供性的结构信息。作者将可供性模型无缝集成到四种不同的机器人学习范式中。首先，他们应用离线模仿学习，机器人通过模仿视频中观察到的人类交互来学习。其次，他们使用探索技术使机器人能够主动发现并学习其环境中的新可供性。第三，作者结合了目标条件学习，允许机器人通过利用估计的可供性来学习如何实现特定目标。最后，他们整合了强化学习的行动参数化，使机器人能够根据估计的可供性优化其行动来学习复杂行为。

E. 预测模型

预测动力学模型或世界模型预测在特定代理动作下世界状态如何变化，即，它们尝试模拟世界的状态转移函数 [184]。当应用于视觉观察时，动力学建模可以被表述为一个视频预测问题 [185]，[186]。虽然视频生成和预测，特别是长期预测，是一个长期存在的挑战，但基于视觉变换器和扩散模型的最新模型已经展示了改进 [187]，[188]。例如，Phenaki 模型 [189] 根据文本提示生成可变长度的视频，长度可达数分钟。
文献中有几项方法将这些模型应用于机器人学。请注意，虽然在受限或小数据环境中探索了机器人学中学习到的动力学或世界模型，但本节我们关注于在基础模型特征的数据多样性或体量上训练的作品。一种策略是学习一个动作条件模型，该模型可以直接用于下游规划，通过优化动作序列 [190]，即执行模型预测控制，或通过在模拟滚动上训练用于策略学习。一个例子是 GAIA-1 模型，它根据任意组合的视频、动作和文本生成驾驶视频的预测 [191]。它在 4700 小时的专有驾驶数据上进行了训练。另一种方法是使用视频预测模型生成未来状态的计划，然后学习一个单独的目标条件策略或逆动力学模型，以基于当前和目标状态推断控制动作。通过结合文本条件视频扩散模型和图像目标条件策略来解决模拟和真实桌面环境中的操作任务，这种方法已经被实现 [192]。通过使用 PaLM-E VLM 将高级语言目标分解为更小的子步骤，并利用 VLM 和视频生成模型之间的反馈，这种方法已经扩展到更长期的物体操纵任务 [193]。
另一个例子是 COMPASS [160]，它首先构建了一个全面的多模态图，以捕获不同模态之间的关键关系信息。然后使用该图来构建丰富的时空和语义表示。COMPASS 在 TartanAir 多模态数据集上进行了预训练，被证明可以解决包括无人机导航、车辆竞赛和视觉里程计在内的多个机器人任务。

V. 具体化的人工智能

最近，研究人员已经展示了大型语言模型（LLM）的成功可以扩展到具体化的人工智能领域 [32]，[33]，[42]，[194]，其中 “具体化” 通常指的是在世界模拟器中的虚拟具体化，而不是物理机器人的具体化。Statler [69] 是一个框架，它赋予 LLMs 一个显式的世界观表示形式，作为随时间维护的 “记忆”。Statler 使用两个通用 LLMs 的实例：世界观模型阅读器和世界观模型写入器，它们与世界观接口并维护世界观。Statler 提高了现有 LLMs 在没有上下文长度限制的情况下对更长时间范围进行推理的能力。
大规模语言模型（LSLMs）表现出强大的推理能力，并通过上下文学习适应新任务。Dasgupta 等人 [195] 将这些互补的能力结合在一个由三部分组成的单一系统中：规划器、执行者和报告者。规划器是一个预训练的语言模型，可以向一个简单的具体化代理（执行者）发出命令，而报告者与规划器通信以通知其下一个命令。Mu 等人 [70] 构建了 EgoCOT，这是一个由 Ego4D 数据集中精心挑选的视频组成，以及相应的高质量语言指令的数据集。EmbodiedGPT [70] 利用前缀适配器来增强 7B 语言模型生成高质量规划的能力，通过在 EgoCOT 数据集上训练它，以避免过于发散的语言模型响应。进行了全面的实验，证明了该模型有效地提高了具体化任务的性能，如具体化规划、具体化控制、视觉字幕和视觉问答。
具体化代理应该能够自主地、无止境地探索环境。它们应该积极寻求新的体验，获得新技能，并改进自己。
Minecraft 游戏 [196] 为设计能够在开放世界中运行的智能代理提供了一个平台。MineDojo [71] 是开发 Minecraft 游戏中通用代理的框架。MineDojo 提供了数千个开放式和语言提示的任务，在这些任务中，代理可以在逐渐生成的 3D 环境中导航，挖掘、制作工具和建造结构。作为这项工作的一部分，作者介绍了 MiniCLIP，这是一个视频 - 语言模型，它学习捕捉视频片段和描述视频的文本之间的相关性。在 YouTube 视频上训练的 MineCLIP 模型可以用作强化学习训练代理的奖励函数。通过最大化这个奖励函数，它鼓励代理朝着用自然语言指定的任务取得进展。
Voyager [73] 介绍了一个由 LLM 驱动的具体化终身学习代理，在 Minecraft 领域。Voyager 使用 GPT-4 不断探索环境。它通过上下文提示与 GPT-4 交互，不需要模型参数微调。通过查询 GPT-4 来提供基于代理历史交互和当前情况的新任务和挑战，从而最大化探索。此外，迭代提示机制生成代码作为动作空间来控制 Minecraft 代理。迭代提示结合了 Minecraft 提供的反馈、执行错误和自我验证方案。
对于自我验证，GPT-4 充当评论家，通过检查任务成功并在失败的情况下提供完成任务的建议。在失败的情况下，GPT-4 评论家可以被人类评论家替换，以在任务执行期间提供即时的人类反馈。Ghost in the Minecraft (GITM)[197] 利用 LLM 将目标分解为子目标，并将它们映射到生成控制信号的结构化动作。GITM 由三个组件组成：LLM 分解器、LLM 规划器和 LLM 接口。LLM 分解器负责将给定的 Minecraft 目标分解为子目标树。然后 LLM 规划器为每个子目标计划一个动作序列。最后，LLM 接口使用键盘和鼠标操作在环境中执行每个动作。
具体化人工智能虚拟环境中的强化学习有潜力通过在安全和受控的环境中提供有效的训练和优化控制策略来提高现实世界机器人的能力。奖励设计是强化学习的一个关键方面，它影响机器人的学习过程。奖励应该与任务目标一致，并指导机器人完成所需任务。基础模型可以利用来设计奖励。Kwon 等人 [16] 通过使用大型语言模型（LLM），如 GPT-3，作为代理奖励函数，研究了奖励设计的简化。在这种方法中，用户提供一个包含所需行为的几个例子（少镜头）或描述（零镜头）的文本提示。提出的方法将这个代理奖励函数纳入强化学习框架内。用户在训练过程开始时指定一个提示。在训练期间，RL 代理的行为通过 LLM 根据提示中概述的所需行为进行评估，从而生成由 LLM 生成的相应奖励信号。随后，RL 代理使用这个奖励来通过学习过程更新其行为。
在 [74] 中，作者提出了一种称为使用 LLMs 探索（ELLM）的方法，该方法奖励代理实现语言模型建议的目标。语言模型被提示与代理当前状态的描述。因此，ELLM 在没有人工参与的情况下指导代理朝着有意义的行为发展。
Zhang 等人 [198] 探索了离线强化学习和语言建模之间的潜在关系。他们假设 RL 和 LM 在基于当前和过去的状态预测未来状态方面有相似之处，考虑了状态之间的局部和长期依赖。为了验证这个假设，作者在不同的离线 RL 任务上预训练 Transformer 模型，并评估它们在各种语言相关任务上的性能。Tarasov 等人 [199] 提出了一种利用预训练语言模型在深度离线强化学习场景中的方法，这些场景与文本表示并不固有兼容。作者提出了一种方法，涉及将 RL 状态转换为人类可读的文本，并在训练期间使用深度离线 RL 算法对预训练语言模型进行微调。
基础模型的模型架构（例如，变换器）的进步允许模型有效地建模和预测序列。为了利用这些模型的力量，一些最近的研究调查了利用这些架构进行强化学习问题中的序列建模。Reid 等人 [200] 探索了利用强化学习的序列建模公式的潜力，并检查了预训练序列模型在不同领域（如视觉和语言）的可转移性。他们特别关注在包括控制和游戏在内的离线 RL 任务上微调这些预训练模型的有效性。除了调查预训练序列模型的可转移性外，作者还提出了增强这些领域之间知识转移的技术。这些技术旨在提高预训练模型在应用于新任务或领域时的适应性和性能。
在具体化人工智能环境中展示了使用 LLMs 的高级任务规划。Huang 等人 [68] 提出使用预训练的语言模型（LMs）作为零镜头规划器。该方法在 VirtualHome [129] 环境中进行了评估。在这项工作中，首先，一个自回归 LLM，如 GPT-3 [2] 或 Codex [201]，被挖掘以生成高级任务的动作计划。由于语言的歧义或引用在环境中不存在或未定位的对象，这些动作计划中的一些可能无法由代理执行。因此，为了选择可接受的动作计划，可接受的环境动作和因果 LLM 生成的动作使用 BERT 风格的 LM 进行嵌入。然后对于每个可接受的环境动作，使用表亲相似性计算其与生成动作的语义距离。
为具体化代理提出了推理（例如，思维链）和行动（例如，动作序列生成）的结合。ReAct [202] 在 LLM 内结合了推理（例如，思维链）和行动（例如，动作序列生成）。推理追踪提高了模型推断、监控和修订动作计划的能力，以及有效管理异常。行动促进了与外部资源的交互，如知识库或环境，使其能够获取补充信息。ReAct 在包括问答和事实验证在内的广泛语言和决策任务上展示了其熟练程度。它通过透明地说明寻找证据和制定结论的过程，增强了用户的可解释性和信任度。
与依赖单一思维链的先前方法不同，ReAct 与 Wikipedia API 进行交互，以获取相关信息检索和信念更新。这种策略有效地缓解了与思维链推理常见的问题，如幻觉和错误传播。
VPT [72] 提出了视频预训练，代理通过观看未标记的在线视频学习行动。研究表明，可以使用少量标记的数据集训练逆动力学模型，并且该模型可以用来标记互联网上的大量未标记数据。使用玩过 Minecraft 的人的视频来训练具体化 AI 代理玩 Minecraft。该模型展示了零镜头性能，并且可以使用模仿学习或强化学习进行微调以获得更复杂的技能。VPT 模型是用标准的行为克隆损失（9）（负对数似然）训练的，而动作则来自逆动力学模型。

A. 通用人工智能

在机器人学研究中，一个长期存在的挑战是将机器人或具体化的人工智能代理部署到各种非工厂现实世界应用中，执行各种任务。为了制造能够在多样化环境和多样化任务中运行的通用机器人，一些研究人员提出了用于机器人学习的生成器模拟器。例如，生成器代理 [203] 讨论了生成器代理如何为交互式应用产生逼真的人类行为模仿，创建类似于游戏中发现的代理社区，如《模拟人生》。作者将他们的架构与 ChatGPT 大型语言模型连接，创建了一个包含 25 个代理的游戏环境。研究包括两个评估，一个受控评估和一个端到端评估，这些评估展示了他们架构各个组成部分的因果效应。Xian 等人 [204] 提出了一个完全自动化的生成器管道，称为机器人学习的生成器模拟，它利用模型大规模生成多样化的任务、场景和训练指导。这种方法可以促进低级技能学习的扩展，最终导致一个基础模型，赋予通用机器人权力。
开发通用人工智能的另一种方法涉及使用可泛化的多模态表示。Gato [154] 是一个通用代理，作为一个多模态、多任务、多具体化的通用策略。使用具有相同权重集的相同神经网络，Gato 可以在不同环境中的不同任务中与不同的具体化进行感知和行动。Gato 可以玩 Atari 游戏、聊天、给图像加字幕、用真正的机器人臂堆叠积木、在 3D 模拟环境中导航等等。Gato 接受了 604 个不同任务的训练，涉及各种模态、观察和动作。在这种设置中，语言作为不同具体化的共同基础。Gato 有 12 亿参数，并且以监督的方式离线训练。RRL [205] 位于表示学习和强化学习 (RL) 的交汇处，直接从本体感受输入中学习行为。通过利用预训练的视觉表示，RRL 能够从视觉输入中学习，这在传统的 RL 设置中通常构成挑战。

B. 模拟器

高质量的模拟器或基准测试对于机器人学开发至关重要。因此，我们将 “模拟器” 部分放在这里，以突出其重要性。为了促进从模拟到现实世界的泛化，Gibson [206] 强调了具体化代理的真实世界感知。为了弥合模拟和现实世界之间的差距，iGibson [146] 和 BEHAVIOR-1K [207] 进一步支持模拟更多样化的家庭任务，并达到高水平的模拟现实感。作为具体化人工智能研究的模拟平台，Habitat [208] 由 Habitat-Sim 和 Habitat-API 组成。Habitat-Sim 可以实现每秒数千帧（fps）的单线程运行。Habitat-Lab [147] 是一个高级库，用于具体化人工智能，提供了一个模块化的端到端开发框架。它促进了定义具体化人工智能任务，如导航、交互、指令跟随和问答。此外，它还支持配置具体化代理，包括它们的物理形态、传感器和能力。该库支持这些代理的各种训练方法，包括模仿学习、强化学习和传统的非学习方法，如 SensePlanAct 管道。此外，它还提供了评估代理在这些任务上的性能的标准指标。与此一致，Habitat 3.0 [209] 的最近发布进一步扩展了这些能力。
同样，RoboTHOR [210] 是开发和评估具体化人工智能代理的平台，提供了模拟和物理环境中的环境。目前，RoboTHOR 包括一个训练和验证集，包括 75 个模拟场景。此外，还有 14 个场景分别用于模拟中的 test-dev 和 test-standard，以及相应的物理对应物。RoboTHOR 的关键特性包括其可配置性和基准测试能力。物理环境是使用模块化、可移动组件构建的，可以在单个物理区域内创建多样化的场景布局和家具配置。另一个模拟器 VirtualHome [129] 模拟了典型家庭中发生的复杂活动。它支持人们家中发生的各种活动的程序描述。黄等人 [33] 使用 VirtualHome 来评估机器人规划能力与语言模型。
这些模拟器有潜力被应用于评估 LLMs 在机器人学任务上的性能。

VI. 挑战与未来方向

在本节中，我们探讨了将基础模型整合到机器人设置中的挑战，并探索了解决这些挑战的潜在未来途径。

A. 克服在机器人学中训练基础模型的数据稀缺问题

与大型模型训练所用的互联网规模的文本和图像数据相比，机器人特定数据稀缺是一个主要挑战。我们讨论了克服数据稀缺的各种技术。例如，为了扩大机器人学习规模，一些最近的研究表明使用游戏数据代替专家数据进行模仿学习。另一种技术是使用修复技术进行数据增强。
使用非结构化游戏数据和人类未标记视频扩展机器人学习:语言调节学习，如语言调节行为克隆或语言调节可供性学习，需要访问大量注释数据集。为了扩大学习规模，在 Play-LMP [26] 中，作者建议使用远程操作的人类提供的游戏数据，而不是完全注释的专家演示。游戏数据是非结构化的、未标记的、便宜且丰富的。收集游戏数据不需要场景布置、任务分割或重置到初始状态。此外，在 MimicPlay [118] 中，基于人类游戏数据训练了基于目标的轨迹生成模型。游戏数据包括人类与环境互动的未标记视频序列。最近的研究 [125] 表明，训练用于机器人操纵任务的视觉 - 语言可供性模型只需要很少一部分（低至 1%）的语言注释数据。
使用修复技术进行数据增强：收集机器人数据需要机器人与真实物理世界互动。这一数据收集过程可能涉及显著的成本和潜在的安全问题。解决这一挑战的一种方法是使用生成性人工智能，如文本到图像的扩散模型进行数据增强。例如，ROSIE（使用语义想象经验扩展机器人学习）[176] 提出了基于扩散的数据增强。给定一个机器人操纵数据集，他们使用修复技术在文本指导下创建各种看不见的对象、背景和干扰物。这些方法的一个重要挑战是开发可以生成足够语义和视觉多样性数据的修复策略，同时确保这些数据在物理上是可行和准确的。例如，使用修复技术修改机器人夹具内的对象图像可能导致物理上不真实的抓取图像，从而导致下游训练性能差。对不仅视觉质量而且物理现实性都经过评估的生成性基础模型进行进一步研究，可能会提高这些方法的普遍性。
克服训练 3D 基础模型的 3D 数据稀缺问题：目前，多模态视觉和语言模型（VLM）可以分析 2D 图像，但它们缺乏与 3D 世界的联系，包括 3D 空间关系、3D 规划、3D 可供性等。开发基础 3D VLM 模型的主要障碍在于 3D 数据的稀缺，尤其是与语言描述配对的数据。如上所述，语言驱动的感知任务，如语言驱动的 3D 场景表示、语言驱动的 3D 场景编辑、语言驱动的 3D 场景或形状生成、语言驱动的 3D 分类和可供性预测，需要访问 3D 数据或具有相机矩阵的多视图图像，这些数据类型并不容易获得。未来需要创建新数据集或数据生成方法，以克服 3D 领域的数据稀缺问题。
通过高保真模拟生成合成数据：通过游戏引擎进行高保真模拟可以提供一种有效的方式来收集数据，特别是解决机器人上的多模态和 3D 感知任务。例如，TartanAir [211]，用于机器人导航任务的数据集，是在 [212] 中收集的，存在移动物体、变化的光线和各种天气条件。通过在模拟中收集数据，可以获得多模态传感器数据和精确的地面真实标签，如立体 RGB 图像、深度图像、分割、光流、相机姿态和激光雷达点云。设置了大量环境，具有各种风格和场景，涵盖了难以通过使用物理数据收集平台实现的挑战性视点和多样化的运动模式。TartanAirV2（https://tartanair.org）通过加入额外的环境和模态，如鱼眼、全景和针孔，以及任意相机内参和旋转，进一步扩展了数据集。
使用 VLMs 进行数据增强：可以使用视觉 - 语言模型（VLM）进行数据增强。在 DIAL [213] 中，介绍了用于语言调节控制的数据驱动指令增强。DIAL 使用 VLM 为语言调节策略学习标记离线数据集。DIAL 使用 VLM 执行指令增强，以弱重新标记离线控制数据集。DIAL 包括三个步骤：1) 对小型机器人操纵数据集（轨迹）进行对比微调，该数据集具有众包注释；2) 使用微调后的 VLM 对众包注释与更大轨迹数据集的相关性进行评分，产生新的指令标签；3) 在原始和重新注释的数据集上使用行为克隆训练语言调节策略。
机器人物理技能限制在技能分布范围内：现有机器人变换器和其他相关机器人工作的一个关键限制是，机器人物理技能限制在机器人数据中观察到的技能分布范围内。使用这些变换器，机器人缺乏生成新动作的能力。为了解决这一限制，一种方法是使用人类执行各种任务的视频运动数据。这些视频中固有的运动信息随后可以用来促进机器人中物理技能的获取。

B. 实时性能（基础模型的高推理时间）

将基础模型部署到机器人上的另一个瓶颈是这些模型的推理时间。在表 II 中，报告了一些模型的推理时间。可以看到，一些模型的推理时间仍然需要改进，以便可靠地实时部署机器人系统。由于实时能力是任何机器人系统的基本要求，因此需要进行更多研究以提高基础模型的计算效率。此外，基础模型通常存储在远程数据中心，并通过 API 访问，这需要网络连接。许多基础模型（例如，GPT 模型、Dall-E 模型）只能以这种方式访问，而其他模型通常以这种方式访问，但如果有足够的本地计算能力，也可以下载并在本地运行（例如，SAM [59]、LLaMA [214] 和 DINOv2 [107]）。鉴于这种云服务范式，对基础模型的 API 调用的延迟和服务时间取决于数据路由的基础网络和计算发生的数据中心 —— 这些因素超出了机器人的控制范围。因此，在将基础模型整合到机器人的自主堆栈之前，应考虑网络可靠性。
对于某些机器人领域，依赖网络和第三方计算可能不是安全或现实的操作范式。在自动驾驶、自动飞机、搜索和救援或紧急响应应用以及国防应用中，机器人不能依赖网络连接进行关键时间感知或控制计算。一个选择是拥有一个安全的后备模式，该模式依赖于仅使用本地计算的经典自主工具，如果由于某种原因无法访问云，则可以接管。另一个潜在的长期解决方案是将大型基础模型蒸馏成更小尺寸的专门模型，这些模型可以在机器人硬件上运行。一些最近的尝试了这种方法（尽管没有明确链接到机器人学）[215]。这种蒸馏模型可能会放弃完整模型的某些方面，例如限制操作到某个有限的上下文，以换取更小的尺寸和更快的计算。这可能是将基础模型的力量带入安全关键机器人系统的有趣未来方向。

C. 多模态表示的局限性

多模态交互隐含地假设模态可以标记化，并可以标准化为输入序列，而不会丢失信息。多模态模型在多个模态之间提供信息共享，并且是具有交叉模态注意力的多模态变换器的某种变体。在多模态表示学习中，假设交叉模态交互和不同模态之间的异质性维度都可以被简单的嵌入捕获。换句话说，假设简单的嵌入足以识别模态，例如，语言与视觉有何不同。在多模态表示学习的领域中，单一多模态模型是否能够适应所有模态的问题仍然是一个未解决的挑战。
此外，当模态和文本之间的配对数据可用时，可以将该模态直接嵌入到文本中。在机器人应用中，有一些模态没有足够的数据可用，为了能够与其他模态对齐，需要先将它们转换为其他模态，然后使用。例如，3D 点云数据在机器人中有各种应用，但由于数据稀缺且与文本不对齐，使用这种数据训练基础模型具有挑战性。因此，克服这一挑战的一种方法是先将这种 3D 点云数据转换为其他模态，如图像，然后将图像转换为文本作为对齐的第二步。然后它们可以用于基础模型训练。另一个例子是，在苏格拉底模型 [194] 中，每种模态，无论是视觉还是听觉，最初都翻译成语言，之后语言模型尝试响应这些模态。

D. 不确定性量化

我们如何确保在可能的安全关键机器人应用中部署基础模型时的可靠性 [188]？当前的基础模型，如 LLMs，经常出现幻觉，即产生事实上不正确、逻辑上不一致或物理上不可行的输出。虽然这种失败在接受模型输出可以由人类实时检查的应用中可能是可以接受的（例如，通常适用于基于 LLM 的对话代理），但在部署使用基础模型输出在以人为中心的环境中行动的自主机器人时，这是不可接受的。严格的不确定性量化是解决这一挑战并将基础模型安全整合到机器人系统中的关键一步。下面，我们强调了不确定性量化对基础模型在机器人学中的挑战和最新进展。
实例级不确定性量化：我们如何量化基础模型对特定输入的输出不确定性？例如，考虑图像分类问题；给定一个特定图像，可以通过产生模型不确定的一组对象标签或对象标签的分布来量化输出的不确定性。实例级不确定性量化可以在运行时通知机器人的决策。例如，如果运行在自动驾驶车辆上的图像分类模型产生预测集 {行人，骑自行车的人}，表示它不确定特定代理是行人还是骑自行车的人，自动驾驶车辆可以采取考虑两种可能性的行动。
分布级不确定性量化：我们如何量化将在可能的未来输入分布上部署的基础模型的正确性不确定性？对于图像分类问题，可能希望计算或限制机器人部署时可能遇到的输入分布上的错误概率。分布级不确定性量化允许我们决定给定模型是否足够可靠以部署在我们的目标场景分布中。例如，如果计算出的错误概率过高，我们可能希望收集更多数据或微调模型。
校准：为了有用，不确定性估计（无论是实例级还是分布级）应该是校准的。如果我们使用预测集进行实例级不确定性量化，校准要求预测集以用户指定的概率（例如，95%）包含真实标签，超过未来输入。如果使用输出分布进行实例级不确定性量化，那么分配置信度 p 的输出实际上应该在未来输入中以概率 p 正确。同样，分布级不确定性估计应该限制在遇到目标分布中的输入时的真实错误概率。
我们强调一个微妙但重要的点，这在执行机器人学中的不确定性量化时经常被忽视：在执行不确定性量化时，注意区分频率论和贝叶斯对概率的解释至关重要。在许多机器人学背景中 —— 特别是安全关键的背景中 —— 通常期望的解释是频率论性质的。例如，如果我们为自动驾驶车辆的碰撞概率产生一个界限 ε，这应该限制车辆部署时实际观察到的碰撞率。贝叶斯技术（例如，高斯过程或贝叶斯集成）不一定产生在这种频率论意义上校准的不确定性估计（因为估计依赖于用于产生估计的特定先验）。如果目标是在部署时为机器人系统提供统计保证其安全性或性能，那么信任这些不确定性估计可能会导致误入歧途。
分布偏移：执行校准不确定性量化的一个重要挑战是分布偏移。在特定输入分布上训练的基础模型在部署到下游任务的不同分布时，可能无法产生校准的不确定性估计。机器人中分布偏移的一个更微妙的原因是模型的闭环部署。例如，想象一个使用依赖于预训练基础模型的感知系统的输出选择操作的自动驾驶车辆；由于机器人的操作影响未来状态和观察，感知系统接收的输入分布可能与训练时的分布大相径庭。
案例研究：用于语言指令机器人的不确定性量化：最近，在执行用于语言指令机器人的严格不确定性量化方面取得了令人兴奋的进展 [216]。这项工作提出了一种名为 KNOWNO 的方法，用于赋予语言指令机器人在不知道时知道的能力，并要求人类提供帮助或澄清，以解决不确定性。KNOWNO 使用共形预测以校准的方式执行实例级和分布级不确定性量化。具体来说，给定语言指令（和使用传感器生成的机器人环境描述），使用共形预测生成候选动作的预测集。如果这个集合是单例，机器人执行相应的动作；否则，机器人通过要求人类从生成的集合中选择动作来寻求帮助。使用共形预测，KNOWNO 确保以这种方式寻求帮助可以在统计上保证任务成功水平（即，分布级不确定性量化）。KNOWNO 通过从目标环境、任务和语言指令分布中收集少量校准数据，并将其作为共形预测校准程序的一部分，来应对潜在的分布偏移挑战。虽然 KNOWNO 作为校准实例级和分布级不确定性量化的示例，未来的研究还应该探索评估和确保在机器人学中常用的各种其他基础模型的可靠性，如视觉 - 语言模型、视觉 - 导航模型和视觉 - 语言 - 动作模型。此外，探索如何将贝叶斯不确定性量化技术（例如，集成 [217]、[218]）与共形预测等方法结合使用，以产生校准的实例级和分布级不确定性估计，是一个有前途的方向。

E. 安全评估

安全评估问题与不确定性量化密切相关。我们如何在部署前（i）在模型生命周期中更新期间（ii），以及（iii）在机器人在其目标环境中运行时，严格测试基于基础模型的机器人系统的安全性？我们强调与这些问题相关的挑战和研究机会。
部署前安全测试：严格的部署前测试对于确保任何机器人系统的安全性至关重要。然而，对于包含基础模型的机器人来说，这可能特别具有挑战性。首先，基础模型是在大量数据上训练的；因此，严格的测试程序应确保测试场景在训练期间未被模型看到。其次，基础模型通常以难以预测的方式犯错误；因此，测试需要涵盖足够多样化的场景范围，以发现缺陷。第三，如 LLMs 这样的基础模型通常用于产生开放式输出（例如，用自然语言描述的机器人计划）。如果将这些输出与整个系统隔离开来评估，那么这些输出的正确性可能难以自动化评估。
当前基础模型（在非机器人应用中）的部署周期涉及人类评估员的彻底红队 [3]、[219]。最近的一些工作还考虑了使用基础模型本身执行红队的部分自动化过程 [220]、[221]。为机器人学中的基础模型开发执行红队的方法（无论是由人类还是部分自动化方式）是未来研究的一个激动人心的方向。
除了单独评估基础模型外，评估端到端机器人系统的安全性也至关重要。模拟在这里可以发挥关键作用，并且已经对当前现场部署的系统（如自动驾驶车辆）[222]、[223] 这样做。主要挑战是确保（i）模拟器的保真度足够高，以便结果可以有意义地转移到现实世界，以及（ii）测试场景（手动指定、从现实世界场景复制或通过对抗方法 [224] 自动生成）代表现实世界场景，并且足够多样化，以暴露基础模型中的缺陷。此外，寻找方法将大规模基于模拟的测试与小规模现实世界测试相结合是一个重要的未来方向。我们强调需要在部署的机器人系统的整个生命周期中执行这种测试，特别是随着对不同组件（可能与基础模型以不可预测的方式互动）的更新。
运行时监控和分布外检测：除了进行严格的离线测试外，基于基础模型的机器人还应执行运行时监控。这可以采取在给定场景中预测故障的形式，这允许机器人部署安全保护的后备策略 [225]–[229]。或者，机器人可以使用从新颖分布中的一小批场景中收集的经验进行分布外（OOD）检测 [230]–[233]；这可能触发机器人停止其操作并收集新颖分布中的额外训练数据，以便重新训练其策略。开发在数据高效方式下执行运行时监控和 OOD 检测并在假阳性 / 假阴性错误率上具有统计保证的技术仍然是一个重要的研究方向。

F. 使用现有的基础模型作为即插即用或为机器人学构建新的基础模型

将基础模型整合到机器人学中，既可以将现有的预训练大型模型作为即插即用使用，也可以使用机器人数据构建新的基础模型。将基础模型作为即插即用使用，指的是在不需要广泛定制的情况下将基础模型整合到各种应用中。现有关于机器人学中基础模型的文献大部分集中在将来自其他领域的基础模型（如语言或视觉）作为即插即用使用。即插即用方法简化并促进了将最新的 AI 进步整合到机器人学领域。虽然将这些模型作为即插即用使用提供了一种方便的方式来利用 AI 的力量，并提供快速实施、多功能性和可扩展性，但它们并不总是针对特定应用定制的。当需要特定领域专业知识时，有必要从头开始构建基础模型或微调现有模型。从头开始构建基础模型是资源密集型的，需要显著的计算能力。然而，它提供了对架构、训练参数和整体行为的细粒度控制。

G. 机器人设置中的高变异性

另一个挑战是机器人设置中的高变异性。机器人平台在本质上是多样化的，具有不同的物理特性、配置和能力。机器人运行的真实环境也是多样化和不确定的，具有广泛的变异。由于所有这些变异性，机器人解决方案通常针对特定机器人平台、特定布局、环境和对象进行特定任务量身定制。这些解决方案无法跨各种具体化、环境或任务泛化。
因此，为了构建通用的预训练机器人基础模型，一个关键因素是预训练大型模型，使其与任务无关、跨具体化和开放式，并捕获多样化的机器人数据。在 ROSIE [176] 中，通过执行各种看不见的对象、背景和干扰物的修复，并使用语义文本指导，为机器人学习生成了多样化的数据集。为了克服机器人设置中的变异性并提高泛化能力，另一种解决方案，如 ViNT [137] 所示，是在各种具体化的多样化机器人数据上训练基础模型。RT-X [46] 还研究了在机器人操纵领域训练大型跨具体化机器人模型的可能性。RT-X 使用多具体化数据集进行训练，这是通过收集来自 21 个机构的不同机器人平台收集的数据，展示了 160266 个任务。RTX 通过利用多样化的机器人平台的经验，通过跨具体化改进机器人能力。

H. 机器人设置中的基准测试和可重复性

将基础模型整合到机器人学研究中的另一个重大障碍是必须依赖现实世界硬件实验。这为可重复性带来了挑战，因为复制从硬件实验中获得的结果可能需要访问所使用的确切设备。相反，许多最近的工作报告依赖于非基于物理的模拟器（例如，忽略或大大简化接触物理），而是专注于高级、长期任务和视觉环境模型。这类模拟器的示例很常见，包括上面第 V 节中描述的许多模拟器。例如，Gibson 系列模拟器 [146]、[206]、Habitat 系列 [147]、[208]、[209]、RoboTHOR [210] 和 VirtualHome [129] 都忽略了低级物理，转而模拟具有高视觉保真度的高级任务。这导致了一个巨大的 sim-to-real 差距，并根据低级规划和控制模块如何处理场景的真实物理引入了现实世界性能的变异性。即使使用基于物理的模拟器（例如，PyBullet 或 MuJoCo），缺乏标准化的模拟设置、计算环境和持久的 sim-to-real 差距也阻碍了在各种研究努力中基准测试和比较性能的努力。
结合开放硬件、在基于物理的模拟器中基准测试，并促进实验和模拟设置的透明度，可以显著缓解将基础模型整合到机器人学研究中与可重复性相关的挑战。这些实践有助于在该领域内发展更健壮和协作的研究生态系统。

VII. 结论

通过检查最近的文献，我们调查了基础模型在机器人学中多样化和有前途的应用。我们深入了解了这些模型如何在决策、规划和控制、感知等领域增强了机器人的能力。我们还讨论了具体化人工智能和通用人工智能的文献，着眼于机器人学家将该研究领域的概念扩展到现实世界机器人应用的机会。基础模型的泛化能力、零次拍摄能力、多模态能力和可扩展性有潜力改变机器人学。然而，在我们通过将基础模型整合到机器人应用的范式转变中，必须认识到必须在未来研究中解决的挑战和潜在风险。机器人应用中的数据稀缺、机器人设置中的高变异性、不确定性量化、安全评估和实时性能仍然是需要未来研究的重大问题。我们已经深入探讨了其中一些挑战，并讨论了可能的改进途径。

致谢

第一作者得到了 ASEE e-Fellows 博士后奖学金的支持。J.T. 和 S.T. 部分得到了 NSF 研究生奖学金的支持。这个项目也部分得到了 DARPA 项目 HR001120C0107 和 Meta 的礼物的支持。我们感谢这些支持。Anirudha Majumdar 得到了 NSF CAREER Award [#2044149] 和海军研究办公室 [N00014-23-1-2148] 的支持。