PaLM-E: An Embodied Multimodal Language Model——一种具身多模态语言模型

Together_CZ

于 2024-12-11 01:00:00 发布

阅读量1.5k

点赞数 28

文章标签： palm 语言模型人工智能具身智能

本文链接：https://blog.csdn.net/Together_CZ/article/details/143914430

版权

PaLM-E是个多模态具身大模型，具有562B参数，其中大语言模型PaLM为540B, ViT为22B。E表示具身Embodied。本文是自己的论文阅读记录，感兴趣的话可以参考下，如果想要直接阅读原英文论文的话，地址在这里，如下所示：

摘要

大型语言模型已被证明能够执行复杂任务。然而，在现实世界中实现通用推理，例如用于机器人问题，面临着基础性的挑战。我们提出具身语言模型，直接将现实世界的连续传感器模态融入语言模型，从而建立词语与感知之间的联系。我们的具身语言模型的输入是多模态句子，这些句子交错编码了视觉、连续状态估计和文本输入。我们在预训练的大型语言模型基础上，端到端地训练这些编码，用于多个具身任务，包括顺序机器人操作规划、视觉问答和图像描述。我们的评估显示，PaLM-E，一个单一的大型具身多模态模型，能够解决各种具身推理任务，从多种观察模态，在多个具身上，并且进一步展示了正向迁移：模型从跨互联网规模的语言、视觉和视觉-语言领域的多样化联合训练中受益。我们最大的模型PaLM-E-562B，拥有562亿参数，除了在机器人任务上进行训练外，还是一个视觉-语言通才，在OK-VQA上达到了最先进的性能，并且在规模增加时保留了通用的语言能力。

图1：PaLM-E是一个单一的通用多模态语言模型，适用于具身推理任务、视觉-语言任务和语言任务。PaLM-E将视觉-语言领域的知识迁移到具身推理中——从在复杂动力学和物理约束环境中的机器人规划，到回答关于可观察世界的问题。PaLM-E操作在多模态句子中，即标记序列，其中来自任意模态的输入（例如图像、神经3D表示或状态，以绿色和蓝色表示）与文本标记（以橙色表示）一起作为输入插入到LLM中，端到端地训练。

1 引言

大型语言模型（LLMs）展示了在各种领域中的强大推理能力，包括对话[12, 21]、逐步推理[27, 20]、数学问题解决[16, 8]和代码编写[6]。然而，这类模型在现实世界中进行推理的一个局限性是基础问题：尽管在海量文本数据上训练LLMs可能会导致与我们的物理世界相关的表示，但将这些表示与现实世界的视觉和物理传感器模态连接起来，对于解决更广泛的基于基础的现实世界问题（如计算机视觉和机器人学）是至关重要的[7]。先前的工作[1]将LLMs的输出与学习的机器人策略和可供性函数接口，以做出决策，但受限于LLM本身仅提供文本输入，这在许多场景几何配置重要的任务中是不够的。此外，在我们的实验中，我们展示了当前最先进的视觉-语言模型在典型的视觉-语言任务（如视觉问答（VQA））上训练后，无法直接解决机器人推理任务。

在本文中，我们提出了具身语言模型，直接将具身代理的传感器模态的连续输入融入语言模型，从而使语言模型本身能够在现实世界中进行顺序决策时做出更基础的推理。输入如图像和状态估计被嵌入到与语言标记相同的潜在嵌入空间中，并通过Transformer基础的LLM的自注意力层以与文本相同的方式处理。我们从预训练的LLM开始，通过编码器注入连续输入。这些编码器端到端地训练，以自然文本的形式输出顺序决策，这些决策可以由具身代理通过条件低级策略或回答具身问题来解释。我们在各种设置中评估了这种方法，比较了不同的输入表示（例如，标准与对象中心的ViT编码用于视觉输入），冻结与微调语言模型同时训练编码器，并研究了多任务联合训练是否启用了迁移。

为了研究方法的广度，我们在三个机器人操作领域（其中两个是现实世界中的闭环）、标准的视觉-语言任务（如VQA和图像描述）以及语言任务上进行了评估。我们的结果表明，多任务训练相比单独任务训练提高了性能。我们展示了这种跨任务的迁移可以导致机器人任务的高数据效率，例如显著增加从少量训练示例中学习成功的可能性，甚至展示了对新对象组合或未见对象的单次或零次泛化。

图2：PaLM-E-562B可以进行零次多模态链式思维推理，可以根据图像讲视觉条件化的笑话，并展示了一系列与机器人相关的多模态感知能力，包括感知、视觉基础的对话和规划。PaLM-E还可以零次泛化到多图像提示，尽管仅在单图像提示上进行训练。PaLM-E还可以在包含文本交错手写数字的图像上进行数学运算。此外，该模型可以零次进行时间注释的自我中心视觉上的问答，类似于(Zeng et al., 2022)中展示的内容，但整个过程在一个模型中端到端完成。

我们将PaLM-E扩展到562亿参数，将540亿参数的PaLM Chowdhery et al. (2022)LLM和22亿参数的Vision Transformer (ViT) Dehghani et al. (2023)整合在一起，据我们所知，这是目前报告的最大视觉-语言模型。PaLM-E-562B在OK-VQA Marino et al. (2019)基准测试中达到了最先进的性能，而不依赖于任务特定的微调。虽然不是我们实验的重点，但我们还发现（图2）PaLM-E-562B展示了广泛的能力，包括零次多模态链式思维（CoT）推理、少次提示、无OCR的数学推理和多图像推理，尽管仅在单图像示例上进行训练。零次CoT Kojima et al. (2022)最初是一个仅语言的概念，已在多模态数据上通过特定任务的程序Zeng et al. (2022)展示，但据我们所知，不是通过端到端模型。

总结我们的主要贡献，我们（1）提出并展示了通过将具身数据混合到多模态大型语言模型的训练中，可以训练出一个通用的、迁移学习的、多具身决策代理。我们展示了，（2）尽管当前最先进的通用视觉-语言模型在开箱即用（零次）的情况下不能很好地解决具身推理问题，但可以训练出一个既高效具身推理者又是通用视觉-语言模型的模型。在研究如何最好地训练这类模型时，我们（3）引入了新颖的架构思想，如神经场景表示和实体标注多模态标记。最后，除了我们关注PaLM-E作为具身推理者外，我们（4）展示了PaLM-E在视觉和语言任务上也是定量上称职的通才，并且（5）证明了随着语言模型规模的增加，多模态微调时遗忘现象显著减少。

2 相关工作

通用视觉-语言建模。 在大型语言Brown et al. (2020); Devlin et al. (2018)和视觉Dosovitskiy et al. (2020)模型的成功基础上，近年来对大型视觉-语言模型（VLMs）Li et al. (2019); Lu et al. (2019); Hao et al. (2022); Gan et al. (2022)的兴趣日益增长。与前身不同，VLMs能够同时理解图像和文本，并可应用于视觉问答Zhou et al. (2020); Zellers et al. (), 描述Hu et al. (2022), 光学字符识别Li et al. (2021), 和目标检测Chen et al. ()等任务。图像的整合方法各不相同。例如，Alayrac et al. (2022)通过直接关注单个上下文图像的机制增强了预训练的语言模型。相比之下，PaLM-E将图像和文本表示为“多模态句子”的潜在向量，使其能够在句子的任何部分灵活处理多个图像。与我们的工作更密切相关的是Frozen Tsimpoukelli et al. (2021)，其中视觉编码器参数通过冻结的LLM Lu et al. (2021)进行反向传播优化。受此工作的启发，我们通过引入替代输入模态（例如神经场景表示）在一个更广泛的范围内研究设计，并且我们提出的方法在VQAv2基准测试中比Frozen高出45%以上。更重要的是，我们展示了PaLM-E不仅适用于感知任务，还适用于具身任务。

动作输出模型。 先前的工作集中在结合视觉和语言输入的具身设置中，目标是直接预测动作Guhur et al. (2022); Shridhar et al. (, ); Zhang & Chai (2021); Silva et al. (2021); Jang et al. (2022); Nair et al. (2022); Lynch et al. (2022); Brohan et al. (2022)。在这些方法中，VIMA Jiang et al. (2022)探索了与PaLM-E类似的多模态提示。语言在这些工作中的作用可能最恰当地描述为任务规范。相比之下，PaLM-E生成高层次指令作为文本；这样做，模型能够自然地根据其自身的预测进行条件化，并直接利用其参数中嵌入的世界知识。这不仅启用了具身推理，还启用了问答，如我们的实验所示。在输出动作的工作中，最相似的是Gato Reed et al. (2022)提出的方法，它像PaLM-E一样是一个通用多具身代理。与Gato相比，我们展示了跨不同任务的正向迁移，模型从多个领域的多样化联合训练中受益。

LLMs在具身任务规划中的应用。 已经提出了几种利用LLMs在具身领域的方法。虽然许多工作集中在理解自然语言目标Lynch & Sermanet (2020); Shridhar et al. (); Nair et al. (2022); Lynch et al. (2022)，但较少考虑自然语言作为规划的表示——这是本文的重点。LLMs包含了大量关于世界内部化的知识，但没有基础，生成的计划可能无法执行。一条研究路线采用了提示来直接从LLM中引出指令序列，方法是通过LLM的生成与一组合格指令之间的语义相似性Huang et al. ()，结合可供性函数Ahn et al. (2022)，视觉反馈Huang et al. ()，生成世界模型Nottingham et al. (2023); Zellers et al. ()，规划图和地图Shah et al. (2022); Huang et al. ()，视觉解释Wang et al. (2023)，程序生成Liang et al. (2022); Singh et al. (2022)，或向提示注入信息Zeng et al. (2022)。相比之下，PaLM-E被训练为直接生成计划，而不依赖于用于基础的辅助模型。这反过来使得预训练LLMs中存储的丰富语义知识可以直接整合到规划过程中。

在许多这些工作中，LLMs的参数几乎没有进一步训练。在LID Li et al. (2022)中，这一约束被放宽，LLM参数被微调以生成用于生成高层次指令的规划网络。(SL)33Sharma et al. (2021)解决了同时微调两个LLMs的更具挑战性的任务：一个生成高层次指令的规划网络和一个选择动作的低层次策略网络。通过PaLM-E，我们的兴趣是不同的和互补的：我们研究了一个跨多个模态的通用多具身模型。

3 PaLM-E: 一种具身多模态语言模型

PaLM-E的主要架构思想是通过将具身代理的连续观察（如图像、状态估计或其他传感器模态）注入预训练语言模型的语言嵌入空间中来实现。这是通过将连续观察编码为与语言标记嵌入空间维度相同的向量序列来实现的。因此，连续信息以类似于语言标记的方式注入语言模型中。PaLM-E是一个仅解码器的LLM，根据前缀或提示自回归地生成文本补全。我们称我们的模型为PaLM-E，因为我们使用PaLM Chowdhery et al. (2022)作为预训练语言模型，并使其具身化。

PaLM-E的输入包括文本和（多个）连续观察。这些观察对应的多模态标记与文本交错形成多模态句子。多模态句子的一个例子是O: What happened between <img.l> and <img.2>? 其中<img.2>表示图像的嵌入。PaLM-E的输出是由模型自回归生成的文本，可以是问题的答案，或者是PaLM-E以文本形式生成的决策序列，这些决策应由机器人执行。当PaLM-E被赋予生成决策或计划的任务时，我们假设存在一个低级策略或规划器，可以将这些决策转化为低级动作。先前的工作已经讨论了训练此类低级策略的各种方法Lynch & Sermanet (2020); Brohan et al. (2022)，我们直接使用这些先前的方法而不做修改。下面我们将更正式地描述我们的方法。

具身输出：PaLM-E在机器人控制回路中的应用。 PaLM-E是一个生成模型，基于多模态句子输入生成文本。为了将模型的输出连接到具身，我们区分两种情况。如果任务仅通过输出文本即可完成，例如在具身问答或场景描述任务中，那么模型的输出直接被视为任务的解决方案。

另一种情况是，如果PaLM-E用于解决具身规划或控制任务，它生成条件低级命令的文本。特别是，我们假设可以访问从某些（小）词汇表执行低级技能的策略，PaLM-E的成功计划必须由这些技能的序列组成。注意，PaLM-E必须根据训练数据和提示自行确定哪些技能可用，没有其他机制用于约束或过滤其输出。尽管这些策略是语言条件的，但它们无法解决长时间任务或接受复杂指令。因此，PaLM-E被集成到一个控制回路中，其预测的决策通过低级策略由机器人执行，从而产生新的观察，PaLM-E可以根据这些观察重新规划。从这个意义上说，PaLM-E可以被理解为一个高层次策略，序列化和控制低级策略。

4 不同传感器模态的输入和场景表示

在本节中，我们描述了融入PaLM-E的各个模态，以及我们如何设置它们的编码器。我们为每个编码器 ϕ:O→X 提出了不同的架构选择，以将相应的模态映射到语言嵌入空间。我们研究了状态估计向量、Vision Transformers (ViTs) Dosovitskiy et al. (2020); Chen et al. (2022); Ryoo et al. (2021) 用于2D图像特征，以及3D感知对象场景表示Transformer (OSRT) Sajjadi et al. ()。除了表示输入场景的全局编码器外，我们还考虑了对象中心表示，将观察分解为表示场景中各个对象的标记。

实体引用。 对于具身规划任务，PaLM-E必须能够在其生成的计划中引用对象。在许多情况下，包括我们的大多数实验，场景中的对象可以通过其某些独特属性在自然语言中识别。然而，也存在对象不易通过语言在几句话中识别的情况，例如，如果桌上有多个相同颜色的块位于不同位置。对于对象中心表示，如OSRT，我们在输入提示中标记对应于对象的多模态标记如下：对象1是<obj_1>。... 对象j是<obj_j>。这使得PaLM-E可以通过特殊形式的标记obj_j在其生成的输出句子中引用对象。在这种情况下，我们假设低级策略也操作这些标记。

5 训练方法

PaLM-E在形式为的数据集上进行训练，其中每个示例 i 包含 ui 个连续观察、文本和索引 ni。尽管是一个仅解码器的模型，文本由前缀部分（索引 ni 之前）组成，该部分由多模态句子形成，预测目标仅包含文本标记。因此，损失函数是跨个体非前缀标记的交叉熵损失的平均值。为了在模型中形成多模态句子，我们在文本中有特殊标记，这些标记在文本中的位置被编码器嵌入向量替换。我们基于预训练的8B、62B和540B参数的PaLM变体作为解码器LLM，通过输入编码器注入连续观察。这些编码器要么预训练，要么从头开始训练，详见第4节。我们将8B LLM与4B ViT结合称为PaLM-E-12B，类似地，62B LLM + 22B ViT称为PaLM-E-84B，540B LLM + 22B ViT称为PaLM-E-562B。

模型冻结的变体。 我们的大多数架构由三部分组成：一个编码器 ϕ^、一个投影器 ψ 和。训练PaLM-E时，一种方法是更新所有这些组件的参数。然而，LLM如果提供合适的提示，展示了令人印象深刻的推理能力 Wei et al. (2022)。因此，我们研究是否可以冻结LLM并仅训练输入编码器，以及如果是，不同模态的编码器如何比较。在这种情况下，编码器必须生成嵌入向量，使得冻结的LLM基于观察进行基础，并向LLM传播具身能力的信息。训练这种编码可以理解为一种输入条件化的软提示（Tsimpoukelli et al.，2021），相对于正常的软提示（Lester et al.，2021）。在 ϕOSRT 的实验中，我们还冻结了槽表示，即我们只更新作为OSRT和LLM之间接口的小投影器 ψ。

跨任务联合训练。 在我们的实验中，我们研究了在各种多样化数据上联合训练模型的效果。“完整混合”（详见附录A）主要由各种任务的互联网规模视觉和语言数据组成。采样频率设置使得只有8.9%的完整混合是具身数据，每个具身有多个任务。

6 实验

我们的实验考虑了三个不同机器人具身的多样化机器人（移动）操作任务，包括模拟和两个不同真实机器人。我们参考

图3：PaLM-E展示的迁移学习概述：在三个不同的机器人领域，使用PaLM和ViT预训练以及机器人和一般视觉-语言数据的完整混合，相比仅在各自域内数据上训练，提供了显著的性能提升。参见表1、图4、表2、表4以获取每个领域的额外数据。

https://palm-e.github.io查看PaLM-E在这些任务上的能力视频。虽然不是我们工作的重点，我们还在一般的视觉-语言任务（如视觉问答（VQA）、图像描述）和已建立的语言建模任务上评估了PaLM-E。

我们将实验调查分为两大类。首先，我们比较了第4节中不同输入表示的性能、泛化和数据效率。第二类实验集中在一个架构上，即主要的PaLM-E版本，由预训练的ViT和PaLM语言模型组成，接受原始图像作为连续输入。我们展示了单个模型在许多数据集的混合上训练，跨不同任务和机器人具身，可以在所有这些任务上同时实现高性能。关键的是，我们研究了联合训练这些数据集是否启用了迁移（图3）：尽管任务和具身不同，但训练混合任务的性能在个体任务上有所提高。我们研究了联合训练策略和模型参数大小对性能、泛化和数据效率的影响。最后，我们考虑了冻结LLM并仅训练注入视觉的ViT是否是一条可行路径。

作为基线，我们考虑了未在具身机器人数据上训练的最先进的视觉语言模型PaLI（Chen et al.，2022），以及配备了oracle可供性函数的SayCan算法（Ahn et al.，2022）。

机器人环境/任务

我们的三个机器人环境（图1）包括一个任务和运动规划（TAMP）领域，其中机器人需要操作（抓取和堆叠）对象，一个桌面推动环境，以及一个移动操作领域。在每个领域，PaLM-E在专家数据上进行训练。在许多情况下，这是每个任务的稀疏数据。TAMP任务涉及计划的大量组合，许多决策序列是不可行的。PaLM-E必须生成由多个步骤组成的计划，具有复杂的决策边界。多对象桌面推动环境来自公开的Language-Table数据集（Lynch et al.，2022），具有挑战性，因为它包括多个对象、语言的大量基数和复杂的推动动力学。对于TAMP和Language-Table环境，PaLM-E必须推理对象的姿态。仅知道桌上有哪些对象或它们的大致关系是不够的，更精细的场景几何细节对于解决任务是重要的。最后，我们考虑了一个类似SayCan（Ahn et al.，2022）的移动操作领域，其中机器人需要在厨房环境中解决各种任务，包括在抽屉中找到对象、拾取它们并将其带给人类。对于所有领域，我们考虑了这些环境中的规划和VQA任务。对于移动操作和Language-Table环境，PaLM-E被集成到控制回路中，以在现实世界中执行计划，并在低级控制策略存在外部干扰或失败时调整计划。

TAMP环境

表7（附录）显示了TAMP环境的规划成功率和VQA性能。在这些实验中，LLM被冻结（对于预训练的LLM）。对于表7中报告的结果，输入表示在仅包含TAMP环境的96,000个训练场景的数据集上进行训练，即没有其他数据是混合的一部分。对于场景中的3-5个对象，这与训练集中的数量相同，大多数输入表示表现相似。然而，当增加对象数量时，使用预训练的LLM显著提高了性能，特别是在实体引用的情况下。此外，我们展示了62B LLM相比8B变体在分布外泛化方面表现更好，而未预训练的LLM基本上没有分布外泛化。SayCan基线（Ahn et al.，2022）利用oracle可供性函数，在解决这个环境时遇到困难，因为可供性函数仅限制当前可能的操作，不足以让LLM在TAMP环境中构建长时间计划。

表1显示了在1%数据集上训练的3-5个对象的结果，这对应于每个规划任务仅320个示例。在这里，我们看到输入表示之间存在显著差异，特别是在规划任务上。首先，在低数据情况下，预训练LLM对状态输入是有益的。其次，两种ViT变体（ViT+TL，ViT-4B）在解决这个少量数据的规划任务上表现不佳。然而，如果我们联合训练所有其他机器人环境和一般视觉-语言数据集（ViT-4B通才），ViT-4B的性能提高了两倍以上。这显示了不同机器人具身和任务之间的显著迁移效果。最后，使用OSRT作为输入表示在这里表现最好，展示了3D感知对象表示的优势。我们还观察到另一个迁移实例：当我们移除TAMP VQA数据并仅在640个规划任务示例上训练时，性能有所下降。未在机器人数据上训练的最先进的视觉-语言模型PaLI（Chen et al.，2022）无法解决这些任务。我们仅在q_g（桌子上左/右/中心的对象）和q_3（垂直对象关系）上评估了它，因为这些最接近典型的VQA任务。

Language-Table环境

表2报告了Language-Table环境中的长时间任务的成功率。PaLM-E被集成到一个控制回路中，该回路以长时间任务和当前图像为输入，并输出低级策略的指令。我们看到，联合训练互联网规模的视觉和语言数据集在机器人规划中产生了更有效的模型，特别是在每个任务仅10个演示的少次情况下。将12B模型扩展到84B模型在3个任务中的2个上有所改进。与TAMP环境一样，SayCan和零次PaLI都无效，无法解决测试的最简单任务。

图4：在TAMP环境中的规划成功结果（1%数据），针对PaLM-E-12B，比较了PaLM-E模型的效果（i）使用完整训练混合，（ii）预训练（ViT和PaLM），以及（iii）冻结或微调语言模型。完整混合的迁移特别有效。注意，完整混合仅包含评估任务的1%训练数据（每个任务320个示例）。显示的是任务p1和p2的平均值。

真实机器人结果和少次泛化。在图7a中，我们看到PaLM-E能够引导真实机器人完成多阶段桌面操作任务，同时对敌对干扰保持鲁棒性。给定观察到的图像和长时间目标，例如“按颜色将块排序到角落”，PaLM-E以1Hz输出语言子目标给Lynch et al.（2022）中的策略，该策略以5Hz输出低级机器人动作。先前的工作（Lynch et al.，2022）涉及一个人类在回路中交互式引导子目标和修正。在图5b中，我们看到PaLM-E能够进行单次和零次学习。在这里，我们对100个不同的长时间任务进行了微调，每个任务仅一个训练示例，例如“将所有块放在中心”，“从线上移除蓝色块”。我们还看到，PaLM-E可以零次泛化到涉及新对象对（图7c）和在原始机器人数据集或微调数据集中未见对象的任务，例如玩具乌龟（图5d）。

移动操作环境

我们展示了PaLM-E在具有挑战性和多样化的移动操作任务上的性能。我们主要遵循Ahn et al.（2022）中的设置，其中机器人需要根据人类的指令规划一系列导航和操作动作。例如，给定指令“我洒了饮料，你能给我拿点东西来清理吗？”，机器人需要规划包含“1. 找到海绵，2. 拿起海绵，3. 带给用户，4. 放下海绵”的序列。受这些任务的启发，我们开发了3个用例来测试PaLM-E的具身推理能力：可供性预测、失败检测和长时间规划。低级策略来自RT-1（Brohan et al.，2022），一个接受RGB图像和自然语言指令并输出末端执行器控制命令的Transformer模型。

图5：单个PaLM-E模型指导两个真实机器人的低级策略。展示的是厨房中的长时间移动操作任务，以及桌面操作机器人的单次/零次泛化。

表1：在TAMP环境上不同输入表示的比较（成功率方面），其中TAMP数据仅占1%（即每个任务p1和p2各320个样本）。PaLM-E在具身VQA和规划任务上优于PaLI和SayCan。观察到跨域迁移，因为在我们完整数据混合上训练的ViT-4B PaLM-E提高了规划性能。尽管没有使用大规模数据，OSRT提供了最有效的输入编码用于学习。(GT)表示提供了地面真值对象中心信息。在所有实验中，LLM被冻结。非对象中心ViT-4B变体使用颜色来引用对象，因此无法评估q1。在这些实验中，LLM被冻结（除非未预训练的情况）。第B.1节描述了任务q1-q4、p1、p2。

表2：在Lynch et al. (2022)的模拟环境中的规划任务结果。

表3：表2的任务提示。

表4：移动操作环境：失败检测和可供性预测（F1分数）。

表5：一般视觉-语言任务的结果。对于通才模型，它们在不同评估中使用相同的检查点，而任务特定微调模型为不同任务使用不同的微调模型。COCO使用Karpathy分割。†表示在OK-VQA上的32次提示（未微调）。

可供性预测。 我们研究了PaLM-E在可供性预测上的性能，即当前环境中是否可以执行低级策略的技能。这可以表述为VQA问题：给定。Q: 在这里可以<技能>吗？PaLM-E优于零次PaLI（表4），以及在QT-OPT上训练的值函数阈值（Kalashnikov et al.，2018）。

失败检测。 对于机器人进行闭环规划，检测失败也很重要，如Huang et al.（）所示。多模态提示为：给定。Q: <技能>成功了吗？表4显示，PaLM-E优于零次PaLI和在这个数据集上微调的CLIP版本。PaLM-E还优于Xiao et al.（2022）提出的算法，该算法利用两个CLIP模型在事后重标记数据上训练。这种方法比我们的方法访问更多信息，并且专门设计用于仅解决这个数据集上的失败检测。

真实机器人结果：长时间规划。 最后，我们使用PaLM-E进行移动操作任务的端到端具身规划。任务的提示结构为：人类：<指令> 机器人：<步骤历史>。我看到。PaLM-E被训练为生成计划的下一步，基于已采取步骤的历史和当前场景的图像观察。每一步解码后，我们根据Ahn et al.（2022）中的定义将其映射到低级策略。这个过程以自回归方式进行，直到PaLM-E输出“终止”。我们通过使用Ahn et al.（2022）中的运行进行训练，其中包含2912个序列。我们在一个真实的厨房中定性评估了模型，发现模型可以执行长时间移动操作任务，即使在敌对干扰下（图5）。

一般视觉-语言任务的性能

虽然不是我们工作的重点，我们在表5中报告了OKVQA Marino et al.（2019）、VQA v2 Goyal et al.（2017）和COCO描述Chen et al.（2015）等一般视觉-语言任务的结果。单个通才模型PaLM-E-562B在OK-VQA上达到了最高报告的数字，包括优于专门在OK-VQA上微调的模型。据我们所知，PaLM-E在冻结LLM的情况下在VQA v2上达到了最高性能（Tsimpoukelli et al.，2021）。这表明PaLM-E不仅是一个具身推理者，还是一个有竞争力的视觉-语言通才。

图6：一般语言任务的结果（NLG = 自然语言生成）：随着规模的增加，相应的PaLM-E模型与其继承的PaLM模型之间的灾难性遗忘减少。参见表8中的完整任务套件和结果。

一般语言任务的性能

表8报告了PaLM-E在21个一般语言理解（NLU）和自然语言生成（NLG）任务上的平均性能。值得注意的是，随着模型规模的增加，语言能力的灾难性遗忘显著减少。如图6所示，虽然最小的（PaLM-E-12B）模型在多模态训练期间其NLG性能（相对）下降了87.3%，最大的模型（PaLM-E-562B）仅下降了3.9%。

7 实验总结与讨论

通才模型与专家模型——迁移。 如图3所示，我们展示了几个迁移实例，这意味着PaLM-E在不同任务和数据集上同时训练导致相对于单独训练不同任务的模型显著提高了性能。在图4中，联合训练“完整混合”实现了超过两倍的性能。在表9中，我们看到如果添加LLM/ViT预训练，并在完整混合上训练而不是仅在移动操作数据上训练，性能显著提高。对于表2中的Language-Table实验，我们观察到类似的行为。

数据效率。 与可用的大规模语言或视觉-语言数据集相比，机器人数据显著较少。如上一段所述，我们的模型展示了迁移，这有助于PaLM-E从机器人领域的极少训练示例中解决机器人任务，例如Language Table的10到80个示例或TAMP的320个示例。OSRT结果展示了另一种数据效率，通过几何输入表示。未来的一个有前景的机会是将这种方法与受益于大规模视觉数据的方法结合。

保留语言能力。 我们展示了在多模态训练期间保留模型语言能力的两种途径。作为选项之一，冻结LLM并仅训练输入编码器是构建具身语言模型的一条可行路径，尽管这种方法偶尔在机器人任务上遇到困难（表2）。作为另一种途径，当整个模型端到端训练时，随着模型规模的增加，模型保留了其原始语言性能的显著更多部分（图6）。

8 结论

我们提出通过将多模态信息（如图像）注入预训练LLM的嵌入空间来构建具身语言模型。实验显示，在一般VQA和描述任务上训练的开箱即用的最先进视觉-语言模型不足以解决具身推理任务，以及通过可供性基础语言模型的最新提案的局限性。为了克服这些局限性，我们提出了PaLM-E，一个单一模型，能够在模拟和现实世界中控制不同机器人，同时在一般VQA和描述任务上定量上称职。特别是，将神经场景表示（即OSRT）融入模型的新颖架构思想特别有效，即使没有大规模数据。PaLM-E在多个机器人具身和一般视觉-语言任务的多样化任务混合上进行训练。重要的是，我们展示了这种多样化训练导致了几种从视觉-语言领域到具身决策的迁移途径，使机器人规划任务能够高效实现。虽然我们的结果表明冻结语言模型是构建完全保留其语言能力的通用具身多模态模型的一条可行路径，但我们还揭示了另一种途径：扩大语言模型规模在成为具身代理时显著减少了灾难性遗忘。我们最大的模型PaLM-E-562B展示了多模态链式思维推理等新兴能力，以及在仅在单图像提示上训练的情况下推理多个图像的能力。