文献翻译：RT-2_rt-2 任务编码-CSDN博客

本文链接：https://blog.csdn.net/thewordafter/article/details/135145567

注：以下文献仅供学习交流使用，不可用于商业用途，并尊重原作者的一切权益。

RT-2：视觉语言动作模型将Web知识转化为机器人控制

我们研究了如何将在互联网规模数据上训练的视觉语言模型直接整合到端到端机器人控制中，以促进泛化能力并实现紧急语义推理。我们的目标是使一个单一的端到端训练模型既能学会将机器人对环境观察结果映射到行动中，又能享受到来自网络的语言和视觉语言数据的大规模预训练的好处。为此，我们建议在机器人轨迹数据和互联网规模的视觉语言任务上共同调整以实现最先进的视觉语言模型，如视觉问题回答。与其他方法相比，我们提出一个简单的一般方法来实现这个目标：为了将对自然语言的反应和机器人的动作匹配相同的格式，我们以标记自然语言同样的方式标记行动，并将它们直接纳入模型的训练集。我们将这类模型称为视觉-语言-动作模型（VLA），并实例化这样一个模型的一个例子，我们称之为RT-2。我们广泛的评估（6k评估试验）表明，我们的方法导致了机器人政策的性能，并使RT-2能够从互联网规模的培训中获得一系列紧急能力。这显著提高泛化能力，能够解释不在机器人训练数据中的指令（如将一个对象放到一个特定的数字或图标），以及执行基本推理的能力以响应用户命令（如捡起最小或最大的对象，或最接近另一个对象的一个）。我们进一步表明，结合思维链推理可以让RT-2执行多阶段语义推理，例如找出取哪个物体作为临时锤子（一块石头），或者哪种类型的饮料最适合疲劳的人（一种能量饮料）。

介绍

在广泛的网络规模数据集上预先训练的高容量模型为广泛的下游任务提供了一个有效和强大的平台：大型语言模型可以实现流畅的文本生成、可以紧急解决问题、可以创造性生成散文和代码，而视觉语言模型支持开放词汇视觉识别，甚至可以对图像中的物体-主体交互进行复杂的推断。这种语义推理、问题解决和视觉解释能力对于必须在现实环境中执行各种任务的通才机器人将非常有用。然而，目前还不清楚机器人应该如何获得这种能力。通过蛮力方法可能需要收集数百万个机器人交互试验数据，如现今最强大的语言和视觉语言模型训练来自网络的数十亿标记和图像——这个数量不太可能在不久的将来与机器人数据匹配。另一方面，直接将这些模型应用于机器人任务也很困难：这样的模型会对语义、标签和文本提示进行推理，而机器人需要扎根于低级动作，如笛卡尔末端执行器命令。虽然最近的一些工作试图将语言模型（LLMs）和视觉语言模型（VLMs）合并到机器人技术中，但这些方法通常只处理机器人规划的“更高级”方面，基本上是扮演状态机的角色---解释命令并将它们解析成单个的原语（如挑选和放置对象），然后由单独的低级控制器执行，这些控制器在训练期间不会受益于丰富的互联网规模模型的丰富语义知识。因此，在本文中，我们提出的问题是：大型预先训练的视觉语言模型能否直接集成到低级机器人控制中，以促进泛化并实现突发语义推理？

为此，我们探索了一种既简单又惊人有效的方法：我们直接训练为开放词汇视觉问答和视觉对话设计的视觉语言模型，以输出低级的机器人动作，同时解决其他互联网规模的视觉语言任务。虽然这些模型通常被训练来产生自然语言标记，但我们可以通过将动作标记为文本，并创建“多模态句子”，通过产生相应的动作来对机器人指令与摄像机观察进行“响应”。通过这种方式，视觉语言模型可以被直接地训练为遵循机器人策略的指令。这种简单的方法与之前将VLMs纳入机器人策略的方案形成了对比，也不同于从零开始设计新的视觉语言动作架构：相反，预先存在的视觉语言模型，已经摊销了大量的计算投资，在训练时没有任何新的参数来输出文本编码的操作。我们将这类模型称为视觉-语言-行动（VLA）模型。我们通过基于RT-1提出的协议来演示效果，使用了类似的数据集，但将模型扩展为使用大型视觉语言主干。因此，我们将我们的模型称为RT-2（机器人变压器2）。我们在图1中提供了一个概述。

(图1 | RT-2概述：我们将机器人动作表示为另一种语言，它可以转换为文本令牌，并与互联网规模的视觉语言数据集一起进行训练。在推理过程中，文本标记被去标记化为机器人动作，从而实现闭环控制。这使得我们能够在学习机器人策略时利用视觉语言模型的主干和预训练结果，将它们的一些泛化、语义理解和推理转移到机器人控制中。我们在项目网站： robotics-transformer2.github.io上演示了RT-2执行的例子。)图找原文。

我们观察到，从这种视觉语言模型中获得的机器人策略表现出一系列显著的能力，将从机器人数据中学习到的物理运动与将从web数据中学习到的图像和文本解释为单一模型的能力相结合。除了显著提高对新对象和语义变化指令的的适应性的预期好处外，我们还观察到一些涌现的能力。虽然该模型的身体技能仍然局限于在机器人数据中看到的技能的分布，但该模型通过使用从网络中收集到的知识来解释图像和语言命令，获得了以新的方式部署这些技能的能力。图2中显示了一些突出显示的示例。该模型能够重新利用从机器人数据中学到的挑选和放置技能，将物体放置在语义指示的位置附近，比如特定的数字或图标，尽管这些线索并不存在于机器人数据中。该模型还可以解释对象之间的关系，以确定选择哪个对象和将其放在哪里，尽管在机器人演示中没有提供这种关系。此外，如果我们增加命令的思想链提示，模型能够做出更复杂的语义推断，如找出哪个对象捡起作为一个临时锤（岩石），或哪种类型的饮料最适合人累（能量饮料）。

我们的主要贡献是RT-2，这是一系列模型，它们来自于对在网络规模数据上训练的大型视觉语言模型进行微调，以直接作为可泛化和语义感知的机器人策略。我们的实验研究了基于互联网数据和之前工作中注解的机器人弹道数据以形成的多达55B参数的模型。在6k机器人评估过程中，我们发现RT-2能够显著改进对象、场景和指令的泛化能力，并展示了从网络规模的视觉语言预训练中继承来的广泛的涌现能力。

相关工作

视觉语言模型。有几个类别的视觉语言模型（VLMs），也许有两个最相关的：(1)表示学习模型，例如CLIP---能够学习常见的嵌入模式。(2)视觉语言模型的形式{视觉，文本}→{文本}，能够学习视觉和语言作为输入和提供自由形式的文本。这两个类别都已被用于为下游应用的广泛应用提供预训练，如对象分类、检测和分割。在这项工作中，我们主要关注后一类。这些模型通常在许多不同的任务上进行训练，如图像字幕、视觉问题回答（VQA）和同时在多个数据集上进行的一般语言任务。虽然之前的研究VLMs的工作包括机器人，但我们所关注的是如何将VLMs的能力扩展到机器人闭环控制以赋予模型预测机器人行动的能力，从而利用已经出现在VLMs的知识以促进新水平的泛化。

推广机器人学习。开发能够在各种场景中取得广泛成功的机器人控制器是机器人技术研究的一个长期目标。实现机器人操作泛化的一个有前途的方法是从大型和多样的数据集学习。通过这样做，曾经的方法已经演示了机器人可以泛化至新的对象实例、物体和技能的新组合的任务、新的目标或语言指导、新的语义对象类别、看不见的环境的影响。与之前的大多数工作不同，我们的目标是开发和研究一个单一的模型，它可以推广到所有这些轴上的看不见的条件。我们的方法的一个关键成分是利用预先训练过的模型，这些模型训练用的数据比机器人模型看到的数据要广泛得多。

对机器人操作的预训练。预训练在机器人学习方面有着悠久的历史。大多数工作集中在预先训练的视觉表示，可以用来初始化机器人的摄像机观察的编码器，要么通过监督的图像网分类，数据增强，或为机器人控制量身定制的目标。其他的作品也采用了预先训练过的语言模型，通常是作为一个指令编码器或者用于高层规划。我们没有使用预先训练的视觉模型或预先训练的语言模型，而是特别考虑使用预先训练的视觉语言模型（VLMs），它提供了关于世界的丰富的、有基础的知识。曾经的工作研究了VLMs在机器人中的应用，并构成了这项工作灵感的一部分。这些先前的方法使用VLM用于视觉状态表示，用于识别对象，高层规划，或提供监督或成功检测。虽然CLIPort和MOO将预先训练过的VLMs集成到端到端视觉运动操作策略中，但两者在策略中纳入了重要的结构，这限制了它们的适用性。值得注意的是，我们的工作并不依赖于受限的2D动作空间，也不需要经过校准的相机。此外，一个关键的区别是，与这些工作不同的是，我们利用生成语言的VLMs。我们公式的统一输出空间使模型权值在语言和操作任务之间完全共享，而不需要引入仅操作的模型层组件。

视觉语言行动模型

在本节中，我们将介绍我们的模型家族和使训练VLMs能够直接执行闭环机器人控制的设计选择。首先，我们描述了模型的一般架构，以及如何从通常用于视觉语言任务的模型中派生出它们。然后，我们介绍了对在网络规模数据上预先训练的大型VLM进行微调的配方和挑战，以直接输出机器人的动作，成为VLA模型。最后，我们描述了如何使这些模型实用机器人任务，解决了模型大小和推理速度的挑战，以实现实时控制。

1. 预先训练过的视觉-语言模型

我们在这项工作中建立的视觉语言模型将一个或多个图像作为输入，并产生一系列标记，传统上表示自然语言文本。这种模型可以执行广泛的视觉解释和推理任务，从推断图像的组成到回答关于单个物体及其与其他物体的关系的问题。想要执行如此广泛的任务所需的知识----大型模型和网络规模的数据集。在这项工作中，我们采用了先前提出的两个VLMs作为VLA模型：PaLI-X和PaLM-E。我们将把这些模型的视觉-语言-动作版本称为RT-2-PaLI-X和RT-2-PaLM-E。我们利用这些模型的实例，大小从数十亿到数百亿参数不等。我们在附录D中提供了对这两个模型的体系结构的详细描述。

(图2 | RT-2能够推广到各种需要推理、符号理解和人类识别的真实情况。我们将在第4节中详细研究这些具有挑战性的场景。)

1. 机器人动作微调

为了使视觉语言模型能够控制机器人，就必须训练它们来输出动作。我们采取了一种直接的方法来解决这个问题，将机器人动作表示为模型输出中的标记，并以与语言标记相同的方式处理。我们的行动编码基于Brohan等人（2022）提出的RT-1模型的离散化。动作空间包括机器人端执行器的6自由度位置和旋转位移，以及机器人夹持器的扩展水平和终止事件的特殊离散命令，这应由策略触发，以作为成功完成的信号。连续的方向（除离散终止命令外的所有方向）被均匀地离散成256个bit。因此，机器人的动作可以用离散箱的序数表示为8个整数。为了使用这些离散化的动作将视觉语言微调成视觉语言-动作模型，我们需要将模型现有标记化中的标记与离散的动作箱关联起来。这需要保留256个令牌作为动作令牌。选择哪些令牌取决于每个VLM使用的特定令牌化，我们将在本节后面讨论。为了定义一个可以进行VLM微调的目标，我们通过简单地将每个维度的动作标记连接为一个空间字符，将动作向量转换为单个字符串：

(公式1)

这样一个目标的一个可能的实例化可能是：“1 128 91 241 5 101 127”。我们在实验中调整的两个VLM，PaLI-X和PaLM-E，使用了不同的标记化。对于PaLI-X，最多1000个整数都有一个唯一的标记，因此我们简单地将操作箱与表示相应整数的标记关联起来。对于PaLM-E模型，它没有提供这个方便的数字表示，我们只是覆盖256个最不常用的令牌来表示动作词汇表。值得注意的是，训练VLM用动作令牌覆盖现有的令牌是一种符号调优的形式，这在之前的工作中已被证明很适合VLM。

采用上述的动作表示，我们将我们的机器人数据转换为适合VLM模型的微调数据，其中我们的输入包括机器人摄像机图像和文本任务描述(使用标准的VQA格式“Q：机器人应该采取[任务指令]什么动作？ A:"), 我们的输出被格式化为一串数字/最不常用的令牌。

协同微调。正如我们将在实验中展示的，提高机器人性能的训练配方的一个关键技术细节是将机器人数据与原始web数据进行协同微调，而不是只对机器人数据进行简单的微调。我们注意到，协同微调会导致更一般化的策略，因为这些策略在微调过程中同时暴露于来自web规模数据的抽象视觉概念和低级机器人动作，而不仅仅是机器人动作。在共微调过程中，我们通过增加机器人数据集上的采样权值来平衡每个训练批中机器人和web数据的比例。

输出约束。RT-2和标准VLM之间的一个重要区别是，RT-2需要输出有效的动作令牌才能在真实的机器人上执行。因此，为了确保RT-2在解码过程中输出有效的动作令牌，当模型被机器人动作任务提示时，我们只通过采样有效的动作令牌来约束其输出词汇表，而模型仍然允许在标准视觉语言任务中输出完整的自然语言令牌。

1. 实时推理

现代VLMs的大小可以达到数十个或数千亿个参数。在这项工作中训练的最大模型使用55B参数。在通常用于实时机器人控制的标准桌面式机器或机器人gpu上直接运行这种模型是不可行的。据我们所知，我们的模型是有史以来最大的模型，数量级超过一个数量级，用于直接闭环机器人控制，因此需要一套新的解决方案来实现有效的实时推断。我们开发了一个协议，通过将机器人上的RT-2模型部署在多TPU云服务中，并在网络上查询该服务。有了这个解决方案，我们就可以实现一个合适的控制频率，并使用相同的云服务为多个机器人提供服务。我们评估的最大的模型，55B参数RT-2-PaLI-X-55B模型，可以在1-3 Hz的频率下运行。该模型的较小版本，由5个B参数组成，可以以大约5赫兹的频率运行。

实验

我们的实验集中于现实世界中RT-2的泛化和涌现能力，旨在回答以下问题：

RT-2如何在看到的任务上执行，更重要的是，概括新的对象、背景和环境？
我们能观察和测量RT-2的任何紧急能力吗？
泛化如何随参数计数和其他设计决策而变化？
RT-2能否表现出类似于视觉语言模型的思维链推理的迹象？

我们在各种条件下用大约6000个评估轨迹来评估我们的方法和几个基线，我们将在下面的章节中进行描述。除非另有说明，我们使用一个7自由度移动操纵器与动作空间描述于章节3.2。我们还在项目网站robotics-transformer2.github.io上演示了RT-2执行的例子。我们训练了两个利用预先训练的VLM的RT-2的特定实例： (1) RT-2-PaLI-X由5B和55B PaLI-X构建。(2) RT-2-PaLM-E由12B PaLM-E构建。

对于培训，我们利用了Chen等人和Driess等人的原始网络规模数据，其中包括视觉问题回答、字幕和非结构化交织的图像和文本示例。我们将其与Brohan等人的机器人演示数据结合起来，这些数据是在办公室厨房环境中使用超过17个月的13个机器人收集的。每个机器人演示轨迹都有一个描述所执行任务的自然语言指令，包括一个描述技能的动词（例如，“选择”、“打开”、“放置”）和一个或多个描述被操纵对象的名词（例如，“7up罐子”、“抽屉”、“餐巾”）（关于所使用的数据集的更多细节见附录B）。对于所有的RT-2训练运行，我们采用了原始的PaLI-X和PaLM-E论文中的超参数，包括学习率计划和正则化。更多的培训详情见附录E。

基线。我们将我们的方法与多个最先进的基线进行了比较，这些基线挑战了我们的方法的不同方面。所有的基线都使用了完全相同的机器人数据。为了与最先进的策略进行比较，我们使用了RT-1，一个基于35M参数变压器的模型。为了与最先进的预训练表示进行比较，我们使用VC-1和R3M，并通过训练RT-1主干将它们的表示作为输入来实现策略。为了与使用VLM的其他架构进行比较，我们使用了MOO，它使用VLM为语义映射创建一个额外的图像通道，然后将其输入RT-1主干。更多信息见附录C。

1. RT-2如何在看到的任务上执行，更重要的是，概括新的对象、背景和环境？

(图3|图4和6b以及表4和6中用于评估的泛化场景示例。)

为了评估分布内的性能和泛化能力，我们将RT-2-PaLI-X和RT-2-PaLM-E模型与前面章节中列出的四个基线进行了比较。对于训练数据可视的类别，我们使用与RT-1相同的套件，其中包括超过200个任务的评估： 36挑选对象，35敲门对象，35把东西直立，48移动对象，18打开和关闭各种抽屉，和36挑选和把对象放到抽屉里。然而，请注意，这些“分布”评估仍然改变了物体的位置和因素，如一天中的时间和机器人的位置，需要技能来概括到环境中现实的可变性。

图3显示了泛化评估示例，它们被分为不可见的类别（对象、背景和环境），另外还被划分为简单和难的情况。对于看不见的物体，难的情况包括更难抓住和更独特的物体（如玩具）。对于看不见的背景，难的情况包括更多样的背景和新颖的物体。最后，对于看不见的环境，难的情况对应的是一个视觉上更独特的办公桌环境，而更容易的环境是一个厨房水槽。这些评估包括超过280项任务，主要集中于在许多不同的情况下挑选和放置技能。对于不可见类别的详细情况参见附录F.2。

(图4|RT-2的两个实例和基线在可见的训练任务，以及测量对新对象、新背景和新环境的泛化的看不见评估。附录表4详细说明了完整的结果。)

评价结果如图4和附录表4所示。RT-2模型和RT-1模型在观察任务上的表现是相似的，其他基线获得了较低的成功率。RT-2模型和基线之间的差异在各种泛化实验中最为显著，这表明视觉-语言-行动模型的优势在于从其互联网规模的预训练数据中转移了更多可泛化的视觉和语义概念。在这里，平均而言，RT-2的两个实例化的性能相似，比较接下来的两个基线RT-1和MOO上提高了2倍，而比其他基线好了6倍。RT-2的PaLM-E版本的RT-2似乎比RT-2-PaLI-X表现更好，而在更简单的场景上表现不佳，导致了类似的平均性能。

开源语言表基准测试。为了提供使用开源基线和环境的额外的比较点，我们利用了Lynch等人的开源语言表模拟环境。我们在语言表数据集的几个预测任务上共同微调了一个更小的PaLI 3B模型，包括域内的VQA任务，并在仿真中评估生成的策略。对于动作预测任务，我们将动作以“XY”格式的文本离散和编码，其中X和Y的范围在{-10，-9，…，+9，+10}，并表示末端执行器的二维笛卡尔设定点。由于其尺寸缩小，生成的模型可以以与其他基线相似的速率（5 Hz）运行推理。本实验的结果见表1。我们观察到，与基线相比，当使用我们的模型相比，我们的性能显著提高，这表明基于VLM的预训练和大型PaLI模型的表达能力在其他场景中是有益的，在这种情况下，使用不同的机器人进行模拟。我们还在图5中展示了定性的真实世界的分布外行为，展示了新的推动任务和针对之前在这个环境中未见过的对象。关于语言表实验的更多细节见附录B和D。

1. 我们能观察和测量RT-2的任何紧急能力吗？

除了评估视觉-语言-动作模型的泛化能力外，我们还旨在评估这些模型通过从网络传递知识，在多大程度上能够实现机器人数据中所展示的新能力。我们将这种能力称为突发性能力，因为它们是通过转移互联网规模的预培训而产生的。我们并不期望这种转移能够使新的机器人运动成为可能，但我们确实期望语义和视觉概念，包括关系和名词，能够有效地转移，即使在这些概念在机器人数据中没有看到的情况下。

(图5|语言表环境中真实世界的分布外行为。使用相同的RT-2-PaLI-3B模型检查点，如表1所示。表1|在模拟语言表任务上的性能)

定性评价。首先，我们用我们的RT-2-PaLI-X模型进行实验，以确定从视觉语言概念转移过来的各种突发能力。我们将在图2中展示一些这种交互的示例。通过我们的探索，我们发现RT-2继承了场景中语义理解和基本推理方面的新能力。例如，要完成“把草莓放进正确的碗里”的任务，不仅需要细致地了解草莓和碗是什么，还需要在上下文中推理，知道草莓应该和类似的水果搭配。对于“拿起即将从桌子上掉下来的袋子”的任务，RT-2展示了物理理解，以消除两个袋子之间的歧义，并识别摇摇欲坠的物体。在这些场景中测试的所有交互都从未在机器人数据中看到过，这表明了从视觉语言数据中获得的语义知识的转移。

定量评估。为了量化这些紧急能力，我们从之前的评估中选取了前两个基线，RT-1和VC-1，并将它们与我们的两个模型进行比较： RT-2-PaLI-X和RT-2-PaLM-E。为了减少这些实验的方差，我们使用A/B测试框架来评估所有的方法，其中所有四个模型都在完全相同的条件下一个接一个地进行评估。

我们将RT-2的突发功能分为三类，包括推理轴和语义理解轴（每个轴的示例如附录图8所示）。第一个我们称为符号理解，它明确地测试RT-2策略是否从任何机器人数据中都不存在的视觉语言预训练中转移语义知识。这类产品的例子说明是“把苹果移到3个”或“把可乐罐压在心上”。第二类，我们称之为推理，它证明了应用底层VLM推理的各个方面来控制任务的能力。这些任务需要视觉推理（“将相同颜色的苹果移动到杯子上”）、数学（“移动X接近2加1的和”）和多语言理解（“我的朋友”）。我们将最后一类称为人类识别任务，其中包括“将可乐罐移到戴眼镜的人身上”等任务，以展示以人为中心的理解和识别。用于本次评估的完整说明列表见附录F.2。

我们在图6a中展示了本实验的结果，所有的数值结果见附录H.2。我们观察到，我们的VLA模型在所有类别中都表现显著优于基线，我们的最佳RT-2-PaLI-X模型在下一个基线（RT-1）上获得了超过3倍的平均成功率。我们还注意到，虽然较大的基于pali-x的模型平均能更好地理解符号、推理和个人识别性能，但较小的基于palm-e的模型在涉及数学推理的任务上具有优势。我们将这个有趣的结果归因于PaLM-E中使用的不同的训练前混合数据，这导致了一个模型比大多数视觉上预训练的PaLI-X更有数学计算能力。

(图6|RT-2在（6a）紧急技能和（6b）规模和培训消融方面的定量表现。附录表5和表6详细说明了完整的数值结果。)

1. 泛化如何随参数计数和其他设计决策而变化？

为了进行比较，我们使用RT-2-PaLI-X模型，因为它在模型大小上的灵活性（由于PaLM-E的性质，RT-2-PaLM-E仅限于特定大小的PaLM和ViT模型）。特别是，我们比较了两种不同的模型大小，5B和55B，以及三种不同的训练程序：从头开始训练一个模型，不使用VLM训练前的任何权重；仅使用机器人动作数据对预先训练好的模型进行微调；以及协同微调（与微调协同训练），这是本工作中使用的主要方法，我们使用原始VLM训练数据和机器人数据进行VLM微调。由于我们最感兴趣的是这些模型的泛化方面，所以我们从这组实验中删除了所看到的任务评估。

烧蚀的结果见图6b和附录表6。首先，我们观察到，从头开始训练一个非常大的模型，即使是5B模型的性能也非常差。考虑到这个结果，我们决定在从头开始训练时，跳过对一个更大的55B PaLI-X模型的评估。其次，我们注意到，共同微调模型（无论其大小）比简单地用机器人数据进行微调能获得更好的泛化性能。我们将此归因于这样一个事实，即在训练的微调部分周围保留原始数据，允许模型不忘记在VLM训练中学习到的先前概念。最后，有点不出所料，我们注意到模型规模的增加导致了更好的泛化性能

1. RT-2能否表现出类似于视觉语言模型的思维链推理的迹象？

受LLM中思想链提示方法的启发（Wei et al.，2022），我们将RT-2的变体与PaLM-E一起微调了几百个梯度步骤，以提高其联合使用语言和动作的能力，希望它能引发更复杂的推理行为。我们增加数据，包括一个额外的“计划”步骤，描述机器人将要用自然语言采取的动作的目的，然后是实际的动作令牌，例如：“我饿了。选择rxbar巧克力。行动：1 128 124 136 121 158 111 255。”这种数据增强方案充当了VQA数据集（视觉推理）和操作数据集（生成动作）之间的桥梁。

我们定性地观察到，具有思维链推理的RT-2能够回答更复杂的命令，因为它得到了一个首先用自然语言计划其行动的位置。这是一个很有前途的方向，提供了一些初步证据，表明使用llm或VLMs作为规划者可以与单一VLA模型相结合。具有思想链推理的RT-2的滚动情况如图7和附录I所示。

(图7|使用思想链推理的RT-2的滚动，其中RT-2同时生成一个计划和一个动作。)

限制

尽管RT-2显示出了良好的泛化特性，但这种方法也有多个局限性。首先，虽然我们展示了通过vlm进行网络规模的预训练可以促进语义和视觉概念的泛化，但由于包含这种额外的体验，机器人并没有获得任何执行新动作的能力。该模型的身体技能仍然局限于在机器人数据中看到的技能的分布（见附录G），但它学会了以新的方式部署这些技能。我们认为这是由于数据集在技能轴上变化不够大的结果。未来工作的一个令人兴奋的方向是研究如何通过新的数据收集模式，如人类视频，获得新的技能。

其次，虽然我们展示了我们可以实时运行大型VLA模型，但这些模型的计算成本很高，而且由于这些方法应用于需要高频控制的设置，实时推断可能成为一个主要的瓶颈。未来研究的一个令人兴奋的方向是探索量化和蒸馏技术，这些技术可能使这些模型能够以更高的速率或在成本更低的硬件上运行。这也与当前的另一个限制有关，即只有少数一般可用的VLM模型可以用于创建RT-2。.我们希望更多的开源模型能够可用（例如https://llava-vl.github.io/），而专有的模型将开放他们的微调api，这是构建VLA模型的足够要求。

结论

在本文中，我们描述了如何通过结合视觉-语言模型（VLM）的预训练和机器人数据来训练视觉-语言-动作（VLA）模型。然后，我们提出了两个基于PaLM-E和PaLI-X的VLAs实例，我们称之为RT-2-PaLM-E和RT-2-PaLI-X。这些模型与机器人轨迹数据进行微调，输出机器人动作，这些动作用文本标记表示。我们表明，我们的方法产生了非常高性能的机器人策略，更重要的是，从网络级视觉语言预训练中继承了显著更好的泛化性能和涌现能力。我们认为，这种简单而通用的方法显示了机器人技术直接受益于更好的视觉语言模型的前景，这使机器人学习领域处于战略地位，可以随着其他领域的进步而进一步改进。

总结：使用拥有大数据的预训练好的视觉语言模型来融合机器人的动作数据，从而提高机器人模型的泛化能力。融合方式是将机器人的动作用文本标记的方式实现。本质上解决了机器人模型训练数据不足的情况下使用其它数据进行弥补的方法。