翻译：视觉语言动作模型，将在线知识转化到机器人控制RT-2: Vision-Language-Action ModelsTransfer Web Knowledge2Robotic Control

本文链接：https://blog.csdn.net/weixin_41407147/article/details/132012617

作者：

Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen, Krzysztof Choromanski, Tianli Ding, Danny Driess, Avinava Dubey, Chelsea Finn, Pete Florence, Chuyuan Fu, Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Kehang Han, Karol Hausman, Alexander Herzog, Jasmine Hsu, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang, Isabel Leal, Lisa Lee, Tsang-Wei Edward Lee, Sergey Levine, Yao Lu, Henryk Michalewski, Igor Mordatch, Karl Pertsch, Kanishka Rao, Krista Reymann, Michael Ryoo, Grecia Salazar, Pannag Sanketi, Pierre Sermanet, Jaspiar Singh, Anikait Singh, Radu Soricut, Huong Tran, Vincent Vanhoucke, Quan Vuong, Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Jialin Wu, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu, and Brianna Zitkovich Google DeepMind. Authors listed in alphabetical order, with contributions listed in Appendix A.

我们研究了如何将在互联网规模数据上训练的视觉-语言模型，直接整合到端到端的机器人控制中，以提高泛化能力，并实现涌现语义推理。我们的目标是使一个经过端到端训练的模型既能学习将机器人的观察映射到动作上，又能享受到在网络上对语言和视觉-语言数据进行大规模预训练的好处。为此，我们建议将最先进的视觉-语言模型，在机器人轨迹数据和互联网规模的视觉-语言任务（如视觉问题回答）上进行联合微调。与其他方法不同，我们提出了一个简单、通用的配方来实现这个目标：为了将自然语言token和机器人动作放入同一格式，我们将动作表达为文本标记，并将其直接纳入模型的训练集，就像自然语言标记一样。我们将此类模型称为视觉-语言-动作模型（VLA），并实例化了这样一个模型，我们称之为RT-2。我们的广泛评估（6000次评估试验）显示，我们的方法导致了高效的机器人策略，并使RT-2获得了从互联网规模训练中获得的一系列新兴能力。这包括显著提高对新对象的泛化能力，理解不在机器人训练数据中的命令（如，将对象放在特定的数字或图标上）的能力，以及根据用户命令执行初级推理的能力（如拾起最小或最大的对象，或离另一个对象最近的对象）。我们进一步展示了，将思维链推理纳入其中，允许RT-2执行多阶段语义推理，例如弄清楚应拾起哪个物体作为临时的锤子（一块石头），或者哪种类型的饮料最适合疲倦的人（一种能量饮料）。

1. 介绍

在广泛的网页规模数据集上预训练的高容量模型为各种下游任务提供了有效而强大的平台：大型语言模型不仅能使文本生成流畅（Anil等人，2023; Brohan等人，2022; OpenAI，2023），而且能解决新出现的问题（Cobbe等人，2021; Lewkowycz等人，2022; Polu等人，2022）并创造性地生成散文（Brown等人，2020; OpenAI，2023）和代码（Chen等人，2021），而视觉-语言模型则能实现开放词汇的视觉识别（Kirillov等人，2023; Minderer等人，2022; Radford等人，2021），甚至可以对图像中的对象-代理交互进行复杂推理（Alayrac等人，2022; Chen等人，2023a,b; Driess等人，2023; Hao等人，2022; Huang等人，2023; Wang等人，2022）。这样的语义推理、问题解决和视觉解释能力对于必须在现实环境中执行各种任务的通用机器人来说，将非常有用。然而，如何让机器人获得这些能力却不明确。虽然暴力方法可能包括收集数百万次机器人交互试验，但最有能力的语言和视觉-语言模型是在网络上对数十亿个标记和图像进行训练的（Alayrac等人，2022; Chen等人，2023a,b; Huang等人，2023） - 这是近期内不太可能用机器人数据匹敌的。另一方面，直接将这些模型应用到机器人任务上也很困难：这些模型处理语义、标签和文本提示，而机器人需要进行基础的低级动作，如笛卡尔末端执行器指令。尽管最近有一些工作试图将语言模型（LLMs）和视觉-语言模型（VLMs）整合到机器人技术中（Ahn等人，2022; Driess等人，2023; Vemprala等人，2023），但这些方法通常只解决机器人规划的“高级”方面，基本上扮演一个状态机的角色，解释命令并将它们解析为个别的原始指令（如拾取和放置对象），然后由独立的低级控制器执行，这些控制器在训练过程中并未从网络规模模型的丰富语义知识中受益。因此，在这篇论文中，我们提出了一个问题：大型预训练视觉语言模型能否直接集成到低级机器人控制中，以提高泛化能力并实现新兴的语义推理呢？

图1 ，RT-2概述：我们将机器人动作视为另一种语言，它可以转化为文本标记并与互联网规模的视觉-语言数据集一起进行训练。在推理过程中，文本标记被反标记化为机器人动作，实现闭环控制。这允许我们在学习机器人策略时利用视觉-语言模型的主干和预训练，将它们的一部分泛化、语义理解和推理能力转移到机器人控制上。我们在项目网站上展示了RT-2执行的一些例子：robotics-transformer2.github.io。

为此，我们探索了一种既简单又惊人地有效的方法：我们直接训练视觉-语言模型，这些模型旨在进行开放词汇视觉问题回答和视觉对话，输出低级别的机器人动作，并解决其他互联网规模的视觉-语言任务。虽然这些模型通常训练生成自然语言标记，但我们可以通过将动作标记化为文本标记，并创建“多模态句子”（Driess等人，2023），通过产生相应的动作来“回应”与相机观察配对的机器人指令，训练它们在机器人轨迹上。这样，视觉-语言模型可以直接训练以作为指令执行的机器人策略。这种简单的方法与先前将VLMs整合入机器人策略的替代方案（Shridhar等人，2022a）或者从头开始设计新的视觉-语言-动作架构（Reed等人，2022）形成鲜明对比：相反，预存在的视觉-语言模型，已经摊销了大量的计算投入，无需任何新的参数就可以输出文本编码的动作。我们将这类模型称为视觉-语言-动作（VLA）模型。我们根据RT-1（Brohan等人，2022）提出的协议实例化VLA模型，使用类似的数据集，但扩展模型以使用大型视觉-语言主干。因此我们将我们的模型称为RT-2（Robotics Transformer 2）。我们在图1中提供了一个概述。

我们观察到,从这种视觉语言模型派生的机器人策略展现出一系列令人惊叹的能力,它将从机器人数据中学习的物理运动与从网络数据中学习的图像和文本解释能力结合在一个模型中。除了极大改进对新对象和语义各异指令的概括能力的预期好处外,我们还观察到了一些新出现的能力。虽然模型的物理技能仍然局限于机器人数据中的技能分布,但模型通过使用从网络中汲取的知识来解释图像和语言命令,以新的方式部署那些技能的能力。一些示例亮点如图2所示。模型能够将从机器人数据中学习的抓取放置技能重新用于将对象放置在语义指示的位置附近,例如特定数字或图标,尽管这些暗示在机器人数据中不存在。模型还可以解释对象之间的关系,以确定要抓取哪个对象并将其放在何处,尽管机器人演示中没有提供此类关系。此外,如果我们用思维链提示来增强命令,模型能够进行更复杂的语义推理,例如弄清楚哪个对象可以用作临时锤子(一块岩石)以及哪种饮料最适合疲倦的人(能量饮料)。

我们的主要贡献是RT-2,这是一系列从在网络规模数据上预训练的大型视觉语言模型微调获得的模型家族,可直接用作泛化且语义感知的机器人策略。我们的实验调查了在互联网数据和来自前人工作(Brohan等人,2022年)的带注释的机器人轨迹指令上训练的参数高达55B的模型。在6k次机器人评估中,我们显示RT-2可以显着改进对象、场景和指令的泛化,并展示从网络规模视觉语言预训练继承的各种涌现的能力。

2. 相关工作

视觉-语言模型 Vision-language model

有几个类别的视觉-语言模型VLM（Gan等人，2022），其中可能最相关的是：（1）表示学习模型，例如CLIP（Radford等人，2021），它学习了两种模态的通用嵌入；以及（2）形式为f（视觉）文本g → f（文本）g的视觉语言模型，它们学习将视觉和语言作为输入，并提供自由形式的文本输出。这两类模型已经被用于为各种应用于物体分类（Radford等人，2021）、检测（Gu等人，2021）和分割（Ghiasi等人，2021）等下游任务提供预训练。在这项工作中，我们专注于后一类模型（Alayrac等人，2022；Chen等人，2023a,b；Driess等人，2023；Hao等人，2022；Li等人，2023、2019；Lu等人，2019）。这些模型通常同时在多个数据集上进行训练，包括图像字幕生成、视觉问题回答（VQA）和通用语言任务。虽然先前的研究涵盖了各种各样的问题和设置，包括机器人学，但我们的重点是如何将VLMs的能力扩展到机器人的闭环控制中，通过赋予它们预测机器人动作的能力，从而利用VLMs已有的知识，实现新的泛化水平。

机器人学习通用化 Generalization in robot learning

开发能够在各种场景中广泛成功的机器人控制器一直是机器人研究的长期目标（Kaelbling，2020；Smith和Coles，1973）。实现机器人操纵的泛化的一个有希望的方法是通过学习大规模且多样化的数据集（Dasari等人，2019；Levine等人，2018；Pinto和Gupta，2016）。通过这样做，先前的方法已经展示了机器人如何泛化到新颖的物体实例（Finn和Levine，2017；Levine等人，2018；Mahler等人，2017；Pinto和Gupta，2016；Young等人，2021）、涉及新颖的物体和技能组合的任务（Dasari和Gupta，2021；Finn等人，2017；James等人，2018；Jang等人，2021；Yu等人，2018）、新目标或语言指令（Jang等人，2021；Jiang等人，2022；Liu等人，2022；Mees等人，2022；Nair等人，2022a；Pong等人，2019）、具有新的语义物体类别的任务（Shridhar等人，2021；Stone等人，2023）以及未知环境（Cui等人，2022；Du等人，2023a；Hansen等人，2020）。与大多数先前的工作不同，我们的目标是开发和研究一个单一模型，可以沿着所有这些维度泛化到未知条件。我们方法的一个关键要素是利用预训练模型，这些模型接触到的数据比机器人所见的数据要广泛得多。

预训练在机器人学习 Pre-training for robotic manipulation

预训练在机器人学习中有着悠久的历史。大多数研究侧重于预训练视觉表示，这些表示可用于初始化机器人相机观测的编码器，可以通过监督式ImageNet分类（Shah和Kumar，2021）、数据增强（Kostrikov等人，2020；Laskin等人，2020a,b；Pari等人，2021）或针对机器人控制的目标（Karamcheti等人，2023；Ma等人，2022；Majumdar等人，2023b；Nair等人，2022b；Xiao等人，2022b）来实现。其他研究将预训练的语言模型纳入其中，通常作为指令编码器（Brohan等人，2022；Hill等人，2020；Jang等人，2021；Jiang等人，2022；Lynch和Sermanet，2020；Nair等人，2022a；Shridhar等人，2022b）或用于高层规划（Ahn等人，2022；Driess等人，2023；Huang等人，2022；Mu等人，2023；Singh等人，2023；Wu等人，2023）。我们特别考虑的不是使用预训练的视觉模型或预训练的语言模型，而是使用预训练的视觉-语言模型（VLMs），这些模型提供了丰富而有根据的关于世界的知识。先前的研究已经研究了VLMs在机器人学中的应用（Driess等人，2023；Du等人，2023b；Gadre等人，2022；Karamcheti等人，2023；Shah等人，2023；Shridhar等人，2021；Stone等人，2023），并为本研究提供了启示。这些先前的方法使用VLMs进行视觉状态表示（Karamcheti等人，2023）、识别物体（Gadre等人，2022；Stone等人，2023）、高层规划（Driess等人，2023）或提供监督或成功检测（Du等人，2023b；Ma等人，2023；Sumers等人，2023；Xiao等人，2022a；Zhang等人，2023）。虽然CLIPort（Shridhar等人，2021）和MOO（Stone等人，2023）将预训练的VLMs整合到端到端的视觉动作操纵策略中，但两者都融入了相当的策略结构，限制了它们的适用性。值得注意的是，我们的工作不依赖于受限制的二维动作空间，也不需要校准的相机。此外，一个关键区别是，与这些工作不同，我们利用生成语言的VLMs，我们的统一输出空间使得模型权重可以完全在语言和动作任务之间共享，而无需引入仅用于动作的模型层组件。

3. 视觉-语言-动作模型，Vision-Language-Action Models

在本节中，我们介绍我们的模型家族以及为实现训练VLMs直接执行闭环机器人控制而做的设计选择。首先，我们描述了我们模型的通用架构，以及如何从通常用于视觉-语言任务的模型中得出这些模型。然后，我们介绍了在预训练于网络规模数据上的大型VLMs上进行微调的方法和挑战，使其能够直接输出机器人动作，成为VLA模型。最后，我们描述了如何使这些模型在机器人任务中实用化，解决模型大小和推理速度方面的挑战，以实现实时控制。

3.1. Pre-Trained Vision-Language Models

在本研究中，我们构建在视觉-语言模型（Chen等人，2023a；Driess等人，2023）上，该模型接收一个或多个图像作为输入，并生成一系列标记（tokens），传统上表示自然语言文本。这样的模型可以执行广泛的视觉解释和推理任务，从推断图像的构成到回答有关个别物体及其与其他物体之间关系的问题（Alayrac等人，2022；Chen等人，2023a；Driess等人，2023；Huang等人，2023）。表示执行如此广泛任务所需的知识需要大型模型和网络规模的数据集。在本研究中，我们将两个先前提出的VLMs调整为VLA模型：PaLI-X（Chen等人，2023a）和PaLM-E（Driess等人，2023）。我们将这些模型的视觉-语言-动作版本称为RT-2-PaLI-X和RT-2-PaLM-E。我们利用这些模型的实例，其大小从数十亿到数百亿参数不等。关于这两个模型的详细架构，请参见附录D。

图2中，RT-2能够泛化到多种需要推理、符号理解和人类识别的真实世界情境。我们将在第4节详细研究这些具有挑战性的场景。

3.2. Robot-Action Fine-tuning

为了使视觉-语言模型能够控制机器人，我们必须训练它们输出动作。我们采取了一种直接的方法来解决这个问题，将动作表示为模型输出中的标记（tokens），并将其与语言标记以相同的方式处理。我们基于Brohan等人（2022）在RT-1模型中提出的离散化方法来表示动作。动作空间包括机器人末端执行器的6个自由度的位置和旋转位移，以及机器人夹持器的伸展程度，还有一个特殊的离散命令，用于终止本回合（episode），该命令应由策略触发以表示成功完成。连续维度（除了离散终止命令外的所有维度）被均匀地离散成256个区间。因此，机器人动作可以使用离散区间的序数表示为8个整数数字。为了将这些离散化的动作用于微调视觉-语言模型以成为视觉-语言-动作模型，我们需要将模型现3.3. Real-Time Inference有标记化的标记与离散动作区间相关联。这需要保留256个标记作为动作标记。选择哪些标记取决于每个VLM所使用的特定标记化方式，我们将在本节后面讨论。为了为VLM微调定义目标，我们将动作向量转换为单个字符串，只需用空格字符连接每个维度的动作标记即可。

这样一个目标的一个可能实例是："1 128 91 241 5 101 127"。我们在实验中微调的两个VLMs，PaLI-X（Chen等人，2023a）和PaLM-E（Driess等人，2023），使用不同的标记化方式。对于PaLI-X，每个整数（最大值为1000）都有一个唯一的标记，因此我们简单地将动作区间与表示相应整数的标记相关联。对于PaLM-E模型，它不提供这种方便的数字表示，我们只需覆盖最不常用的256个标记来表示动作词汇。值得注意的是，训练VLMs将现有标记覆盖为动作标记是符号微调（symbol tuning）的一种形式，先前的研究已经表明这对VLMs效果良好。

采用上述描述的动作表示，我们将机器人数据转换为适合进行VLM模型微调的数据，其中输入包括机器人摄像头图像和文本任务描述（使用标准的VQA格式：“Q：机器人应该采取什么动作来执行[任务指令]？A：”），而输出则被格式化为一个由数字/最不常用的标记表示机器人动作的字符串。

Co-Fine-Tuning.

正如我们将在实验中展示的那样，训练配方的一个关键技术细节，可以改进机器人性能，就是将机器人数据与原始网络数据一起进行共同微调，而不是仅在机器人数据上进行朴素微调。我们注意到，共同微调可以产生更具泛化性的策略，因为在微调过程中，策略既接触到来自网络规模数据的抽象视觉概念，又接触到低级机器人动作，而不仅仅是机器人动作。在共同微调期间，我们通过增加机器人数据集上的采样权重来平衡每个训练批次中机器人数据和网络数据的比例。

Output Constraint.

RT-2与标准VLMs之间的一个重要区别在于，RT-2必须输出可在真实机器人上执行的有效动作标记。因此，为了确保在解码时RT-2输出有效的动作标记，我们通过在模型收到机器人动作任务时只采样有效的动作标记来限制其输出词汇表，而在标准的视觉-语言任务中，模型仍然可以输出全范围的自然语言标记。

3.3. Real-Time Inference

现代视觉-语言模型的大小可以达到数百亿或数千亿个参数（Chen等人，2023a；Driess等人，2023）。本研究中训练的最大模型使用了550亿个参数。在标准的桌面式计算机或通常用于实时机器人控制的机器人GPU上直接运行这样的模型是不可行的。据我们所知，我们的模型是迄今为止使用最大的直接闭环机器人控制模型，其规模超过一个数量级，因此需要一套新的解决方案来实现高效的实时推理。我们开发了一个协议，允许我们在机器人上运行RT-2模型，通过将它们部署在多TPU云服务上，并通过网络查询该服务。通过这个解决方案，我们可以实现适当的控制频率，并且可以使用同一个云服务为多个机器人提供服务。我们评估的最大模型是包含550亿个参数的RT-2-PaLI-X-55B模型，其运行频率在1-3赫兹之间。较小版本的该模型，包含50亿个参数，可以以约5赫兹的频率运行。

4. 实验，Experiments

我们的实验着眼于RT-2的真实世界泛化和新出现的能力,目的是回答以下问题:

1. RT-2在见过的任务上的表现如何,更重要的是,它如何泛化到新的对象、背景和环境?

2. 我们能否观察和测量RT-2的任何新出现的能力?

3. 泛化性随着参数数量和其他设计决策的变化而有何不同?

4. RT-2能否展示类似视觉语言模型的逐步推理迹象?

我们使用约6000条不同条件下的评估轨迹来评估我们的方法和几个基准,我们在后续章节中对其进行描述。除非另有说明,否则我们使用7自由度移动机械手,其动作空间如第3.2节所述。我们还在项目网站上演示了RT-2的执行示例:robotics-transformer2.github.io。我们训练了两个利用预训练VLMs的RT-2具体实例:(1) 基于5B和55B PaLI-X构建的RT-2-PaLI-X(Chen等,2023a),以及(2) 基于12B PaLM-E构建的RT-2-PaLM-E(Driess等,2023)。

对于训练,我们利用了Chen等人(2023a)和Driess等人(2023)的原始网络规模数据,其中包括视觉问答、字幕和交织的无结构图像和文本示例。我们将其与Brohan等人(2022)的机器人演示数据相结合,该数据是在办公厨房环境中用13个机器人收集的,历时17个月。每个机器人演示轨迹都用自然语言指令进行了注释,描述了所执行的任务,包括描述技能的动词(例如“拿起”、“打开”、“放入”)和描述所操作对象的一个或多个名词(例如“7喜罐头”、“抽屉”、“餐巾”) (有关使用数据集的更多详细信息,请参见附录B)。对于所有RT-2训练运行,我们采用了原始PaLI-X(Chen等,2023a)和PaLM-E(Driess等,2023)论文中的超参数,包括学习速率调度和正则化。更多训练详细信息请参见附录E。

基准。我们将我们的方法与多个对我们的方法提出不同方面的挑战的最新基准进行了比较。所有基准都使用完全相同的机器人数据。为了与最先进的策略进行比较,我们使用RT-1(Brohan等人,2022年),这是一个基于35M参数变压器的模型。为了与最先进的预训练表示进行比较,我们使用VC-1(Majumdar等人,2023a)和R3M(Nair等人,2022b),策略通过训练一个以其表示为输入的RT-1骨干来实现。为了与其他使用VLM的体系结构进行比较,我们使用MOO(Stone等,2023),它使用VLM为语义地图创建额外的图像通道,然后将其馈送到RT-1骨干。更多信息请参阅附录C。

4.1 RT-2在看过的任务上的表现如何,更重要的是,它如何泛化到新对象,背景和环境?

为了评估分布内表现以及泛化能力,我们将RT-2-PaLI-X和RT-2-PaLM-E模型与前节列出的四个基准进行了比较。对于已见任务类别,我们使用与RT-1(Brohan等等,2022)相同的一套已见指令,其中本次评估包含超过200个任务:取物体36个,敲打物体35个,使物体直立35个,移动物体48个,打开和关闭各种抽屉18个,从抽屉内取出和放入物体36个。但是,请注意,这些“分布内”评估仍然会改变物体的摆放以及白天时间等因素,需要这些技能泛化到环境中的实际变化。

图3显示了泛化评估的示例,这些示例被分为未见类别(对象、背景和环境),并且额外分为简单和困难用例。对于未见对象,困难用例包括更难抓取和更独特的对象(如玩具)。对于未见背景,困难用例包括更多样化的背景和新颖的对象。最后,对于未见环境,困难用例对应于一个视觉上更明显不同的办公桌环境,具有监视器和配件,而较简单的环境是一个厨房水槽。这些评估包含超过280个任务,主要关注在许多不同场景中的取放技能。未见类别的指令列表在附录F.2中指定。

图4 总体上展示了RT-2的两个实例以及基准在见过的训练任务上的表现,以及测量泛化能力的未见评估,包括新对象、新背景和新环境。附录表4详细列出了完整结果。

评估结果如图4和附录表4所示。RT-2模型在见过的任务上的表现与RT-1类似,而其他基准模型的成功率较低。RT-2模型与基准模型之间的差异在各种泛化实验中最为明显,这表明视觉语言动作模型的优势在于从其互联网规模的预训练数据中转移更普适的视觉和语义概念。在这里,平均而言,RT-2的两个实例的表现相似,比下两个基准RT-1和MOO提高了2倍,比其他基准提高了6倍。PaLM-E版本的RT-2在泛化场景的困难版本中似乎比RT-2-PaLI-X表现更好,而在较易版本中表现较差,从而获得了类似的平均表现。开源语言表基准。为了利用开源基准和环境提供额外的比较,我们利用Lynch等人(2022)的

开源语言表模拟环境。我们在语言表数据集上的几个预测任务上微调一个较小的PaLI 3B模型,包括域内VQA任务,并在模拟中评估结果策略。对于动作预测任务,我们将动作离散化并编码为文本,格式为“X Y”,其中X和Y的范围在{-10,-9,...,+9,+10}之间,表示末端执行器的2D笛卡尔增量集点。由于其规模较小,结果模型的推理速率(5 Hz)与其他基准相似。该实验的结果如表1所示。与基准相比,我们观察到使用我们的模型时性能显着提升,表明基于VLM的预训练以及大型PaLI模型的表达能力在其他场景也是有益的,在这种情况下是与不同机器人的模拟。我们还在图5中展示了真实世界的分布外行为,演示了新的推动任务以及目标不是此前在该环境中见过的对象。有关语言表实验的更多详细信息,请参阅附录B和D。

4.2. 我们可以观察和测量RT-2的涌现的能力吗?

此外,除了评估视觉语言动作模型的泛化能力,我们还旨在评估这些模型可以在何种程度上通过从网络传输知识来实现超越机器人数据中演示的新功能。我们将这种能力称为新兴能力,因为它们是通过从互联网规模的预训练中出现的。我们不期望这样的传递可以实现新的机器人运动,但我们确实期望语义和视觉概念(包括关系和名词)可以有效传递,即使这些概念没有在机器人数据中看到。

定性评估。首先,我们用RT-2-PaLI-X模型进行实验,确定从视觉语言概念转移的各种新兴能力。我们在图2中演示了此类交互的一些示例。通过我们的探索,我们发现RT-2继承了语义理解和场景上下文中的基本推理的新功能。例如,完成“把草莓放进正确的碗里”的任务需要对草莓和碗不仅有细致的理解,还需要在场景环境中推理知道草莓应该和类似的水果放在一起。对于“拿起快要从桌子上掉下来的袋子”的任务,RT-2展示了物理理解的能力,可以区分两个袋子并识别处于不稳定位置的对象。这些场景中测试的所有交互在机器人数据中从未见过,这表明了从视觉语言数据传输的语义知识。

定量评估。为了量化这些新兴能力,我们取前两个基准RT-1和VC-1,并与我们的两个模型进行比较:RT-2-PaLI-X和RT-2-PaLM-E。为了减少这些实验的方差,我们使用A/B测试框架评估所有方法(Fisher,1936),其中四种模型依次在完全相同的条件下进行评估。

我们将RT-2的新兴能力分为三大类,涵盖推理和语义理解的轴线(每个类别的示例如附录图8所示)。我们称第一个为符号理解,它明确测试RT-2策略是否从视觉语言预训练中传递了任何机器人数据中都没有的语义知识。这个类别中的示例指令是“move apple to 3”或“push coke can on top of heart”。第二个类别我们称为推理,它展示了应用基础VLM的各种推理方面的能力来控制任务。这些任务需要视觉推理(“将苹果移到同色杯子里”)、数学计算(“将X移到两加一的和附近”)和多语言理解(“mueve la manzana al vaso verde”)。我们把最后一个类别称为人类识别任务,包括诸如“将可乐罐移到戴眼镜的人那里”之类的任务,以展示以人为本的理解和识别。这个评估使用的完整指令列表在附录F.2中指定。

我们在图6a中呈现了这个实验的结果,所有定量结果在附录H.2中。我们观察到,我们的VLA模型在所有类别上明显优于基线,我们最好的RT-2-PaLI-X模型比下一个最佳基线(RT-1)平均成功率高出3倍以上。我们还注意到,虽然基于更大的PaLI-X模型在平均上导致更好的符号理解、推理和人员识别性能,但基于更小的PaLM-E模型在涉及数学推理的任务上具有优势。我们将这个有趣的结果归因于PaLM-E中使用的不同预训练混合,这导致一个比大多通过视觉预训练的PaLI-X更擅长数学计算的模型。

图6 量化RT-2在(6a)涌现的技能和(6b)大小和训练消融上的表现。附录表5和6详细列出了完整的数值结果。

4.3. 泛化如何随参数数量和其他设计决策而变化?

对于此比较,我们使用RT-2-PaLI-X模型,因为就模型大小而言,它非常灵活(由于PaLM-E的性质,RT-2-PaLM-E仅限于某些大小的PaLM和ViT模型)。具体来说,我们比较了两个不同的模型大小,5B和55B,以及三种不同的训练例程:从头开始训练模型,不使用任何VLM预训练权重;仅使用机器人动作数据微调预训练模型;以及联合微调(联合训练与微调),这是本文中使用的主要方法,其中我们同时使用原始VLM训练数据和机器人数据进行VLM微调。由于我们主要关注这些模型的泛化方面,因此我们从这组实验中删除了已见任务的评估。

消融结果如图6b和附录表6所示。首先,我们观察到,即使对于5B模型,从头开始训练一个非常大的模型也会导致非常糟糕的性能。根据此结果,我们决定在从头开始训练时跳过对更大的55B PaLI-X模型的评估。其次,我们注意到无论模型大小如何,与仅使用机器人数据微调相比,联合微调模型可以获得更好的泛化性能。我们将此归因于训练中的微调部分周围保留原始数据的事实,这使得模型不会忘记VLM训练期间学习的以前概念。最后,一如我们所料,模型大小的增加会导致更好的泛化性能。

4.4. RT-2能否展示与视觉语言模型类似的逐步推理迹象?

受链式推理提示方法的启发(Wei等,2022年),我们对RT-2的一个变体进行了几百次梯度步骤的微调,以增加其联合利用语言和动作的能力,希望它能引发更复杂的推理行为。我们增强了数据,以包含一个额外的“计划”步骤,它首先用自然语言描述机器人即将执行的动作的目的,然后是实际的动作标记,例如“指令:我饿了。计划:拿起巧克力燕麦巴。动作:1 128 124 136 121 158 111 255。”这种数据增强方案充当视觉问答数据集(视觉推理)和操作数据集(生成动作)之间的桥梁。

我们定性地观察到,具有链式推理的RT-2能够回答更复杂的命令,因为它首先被给予一个地方以自然语言计划其动作。这是一个有希望的方向,它提供了一些初步证据,即使用LLM或VLM作为规划器(Ahn等,2022;Driess等,2023)可以与单个VLA模型中的低级策略相结合。链式推理RT-2的展开如图7和附录I所示。

5. 限制

尽管RT-2展示了很有前途的泛化特性,但这种方法还存在多种限制。首先,虽然我们展示了通过VLM包含大规模预训练可以增强对语义和视觉概念的泛化,但机器人并没有通过包含这种额外经验而获得执行新运动的能力。模型的物理技能仍然限于机器人数据中所见技能的分布(参见附录G),但是它学习以新的方式部署这些技能。我们认为这是由于数据集在技能方面不够多样化的结果。未来工作的一个激动人心的方向是研究如何通过新的数据收集范式(如人类视频)来获得新技能。

其次,尽管我们展示了可以实时运行大型VLA模型,但这些模型的计算成本很高,随着这些方法被应用于需要高频控制的场景,实时推理可能成为一个主要的瓶颈。未来研究的一个令人兴奋的方向是探索量化和蒸馏技术,这些技术可能使这样的模型以更高的速率在低成本硬件上运行。这也与另一个当前的局限性相关,那就是只有很少的VLM模型可以普遍使用来创建RT-2。我们希望会有更多开源的模型(例如LLaVA),并且专有模型也会开放他们的微调API,这是构建VLA模型的充分要求。

6. 结论

在本文中,我们描述了如何通过将视觉语言模型(VLM)预训练与机器人数据相结合来训练视觉语言行动(VLA)模型。然后,我们提出了基于PaLM-E和PaLI-X的两种VLA实例,称为RT-2-PaLM-E和RT-2-PaLI-X。这些模型与机器人轨迹数据共同微调,以输出表示为文本标记的机器人操作。
我们展示了我们的方法可以产生非常高效的机器人策略,更重要的是,从大规模视觉语言预训练中继承的显著更好的泛化性能和新兴能力。我们相信,这种简单通用的方法展示了机器人学可以直接从更好的视觉语言模型中受益的前景,这使机器人学习领域进一步随其他领域的进步而提高具有战略意义。

感谢

We would like to acknowledge Fred Alcober, Jodi Lynn Andres, Carolina Parada, Joseph Dabis, Rochelle Dela Cruz, Jessica Gomez, Gavin Gonzalez, John Guilyard, Tomas Jackson, Jie Tan, Scott Lehrer, DeeM, Utsav Malla, Sarah Nguyen, Jane Park, Emily Perez, Elio Prado, Jornell Quiambao, Clayton Tan,Jodexty Therlonge, Eleanor Tomlinson, Wenxuan Zhou, and the greater Google DeepMind team for their feedback and contributions

附录

A. Contributions

• Training and Evaluations (designing and executing procedures for training models, evaluating

models in simulation and the real world, running ablations for algorithm design

choices): Yevgen Chebotar, Krzysztof Choromanski, Tianli Ding, Danny Driess, Avinava Dubey,

Pete Florence, Chuyuan Fu, Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Kehang Han,

Alexander Herzog, Brian Ichter, Alex Irpan, Isabel Leal, Lisa Lee, Yao Lu, Henryk Michalewski,

Igor Mordatch, Karl Pertsch, Michael Ryoo, Anikait Singh, Quan Vuong, Ayzaan Wahid, Paul

Wohlhart, Fei Xia, Ted Xiao, and Tianhe Yu.

• Network Architecture (designing and implementing model network modules, working on

tokenization of actions, enabling inference of the model networks during experiments):

Yevgen Chebotar, Xi Chen, Krzysztof Choromanski, Danny Driess, Pete Florence, Keerthana

Gopalakrishnan, Kehang Han, Karol Hausman, Brian Ichter, Alex Irpan, Isabel Leal, Lisa Lee,

Henryk Michalewski, Igor Mordatch, Kanishka Rao, Michael Ryoo, Anikait Singh, Quan Vuong,

Ayzaan Wahid, Jialin Wu, Fei Xia, Ted Xiao, and Tianhe Yu.

• Data Collection (collecting data on real robots, running real robot evaluations, executing

operations required for running real robots): Noah Brown, Justice Carbajal, Tianli Ding,

Krista Reymann, Grecia Salazar, Pierre Sermanet, Jaspiar Singh, Huong Tran, Stefan Welker,

and Sichun Xu.

• Leadership (leading the project efforts, managing the project staff, advising on project

directions): Yevgen Chebotar, Chelsea Finn, Karol Hausman, Brian Ichter, Sergey Levine, Yao

Lu, Igor Mordatch, Kanishka Rao, Pannag Sanketi, Radu Soricut, Vincent Vanhoucke, and

Tianhe Yu.

• Paper (working on the paper manuscript, designing paper visualizations and figures):

Yevgen Chebotar, Danny Driess, Chelsea Finn, Pete Florence, Karol Hausman, Brian Ichter, Lisa

Lee, Sergey Levine, Igor Mordatch, Karl Pertsch, Quan Vuong, Fei Xia, Ted Xiao, and Tianhe Yu.

• Infrastructure (working on infrastructure and code base backbone needed for training

models, running experiments, storing and accessing data): Anthony Brohan, Yevgen Chebotar,

Danny Driess, Kehang Han, Jasmine Hsu, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan

Julian, Dmitry Kalashnikov, Yuheng Kuang, Isabel Leal, Lisa Lee, Tsang-Wei Edward Lee, Yao

Lu, Igor Mordatch, Quan Vuong, Ayzaan Wahid, Fei Xia, Ted Xiao, Peng Xu, and Tianhe Yu.

B. 数据集

视觉语言数据集基于Chen等人(2023b)和Driess等人(2023)的数据集混合。这些数据的大部分来自于WebLI数据集,该数据集包含了109种语言中的100亿张图像-文本对,经过滤后选取前10%的跨模态相似性高的示例,得到10亿个训练样本。还包含许多其他的图像字幕和视觉问答数据集,RT-2-PaLI-X中的数据集混合的更多信息可参见Chen等人(2023b),RT-2-PaLM-E中的数据集混合的更多信息可参见Driess等人(2023)。在联合微调RT-2-PaLI-X时,我们没有使用Chen等人(2023a)中描述的Episodic WebLI数据集。

机器人数据集基于Brohan等人(2022)的数据集。该数据集由移动操作机器人收集的示教片段组成。每个示教都用来自七项技能之一的自然语言指令进行注释:"摘取物体"、“将物体移近物体”、“竖直放置物体”、“推倒物体”、“打开抽屉”、“关闭抽屉”、“将物体放入容器”和“从容器中取出物体并放在柜台上”。更多细节可参见Brohan等人(2022)。

RT-2-PaLI-X在联合微调时按比例调整机器人数据集的权重,使其占训练混合物的约50%。RT-2-PaLM-E将机器人数据集的权重调整为训练混合物的约66%。

对表1中的Language-Table结果,我们的模型在Lynch等人(2022)的Language-Table数据集上进行训练。我们的模型在几个预测任务上进行联合微调:(1)根据两个连续的图像帧和文本指令预测动作;(2)根据图像帧预测指令;(3)根据图像帧预测机器人臂位置;(4)根据给定的图像帧预测时间步数;(5)根据图像帧和指令预测任务是否成功。

C. 基线

我们将我们的方法与多个最新基线进行比较,这些基线质疑了我们方法的不同方面。所有基线都使用完全相同的机器人数据。

- RT-1:Robotics Transformer 1(Brohan等人,2022)是一个基于转换器的模型,在发表时在相似的任务套件上取得了最佳性能。该模型不使用基于VLM的预训练,所以它提供了一个重要的数据点,展示了基于VLM的预训练是否重要。

- VC-1:VC-1(Majumdar等人,2023a)是一个视觉基础模型,使用针对机器人任务专门设计的预训练视觉表示。我们使用来自VC-1 ViT-L模型的预训练表示。由于VC-1不包括语言条件,我们通过独立嵌入语言命令(通过通用句子编码器(Cer等人,2018))以启用与我们的方法的比较。具体而言,我们将生成的语言嵌入标记连接到VC-1产生的图像标记,并将连接后的标记序列通过标记学习器(Ryoo等人,2021)。标记学习器产生的标记序列然后被RT-1解码器transformer模型消费以预测机器人操作标记。我们端到端训练VC-1基线,并在训练过程中解冻VC-1权重,因为这远远优于使用冻结的VC-1权重。

- R3M:R3M(Nair等人,2022b)是一个类似VC-1的方法,R3M使用预训练的视觉语言表示来改进策略训练。在这种情况下,作者使用人类活动的Ego4D数据集(Grauman等人,2022)来学习表示,该表示由策略使用。VC-1和R3M都测试了不同的最新表示学习方法,作为使用VLM的替代方法。为了从R3M预训练表示中获得语言条件策略,我们遵循上面对VC-1描述的相同过程,区别在于我们使用R3M ResNet50模型获得图像标记,并在训练中解冻它。

- MOO: MOO(Stone等人,2023)是一个以对象为中心的方法,其中首先使用VLM来以原始图像中单个彩色像素的形式指定感兴趣的对象。然后用端到端策略训练这个像素修改后的图像,以完成一组操作任务。这个基线对应于一种情况,其中VLM被用作单独的模块来增强感知,但其表示不用于策略学习。

D. RT-2的VLM

PaLI-X模型体系结构由一个ViT-22B(Dehghani等人,2023)组成,用于处理图像,它可以接受<图像序列,每幅图像导致<9个标记,其中9是每幅图像的补丁数量。通过投影层传递的图像标记然后被一个具有320亿参数和50层的编码器-解码器骨干消费,类似于UL2(Tay等人,2023),它以嵌入的方式联合处理文本和图像以自动回归方式生成输出标记。文本输入通常包含任务类型和任何额外上下文(例如,字幕任务的“在hlangi中生成字幕”或VQA任务的“在hlangi中回答:问题”)。

在Language-Table(表1)上训练的PaLI-3B模型使用较小的ViT-G/14(Zhai等人,2022)(20亿参数)来处理图像,以及UL2-3B(Tay等人,2023)作为编码器-解码器网络。

PaLM-E模型基于一个仅解码器的语言模型,它将机器人数据(如图像和文本)投影到语言标记空间,并输出文本(如高级计划)。在所用的PaLM-E-12B的情况下,将图像投影到语言嵌入空间的视觉模型是一个ViT-4B(Chen等人,2023b)。连续变量与文本输入的连接允许PaLM-E成为完全多模态的,接受各种输入,如多传感器模态、面向对象的表示、场景表示和对象实体引用。

E. 训练细节

我们在PaLI-X(Chen等人,2023a) 5B和55B模型、PaLI(Chen等人,2023b) 3B模型以及PaLM-E(Driess等人,2023) 12B模型的预训练模型上执行联合微调。对于RT-2-PaLI-X-55B,我们使用学习率1e-3和batch size 2048,并对模型执行80K梯度步骤的联合微调,而对于RT-2-PaLI-X-5B,我们使用相同的学习率和batch size,并对模型执行270K梯度步骤的联合微调。对于RT-2-PaLM-E-12B,我们使用学习率4e-4和batch size 512对模型执行100万梯度步骤的联合微调。两种模型都使用下一个标记预测目标进行训练,这对应于机器人学习中的行为克隆损失。对于表1中的Language-Table结果使用的RT-2-PaLI-3B模型,我们使用学习率1e-3和batch size 128对模型执行300K梯度步骤的联合微调。

F. 评估细节

F.1. 评估场景为了定量地研究RT-2的新兴能力,我们研究了各种富有挑战性的语义评估场景,这些场景旨在衡量推理、符号理解和人类识别等能力。图8中提供了这些场景的一个视觉概述,表3中显示了用于定量评估的完整指令列表。

F.2. 评估指令表2列出了在对未见过的物体、背景和环境进行模型评估时使用的自然语言指令。每个指令运行1-5次,具体次数取决于该评估集中的总指令数。表3列出了用于评估定量新兴能力的自然语言指令。每个指令运行5次。

图8:用于研究RT-2新兴能力的一些评估场景概述。它们关注三大类:(a) 推理,(b) 符号理解和(c) 人类识别。可视化的指令是完整指令的一个子集,完整指令列在附录F.2中。

Table 3，Natural language instructions used for quantitative emergent evalutions.

G. 示例失败情况

在图9中,我们提供了Language Table设置中的一个显着类型的失败案例,RT-2模型没有推广到未见过的物体动力学。在这些情况下,尽管模型能够正确关注语言指令并移动到第一个正确的物体,但它无法控制这些物体的具有挑战性的动力学,这与Lynch等人(2022)在该环境中见过的小块物体集合有着显著不同。笔简单地从桌子上滚下来(图9,左侧),而香蕉的质心远离机器人接触的位置(图9,右侧)。我们注意到,推动动力学预测和控制极具挑战性Yu等人(2016)。我们推测,通过进一步扩展数据集到各种环境和物体,可能实现更大的机器人-环境交互动力学推广——例如,在这种情况下,数据集包括类似类型的更多样化推动动力学Dasari等人(2019)。

此外,尽管RT-2在定性和定量新兴评估中的真实世界操纵任务上表现出令人鼓舞的表现,我们仍发现许多明显的失败情况。例如,考虑到当前的训练数据集组成和训练方法,RT-2在以下方面表现较差:- 按特定部位抓取物体,如手柄
- 超出机器人数据所见范围的新颖运动,如用毛巾或工具擦拭
- 灵巧或精确的运动,如折叠毛巾
- 需要多层间接的推理

H. 定量实验结果

H.1. 整体表现,参见第4.1节表4列出了我们的定量整体评估结果。我们发现,在见过的任务上,RT-2的表现与基线相当或更好,并且在推广到未见过的物体、背景和环境方面明显优于基线。

H.2. 新兴能力评估,参见第4.2节

表5列出了我们所有的定量新兴能力评估结果。我们发现,在这些新的指令上,RT-2的表现比RT-1高出2-3倍,而无需任何额外的机器人示教。这展示了我们的方法如何利用从网规模视觉语言数据集的预训练中获得的能力。

H.3. 模型大小和训练方法ablation,参见第4.3节

表6详细列出了针对模型大小和训练方法的ablation的定量结果。在各个方面,我们看到模型大小在性能中起着重要作用,并且联合微调优于微调,微调又优于从零训练。

I. 额外的逐Chain of Though结果

我们在图10中呈现了使用RT-2-PaLME实现的额外逐步推理展开示例,如第4.4节所述。

Table 2 j Natural language instructions used for evaluations testing controlled distribution shifts along the dimension of novel objects, novel environments, and novel backgrounds. For each category, we introduce evaluation settings with smaller distribution shifts as well as larger distribution shifts. A visualization of these scenarios if shown in Figure 3.

References

M. Ahn, A. Brohan, N. Brown, Y. Chebotar, O. Cortes, B. David, C. Finn, K. Gopalakrishnan, K. Hausman,

A. Herzog, et al. Do as I can, not as I say: Grounding language in robotic affordances. arXiv preprint

arXiv:2204.01691, 2022.

J.-B. Alayrac, J. Donahue, P. Luc, A. Miech, I. Barr, Y. Hasson, K. Lenc, A. Mensch, K. Millican,

M. Reynolds, et al. Flamingo: a visual language model for few-shot learning. arXiv preprint

arXiv:2204.14198, 2022.

R. Anil, A. M. Dai, O. Firat, M. Johnson, D. Lepikhin, A. Passos, S. Shakeri, E. Taropa, P. Bailey, Z. Chen,

et al. Palm 2 technical report. arXiv preprint arXiv:2305.10403, 2023.

A. Brohan, N. Brown, J. Carbajal, Y. Chebotar, J. Dabis, C. Finn, K. Gopalakrishnan, K. Hausman,

A. Herzog, J. Hsu, et al. Rt-1: Robotics transformer for real-world control at scale. arXiv preprint

arXiv:2212.06817, 2022.

T. Brown, B. Mann, N. Ryder, M. Subbiah, J. D. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam,

G. Sastry, A. Askell, et al. Language models are few-shot learners. Advances in neural information

processing systems, 33:1877–1901, 2020.

D. Cer, Y. Yang, S. Kong, N. Hua, N. Limtiaco, R. S. John, N. Constant, M. Guajardo-Cespedes, S. Yuan,

C. Tar, Y. Sung, B. Strope, and R. Kurzweil. Universal sentence encoder. CoRR, abs/1803.11175,

2018. URL http://arxiv.org/abs/1803.11175.

M. Chen, J. Tworek, H. Jun, Q. Yuan, H. P. d. O. Pinto, J. Kaplan, H. Edwards, Y. Burda,

N. Joseph, G. Brockman, et al. Evaluating large language models trained on code. arXiv preprint

arXiv:2107.03374, 2021.

X. Chen, J. Djolonga, P. Padlewski, B. Mustafa, S. Changpinyo, J. Wu, C. R. Ruiz, S. Goodman, X. Wang,

Y. Tay, S. Shakeri, M. Dehghani, D. Salz, M. Lucic, M. Tschannen, A. Nagrani, H. Hu, M. Joshi,

B. Pang, C. Montgomery, P. Pietrzyk, M. Ritter, A. Piergiovanni, M. Minderer, F. Pavetic, A. Waters,

G. Li, I. Alabdulmohsin, L. Beyer, J. Amelot, K. Lee, A. P. Steiner, Y. Li, D. Keysers, A. Arnab, Y. Xu,

K. Rong, A. Kolesnikov, M. Seyedhosseini, A. Angelova, X. Zhai, N. Houlsby, and R. Soricut. Pali-x:

On scaling up a multilingual vision and language model, 2023a.

X. Chen, X. Wang, S. Changpinyo, A. Piergiovanni, P. Padlewski, D. Salz, S. Goodman, A. Grycner,

B. Mustafa, L. Beyer, A. Kolesnikov, J. Puigcerver, N. Ding, K. Rong, H. Akbari, G. Mishra, L. Xue,

A. Thapliyal, J. Bradbury, W. Kuo, M. Seyedhosseini, C. Jia, B. K. Ayan, C. Riquelme, A. Steiner,

A. Angelova, X. Zhai, N. Houlsby, and R. Soricut. Pali: A jointly-scaled multilingual language-image

model, 2023b.

K. Cobbe, V. Kosaraju, M. Bavarian, M. Chen, H. Jun, L. Kaiser, M. Plappert, J. Tworek, J. Hilton,

R. Nakano, et al. Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168,

2021.

Z. J. Cui, Y. Wang, N. Muhammad, L. Pinto, et al. From play to policy: Conditional behavior generation

from uncurated robot data. arXiv preprint arXiv:2210.10047, 2022.

S. Dasari and A. Gupta. Transformers for one-shot visual imitation. In Conference on Robot Learning,

pages 2071–2084. PMLR, 2021.

S. Dasari, F. Ebert, S. Tian, S. Nair, B. Bucher, K. Schmeckpeper, S. Singh, S. Levine, and C. Finn.

Robonet: Large-scale multi-robot learning. In Conference on Robot Learning, 2019.

M. Dehghani, J. Djolonga, B. Mustafa, P. Padlewski, J. Heek, J. Gilmer, A. Steiner, M. Caron, R. Geirhos,

I. Alabdulmohsin, R. Jenatton, L. Beyer, M. Tschannen, A. Arnab, X.Wang, C. Riquelme, M. Minderer,

J. Puigcerver, U. Evci, M. Kumar, S. van Steenkiste, G. F. Elsayed, A. Mahendran, F. Yu, A. Oliver,

F. Huot, J. Bastings, M. P. Collier, A. Gritsenko, V. Birodkar, C. Vasconcelos, Y. Tay, T. Mensink,

A. Kolesnikov, F. Pavetic, D. Tran, T. Kipf, M. Lucic, X. Zhai, D. Keysers, J. Harmsen, and N. Houlsby.

Scaling vision transformers to 22 billion parameters, 2023.

D. Driess, F. Xia, M. S. Sajjadi, C. Lynch, A. Chowdhery, B. Ichter, A. Wahid, J. Tompson, Q. Vuong,

T. Yu, et al. Palm-e: An embodied multimodal language model. arXiv preprint arXiv:2303.03378,

2023.

M. Du, S. Nair, D. Sadigh, and C. Finn. Behavior retrieval: Few-shot imitation learning by querying

unlabeled datasets. arXiv preprint arXiv:2304.08742, 2023a.

Y. Du, K. Konyushkova, M. Denil, A. Raju, J. Landon, F. Hill, N. de Freitas, and S. Cabi. Vision-language

models as success detectors. arXiv preprint arXiv:2303.07280, 2023b.

C. Finn and S. Levine. Deep visual foresight for planning robot motion. In 2017 IEEE International

Conference on Robotics and Automation (ICRA), pages 2786–2793. IEEE, 2017.

C. Finn, T. Yu, T. Zhang, P. Abbeel, and S. Levine. One-shot visual imitation learning via meta-learning.

In Conference on robot learning, pages 357–368. PMLR, 2017.

R. A. Fisher. Design of experiments. British Medical Journal, 1(3923):554, 1936.

S. Y. Gadre, M. Wortsman, G. Ilharco, L. Schmidt, and S. Song. Clip on wheels: Zero-shot object

navigation as object localization and exploration. arXiv preprint arXiv:2203.10421, 2022.

Z. Gan, L. Li, C. Li, L. Wang, Z. Liu, J. Gao, et al. Vision-language pre-training: Basics, recent advances,

and future trends. Foundations and Trends® in Computer Graphics and Vision, 14(3–4):163–352,

2022.

G. Ghiasi, X. Gu, Y. Cui, and T.-Y. Lin. Open-vocabulary image segmentation. arXiv preprint

arXiv:2112.12143, 2021.

K. Grauman, A. Westbury, E. Byrne, Z. Chavis, A. Furnari, R. Girdhar, J. Hamburger, H. Jiang,

M. Liu, X. Liu, M. Martin, T. Nagarajan, I. Radosavovic, S. K. Ramakrishnan, F. Ryan, J. Sharma,

M. Wray, M. Xu, E. Z. Xu, C. Zhao, S. Bansal, D. Batra, V. Cartillier, S. Crane, T. Do, M. Doulaty,

A. Erapalli, C. Feichtenhofer, A. Fragomeni, Q. Fu, A. Gebreselasie, C. Gonzalez, J. Hillis, X. Huang,

Y. Huang, W. Jia, W. Khoo, J. Kolar, S. Kottur, A. Kumar, F. Landini, C. Li, Y. Li, Z. Li, K. Mangalam,

R. Modhugu, J. Munro, T. Murrell, T. Nishiyasu, W. Price, P. R. Puentes, M. Ramazanova, L. Sari,

K. Somasundaram, A. Southerland, Y. Sugano, R. Tao, M. Vo, Y. Wang, X. Wu, T. Yagi, Z. Zhao,

Y. Zhu, P. Arbelaez, D. Crandall, D. Damen, G. M. Farinella, C. Fuegen, B. Ghanem, V. K. Ithapu,

C. V. Jawahar, H. Joo, K. Kitani, H. Li, R. Newcombe, A. Oliva, H. S. Park, J. M. Rehg, Y. Sato, J. Shi,

M. Z. Shou, A. Torralba, L. Torresani, M. Yan, and J. Malik. Ego4d: Around the world in 3,000

hours of egocentric video, 2022.

X. Gu, T.-Y. Lin, W. Kuo, and Y. Cui. Open-vocabulary object detection via vision and language

knowledge distillation. arXiv preprint arXiv:2104.13921, 2021.

N. Hansen, R. Jangir, Y. Sun, G. Alenyà, P. Abbeel, A. A. Efros, L. Pinto, and X. Wang. Self-supervised

policy adaptation during deployment. arXiv preprint arXiv:2007.04309, 2020.

Y. Hao, H. Song, L. Dong, S. Huang, Z. Chi, W. Wang, S. Ma, and F. Wei. Language models are

general-purpose interfaces. arXiv preprint arXiv:2206.06336, 2022.

F. Hill, S. Mokra, N. Wong, and T. Harley. Human instruction-following with deep reinforcement

learning via transfer-learning from text. arXiv preprint arXiv:2005.09382, 2020.

S. Huang, L. Dong, W. Wang, Y. Hao, S. Singhal, S. Ma, T. Lv, L. Cui, O. K. Mohammed, Q. Liu,

et al. Language is not all you need: Aligning perception with language models. arXiv preprint

arXiv:2302.14045, 2023.

W. Huang, P. Abbeel, D. Pathak, and I. Mordatch. Language models as zero-shot planners: Extracting

actionable knowledge for embodied agents. In International Conference on Machine Learning, pages

9118–9147. PMLR, 2022.

S. James, M. Bloesch, and A. J. Davison. Task-embedded control networks for few-shot imitation

learning. In Conference on robot learning, pages 783–795. PMLR, 2018.

E. Jang, A. Irpan, M. Khansari, D. Kappler, F. Ebert, C. Lynch, S. Levine, and C. Finn. Bc-z: Zeroshot

task generalization with robotic imitation learning. In Conference on Robot Learning, pages

991–1002. PMLR, 2021.

Y. Jiang, A. Gupta, Z. Zhang, G. Wang, Y. Dou, Y. Chen, L. Fei-Fei, A. Anandkumar, Y. Zhu, and L. Fan.

Vima: General robot manipulation with multimodal prompts. arXiv preprint arXiv:2210.03094,

2022.

L. P. Kaelbling. The foundation of efficient robot learning. Science, 369(6506):915–916, 2020.

S. Karamcheti, S. Nair, A. S. Chen, T. Kollar, C. Finn, D. Sadigh, and P. Liang. Language-driven

representation learning for robotics. arXiv preprint arXiv:2302.12766, 2023.

A. Kirillov, E. Mintun, N. Ravi, H. Mao, C. Rolland, L. Gustafson, T. Xiao, S. Whitehead, A. C. Berg,

W.-Y. Lo, et al. Segment anything. arXiv preprint arXiv:2304.02643, 2023.

I. Kostrikov, D. Yarats, and R. Fergus. Image augmentation is all you need: Regularizing deep

reinforcement learning from pixels. arXiv preprint arXiv:2004.13649, 2020.

M. Laskin, K. Lee, A. Stooke, L. Pinto, P. Abbeel, and A. Srinivas. Reinforcement learning with

augmented data. Advances in neural information processing systems, 33:19884–19895, 2020a.

M. Laskin, A. Srinivas, and P. Abbeel. Curl: Contrastive unsupervised representations for reinforcement

learning. In International Conference on Machine Learning, pages 5639–5650. PMLR, 2020b.

S. Levine, P. Pastor, A. Krizhevsky, J. Ibarz, and D. Quillen. Learning hand-eye coordination for robotic

grasping with deep learning and large-scale data collection. The International journal of robotics

research, 37(4-5):421–436, 2018.

A. Lewkowycz, A. Andreassen, D. Dohan, E. Dyer, H. Michalewski, V. Ramasesh, A. Slone, C. Anil,

I. Schlag, T. Gutman-Solo, et al. Solving quantitative reasoning problems with language models.

arXiv preprint arXiv:2206.14858, 2022.

J. Li, D. Li, S. Savarese, and S. Hoi. Blip-2: Bootstrapping language-image pre-training with frozen

image encoders and large language models. arXiv preprint arXiv:2301.12597, 2023.

L. H. Li, M. Yatskar, D. Yin, C.-J. Hsieh, and K.-W. Chang. Visualbert: A simple and performant baseline

for vision and language. arXiv preprint arXiv:1908.03557, 2019.

H. Liu, L. Lee, K. Lee, and P. Abbeel. Instruction-following agents with jointly pre-trained visionlanguage

models. arXiv preprint arXiv:2210.13431, 2022.

J. Lu, D. Batra, D. Parikh, and S. Lee. Vilbert: Pretraining task-agnostic visiolinguistic representations

for vision-and-language tasks. Advances in neural information processing systems, 32, 2019.

C. Lynch and P. Sermanet. Language conditioned imitation learning over unstructured data. arXiv

preprint arXiv:2005.07648, 2020.

C. Lynch, A.Wahid, J. Tompson, T. Ding, J. Betker, R. Baruch, T. Armstrong, and P. Florence. Interactive

language: Talking to robots in real time. arXiv preprint arXiv:2210.06407, 2022.

Y. J. Ma, S. Sodhani, D. Jayaraman, O. Bastani, V. Kumar, and A. Zhang. Vip: Towards universal visual

reward and representation via value-implicit pre-training. arXiv preprint arXiv:2210.00030, 2022.

Y. J. Ma, W. Liang, V. Som, V. Kumar, A. Zhang, O. Bastani, and D. Jayaraman. Liv: Language-image

representations and rewards for robotic control. arXiv preprint arXiv:2306.00958, 2023.

J. Mahler, J. Liang, S. Niyaz, M. Laskey, R. Doan, X. Liu, J. A. Ojea, and K. Goldberg. Dex-net 2.0:

Deep learning to plan robust grasps with synthetic point clouds and analytic grasp metrics. arXiv

preprint arXiv:1703.09312, 2017.

A. Majumdar, K. Yadav, S. Arnaud, Y. J. Ma, C. Chen, S. Silwal, A. Jain, V.-P. Berges, P. Abbeel, J. Malik,

et al. Where are we in the search for an artificial visual cortex for embodied intelligence? arXiv

preprint arXiv:2303.18240, 2023a.

A. Majumdar, K. Yadav, S. Arnaud, Y. J. Ma, C. Chen, S. Silwal, A. Jain, V.-P. Berges, P. Abbeel, J. Malik,

et al. Where are we in the search for an artificial visual cortex for embodied intelligence? arXiv

preprint arXiv:2303.18240, 2023b.

O. Mees, L. Hermann, and W. Burgard. What matters in language conditioned robotic imitation

learning over unstructured data. IEEE Robotics and Automation Letters, 7(4):11205–11212, 2022.

M. Minderer, A. Gritsenko, A. Stone, M. Neumann, D. Weissenborn, A. Dosovitskiy, A. Mahendran,

A. Arnab, M. Dehghani, Z. Shen, et al. Simple open-vocabulary object detection with vision

transformers. arXiv preprint arXiv:2205.06230, 2022.

Y. Mu, Q. Zhang, M. Hu, W. Wang, M. Ding, J. Jin, B. Wang, J. Dai, Y. Qiao, and P. Luo. Embodiedgpt:

Vision-language pre-training via embodied chain of thought. arXiv preprint arXiv:2305.15021,

2023.

S. Nair, E. Mitchell, K. Chen, S. Savarese, C. Finn, et al. Learning language-conditioned robot behavior

from offline data and crowd-sourced annotation. In Conference on Robot Learning, pages 1303–1315.

PMLR, 2022a.

S. Nair, A. Rajeswaran, V. Kumar, C. Finn, and A. Gupta. R3m: A universal visual representation for

robot manipulation. arXiv preprint arXiv:2203.12601, 2022b.

OpenAI. Gpt-4 technical report, 2023.

J. Pari, N. M. Shafiullah, S. P. Arunachalam, and L. Pinto. The surprising effectiveness of representation

learning for visual imitation. arXiv preprint arXiv:2112.01511, 2021.

L. Pinto and A. Gupta. Supersizing self-supervision: Learning to grasp from 50k tries and 700 robot

hours. In 2016 IEEE international conference on robotics and automation (ICRA), pages 3406–3413.

IEEE, 2016.

S. Polu, J. M. Han, K. Zheng, M. Baksys, I. Babuschkin, and I. Sutskever. Formal mathematics statement

curriculum learning. arXiv preprint arXiv:2202.01344, 2022.

V. H. Pong, M. Dalal, S. Lin, A. Nair, S. Bahl, and S. Levine. Skew-fit: State-covering self-supervised

reinforcement learning. arXiv preprint arXiv:1903.03698, 2019.

A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin,

J. Clark, et al. Learning transferable visual models from natural language supervision. In International

Conference on Machine Learning, pages 8748–8763. PMLR, 2021.

S. Reed, K. Zolna, E. Parisotto, S. G. Colmenarejo, A. Novikov, G. Barth-Maron, M. Gimenez, Y. Sulsky,

J. Kay, J. T. Springenberg, et al. A generalist agent. arXiv preprint arXiv:2205.06175, 2022.

M. Ryoo, A. Piergiovanni, A. Arnab, M. Dehghani, and A. Angelova. Tokenlearner: Adaptive space-time

tokenization for videos. Advances in Neural Information Processing Systems, 34:12786–12797, 2021.

D. Shah, B. Osinski, b. ichter, and S. Levine. Lm-nav: Robotic navigation with large pre-trained models

of language, vision, and action. In K. Liu, D. Kulic, and J. Ichnowski, editors, Proceedings of The 6th

Conference on Robot Learning, volume 205 of Proceedings of Machine Learning Research, pages 492–

504. PMLR, 14–18 Dec 2023. URL https://proceedings.mlr.press/v205/shah23b.html.

R. Shah and V. Kumar. Rrl: Resnet as representation for reinforcement learning. arXiv preprint

arXiv:2107.03380, 2021.

M. Shridhar, L. Manuelli, and D. Fox. Cliport: What and where pathways for robotic manipulation. In

Proceedings of the 5th Conference on Robot Learning (CoRL), 2021.

M. Shridhar, L. Manuelli, and D. Fox. Cliport: What and where pathways for robotic manipulation. In

Conference on Robot Learning, pages 894–906. PMLR, 2022a.

M. Shridhar, L. Manuelli, and D. Fox. Perceiver-actor: A multi-task transformer for robotic manipulation.

arXiv preprint arXiv:2209.05451, 2022b.

I. Singh, V. Blukis, A. Mousavian, A. Goyal, D. Xu, J. Tremblay, D. Fox, J. Thomason, and A. Garg.

Progprompt: Generating situated robot task plans using large language models. In ICRA, 2023.

M. H. Smith and L. S. Coles. Design of a low cost, general purpose robot. In IJCAI, pages 324–336,

1973.

A. Stone, T. Xiao, Y. Lu, K. Gopalakrishnan, K.-H. Lee, Q. Vuong, P. Wohlhart, B. Zitkovich, F. Xia,

C. Finn, et al. Open-world object manipulation using pre-trained vision-language models. arXiv

preprint arXiv:2303.00905, 2023.

T. Sumers, K. Marino, A. Ahuja, R. Fergus, and I. Dasgupta. Distilling internet-scale vision-language

models into embodied agents. arXiv preprint arXiv:2301.12507, 2023.

Y. Tay, M. Dehghani, V. Q. Tran, X. Garcia, J. Wei, X. Wang, H. W. Chung, S. Shakeri, D. Bahri,

T. Schuster, H. S. Zheng, D. Zhou, N. Houlsby, and D. Metzler. Ul2: Unifying language learning

paradigms, 2023.

S. Vemprala, R. Bonatti, A. Bucker, and A. Kapoor. Chatgpt for robotics: Design principles and model

abilities. Microsoft Auton. Syst. Robot. Res, 2:20, 2023.

J.Wang, Z. Yang, X. Hu, L. Li, K. Lin, Z. Gan, Z. Liu, C. Liu, and L.Wang. Git: A generative image-to-text

transformer for vision and language. arXiv preprint arXiv:2205.14100, 2022.

J. Wei, X. Wang, D. Schuurmans, M. Bosma, E. Chi, Q. Le, and D. Zhou. Chain of thought prompting

elicits reasoning in large language models. arXiv preprint arXiv:2201.11903, 2022.

J. Wei, L. Hou, A. Lampinen, X. Chen, D. Huang, Y. Tay, X. Chen, Y. Lu, D. Zhou, T. Ma, and Q. V. Le.

Symbol tuning improves in-context learning in language models, 2023.

J. Wu, R. Antonova, A. Kan, M. Lepert, A. Zeng, S. Song, J. Bohg, S. Rusinkiewicz, and T. Funkhouser.

Tidybot: Personalized robot assistance with large languagemodels. arXiv preprint arXiv:2305.05658,

2023.

T. Xiao, H. Chan, P. Sermanet, A. Wahid, A. Brohan, K. Hausman, S. Levine, and J. Tompson.

Robotic skill acquisition via instruction augmentation with vision-language models. arXiv preprint

arXiv:2211.11736, 2022a.

T. Xiao, I. Radosavovic, T. Darrell, and J. Malik. Masked visual pre-training for motor control. arXiv

preprint arXiv:2203.06173, 2022b.

S. Young, D. Gandhi, S. Tulsiani, A. Gupta, P. Abbeel, and L. Pinto. Visual imitation made easy. In

Conference on Robot Learning, pages 1992–2005. PMLR, 2021.

K.-T. Yu, M. Bauza, N. Fazeli, and A. Rodriguez. More than a million ways to be pushed. a high-fidelity

experimental dataset of planar pushing. In 2016 IEEE/RSJ international conference on intelligent

robots and systems (IROS), pages 30–37. IEEE, 2016.

T. Yu, C. Finn, A. Xie, S. Dasari, T. Zhang, P. Abbeel, and S. Levine. One-shot imitation from observing

humans via domain-adaptive meta-learning. arXiv preprint arXiv:1802.01557, 2018.

X. Zhai, A. Kolesnikov, N. Houlsby, and L. Beyer. Scaling vision transformers. In Proceedings of the

IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12104–12113, 2022.

X. Zhang, Y. Ding, S. Amiri, H. Yang, A. Kaminski, C. Esselink, and S. Zhang. Grounding classical task

planners via vision-language models. arXiv preprint arXiv:2304.08587, 2023.