论文标题:RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
论文作者:Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen, Krzysztof Choromanski, Tianli Ding, Danny Driess, Avinava Dubey, Chelsea Finn, Pete Florence, Chuyuan Fu, Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Kehang Han, Karol Hausman, Alexander Herzog, Jasmine Hsu, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang, Isabel Leal, Lisa Lee, Tsang-Wei Edward Lee, Sergey Levine, Yao Lu, Henryk Michalewski, Igor Mordatch, Karl Pertsch, Kanishka Rao, Krista Reymann, Michael Ryoo, Grecia Salazar, Pannag Sanketi, Pierre Sermanet, Jaspiar Singh, Anikait Singh, Radu Soricut, Huong Tran, Vincent Vanhoucke, Quan Vuong, Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Jialin Wu, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu, Brianna Zitkovich
作者单位:Deepmind
论文原文:https://arxiv.org/abs/2307.15818
论文出处:–
论文被引:121(01/05/2024)
项目主页:https://robotics-transformer.github.io/
论文代码:–
Abstract
如何将在互联网规模数据上训练的视觉语言模型(VLMs)直接纳入端到端机器人控制(end-to-end robotic control),以提高泛化能力并实现新语义推理。本文的目标是让一个端到端训练的模型既能学会将机器人的观察结果映射到行动中,又能享受对来自网络的语言和视觉语言数据进行大规模预训练所带来的好处。为此,在机器人轨迹数据和互联网规模的视觉语言任务(如 VQA)上共同微调最先进的视觉语言模型。与其他方法不同的是,本文提出了一种简单,通用的方法来实现这一目标:为了将自然语言回答和机器人动作都纳入同一格式,将动作表达为文本token(text tokens),并以与自然语言token相同的方式将它们直接纳入模型的训练集。将类模型称为视觉-语言-动作模型(vision-language-action,VLA),并实例化了一个这样的模型 RT-2。广泛评估(6k 次评估试验)表明,可以产生性能良好的机器人策略,并使 RT-2 能够从互联网规模的训练中获得一系列新兴能力。这包括大大提高了对新物体的泛化能力,解释机器人训练数据中不存在的命令的能力(例如将物体放到特定的数字或图标上),以及根据用户命令执行基本推理的能力(例如拾取最小或最大的物体,或最靠近另一个物体的物体)。还进一步证明,结合思维链推理,RT-2 可以执行多阶段语义推理,例如找出哪个物体可以捡起来用作简易锤子(石头),或者哪种类型的饮料最适合疲惫的人(能量饮料)。
Summary
提出背景
虽然最近有许多研究试图将 LLMs 和 VLMs 纳入机器人,但这些方法一般只涉及机器人高层次(high-level)的规划,基本上是扮演状态机的角色,解释指令并将其解析为单个基元(如拾取和放置物体),然后由单独的低层次(low-level)控制器执行,而这些控制器本身在训练过程中并不能从互联网规模模型的丰富语义知识中获益。因此,在本文中提出这样的问题:大型预训练VLMs能否直接集成到底层机器人控制中,以提高泛化能力并实现新兴语义推理?
方法介绍
直接训练专为开放词汇视觉问答和视觉对话设计的VLMs,以输出低层次机器人动作,同时解决其他互联网规模的视觉语言任务。虽然此类模型通常是为生成自然语言token而训练的,但可以通过将动作离散化为文本token,并创建多模态句子(PaLM-E中的方式)通过产生相应的动作来“响应”机器人指令和相机观测。 通过这种方式已经存在的VLM已经摊销了大量的计算资源,无需任何新参数即可训练输出文本编码动作。将这类模型称为视觉-语言-动作(VLA)模型。在 RT-1 模型的基础上,使用类似的数据集,将 VLA 模型实例化,但将模型扩展为使用大型视觉语言骨干。新的模型称为 RT-2,概览图如图 1 所示。
从VLM中衍生出来的机器人策略展现出了一系列非凡的能力,将从机器人数据中学到的物理运动与从网络数据中学到的图像和文本解读能力结合到了单一的模型中。除了大幅提高对新物体和不同语义指令的泛化能力这一预期优势外,还观察到了一些新出现的能力。图 2 显示了一些重点示例。模型能够重新利用从机器人数据中学到的拾取和放置技能,将物体放置在语义指示的位置附近,例如特定的数字或图标,尽管机器人数据中没有这些提示。该模型还能解释物体之间的关系,以确定取哪个物体以及将其放置在哪里,尽管机器人演示中并未提供此类关系。此外,如果用思维链提示来增强指令,模型还能做出更复杂的语义推断,例如找出哪个物体可以捡起来用作简易锤子(石头),或者哪种饮料最适合疲惫的人(能量饮料)。
主要贡献是 RT-2,它是通过微调在网络规模数据上训练的大型视觉语言模型而衍生出的模型系列,可直接作为可通用的语义感知机器人策略。实验研究了在互联网数据和先前工作中的指令注释机器人轨迹上训练的 55B 参数的模型。在对 6k 个机器人进行评估的过程中,RT-2 能显著提高对物体,场景和指令的泛化能力,并展现出从网络规模视觉语言预训练中继承的广泛新兴能力。
相关工作
Vision-language models.
视觉语言模型(VLMs)有多个类别,其中最相关的可能有两种:
- 1)表征学习模型,例如 CLIP,它学习两种模态的共同嵌入(common embeddings);
- 2){vision, text} → {text} 形式的视觉语言模型,该模型学习将视觉和语言作为输入,并提供自由形式的文本。
这两类模型都被用于为各种下游应用提供预训练权重,如物体分类,检测和分割,主要关注后一类。这些模型通常在多个数据集上同时进行多种不同任务的训练,如图像描述,视觉问答(VQA)和一般语言任务。虽然之前的研究针对包括机器人在内的各种问题和环境研究了 VLM,但本文的重点是如何通过赋予 VLM 预测机器人行动的能力,将其功能扩展到机器人闭环控制中,从而利用 VLM 中已有的知识实现新水平的泛化。
Generalization in robot learning.
在机器人操纵中实现泛化的一种很有前景的方法是从大型和多样化的数据集中学习。通过这样做,先前的方法已经证明了机器人如何能够泛化到新的物体实例,泛化到涉及物体和技能新组合的任务,新目标或语言指令,具有新语义物体类别的任务和未见环境。与之前的大多数研究不同,本文的目标是开发单一的模型,该模型可以在所有这些方面泛化到未知条件。一个关键要素是利用预训练的模型,这些模型所接触的数据要比机器人看到的数据广泛得多。
Pre-training for robotic manipulation.
其他研究还纳入了预训练的语言模型,通常作为指令编码器或用于高层次规划。特别考虑使用预训练的VLM,这些模型提供了丰富的,关于世界的基础知识。这些先前的方法将 VLM 用于视觉状态表示,识别物体,高层次规划或提供监督或成功检测。本文利用的是能生成语言的 VLM,而且统一输出空间能让模型权重在语言和动作任务中完全共享,而无需引入仅用于动作的模型层组件。
模型架构
两个VLM骨干:
- PaLI-X
- PaLM-E
Robot-Action Fine-tuning
要使VLMs能够控制机器人,必须训练它们输出动作,在模型输出中将动作表示为 token,并以与语言 token 相同的方式处理。动作空间包括机器人末端执行器的 6-DoF 位置位移和旋转位移,机器人夹爪的开关状态以及用于终止 episode 的特殊离散指令,该指令应由策略触发,以发出成功完成的信号。连续维度(除离散终止指令外的所有维度)被均匀地离散为 256 个二进制数。因此,机器人的动作可以用 8 个整数来表示。为了使用这些离散化的动作将视觉语言微调为VLAs,需要将模型现有离散化的token与离散化的动作分区联系起来。
保留 256 个 token 作为 action token。选择何种 token 取决于每个 VLM 所使用的特定分词方法。为了定义 VLM 微调的目标,只需将每个维度的 action 转换为 text token,就能将动作向量转换成一个字符串:
“terminate Δpos𝑥 Δpos𝑦 Δpos𝑧 Δrot𝑥 Δrot𝑦 Δrot𝑧 gripper_extension”
这样一个目标的实例可能是 “1 128 91 241 5 101 127”。在实验中微调的两个 VLM–PaLI-X 和 PaLM-E 使用了不同的离散化方法。在 PaLI-X 模型中,1000 以内的整数都有一个唯一的 token,因此只需将 action bins 与代表相应整数的token相关联。而 PaLM-E 模型没有提供这种方便的数字表示法,因此只需覆盖 256 个使用频率最低的token来表示动作词汇(action vocabulary)。注意,用动作 token 覆盖现有token来训练 VLM 是一种 symbol tuning,这在之前的工作中已被证明对 VLM 非常有效。
根据上述动作表示法,将机器人数据转换为适合 VLM 模型微调的数据,其中输入包括机器人摄像头图像和文本任务描述(使用标准 VQA 格式: "Q: what action should the robot take to [task instruction]? A:"
),输出格式为代表机器人动作的数字/最不常用token字符串。
Co-Fine-Tuning.
提高机器人性能的关键是将机器人数据与原始网络数据进行联合微调,在微调过程中,策略会同时接触到网络数据中的抽象视觉概念和低层次的机器人动作,因此联合微调会使得策略更通用。在联合微调过程中,通过增加机器人数据集的采样权重来平衡每个训练批次中机器人和网络数据的比例。
Output Constraint.
RT-2 与标准 VLM 之间的一个重要区别是,RT-2 必须输出有效的动作token才能在真实机器人上执行。因此,为确保 RT-2 在解码过程中输出有效的动作token,对其输出词汇进行了限制,即只有在提示该模型执行机器人动作任务时,才能对有效的动作token进行采样,而在标准视觉语言任务中,该模型仍可输出全部自然语言token。
Real-Time Inference
本研究中训练的最大模型使用了 55B 个参数。该模型是有史以来用于直接闭环机器人控制的最大模型,超过其他模型一个数量级,因此需要一套新的解决方案来实现高效的实时推理。将 RT-2 模型部署到多 TPU 云服务中并通过网络查询该服务,可以在机器人上运行 RT-2 模型,55B 参数的 RT-2-PaLI-X-55B 模型,运行频率 1-3 Hz。该模型 5B 参数版本,运行频率约为 5 Hz。
实验结果
实验侧重于 RT-2 在现实世界中的通用性和新兴能力,旨在回答以下问题:
- RT-2 在所见任务中的表现如何,对新物体,背景和环境的泛化能力如何?
- 能否观察和测量 RT-2 的任何新兴能力?
- 通用性如何随参数数量和其他设计决策而变化?
- RT-2 能否像视觉语言模型一样表现出思维链推理的迹象?
使用约 6000 条评估轨迹在各种条件下对的方法和几种基线进行了评估。使用的是 7DoF 移动机械臂,其动作空间在第 3.2 节中有所描述。利用预先训练的 VLM 训练 RT-2 的两个具体实例:
- 1)RT-2-PaLI-X 由 5B 和 55B PaLI-X 构建
- 2)RT-2-PaLM-E 由 12B PaLM-E 构建
为了进行训练,利用了 PaLI-X 和 PaLM-E 提供的原始网络规模数据,其中包括 VQA,图像描述以及非结构化的图文交错数据。将其与 RT-1 的机器人演示数据相结合,后者是在办公室厨房环境中使用 13 个机器人历时 17 个月收集的。每个机器人演示轨迹都标注了描述所执行任务的自然语言指令,包括一个描述技能的动词(如 “pick”, “open”, “place into”)和一个或多个描述操作物体的名词(如 “7up can”, “drawer”, “napkin”)。在所有 RT-2 训练中,采用了原始 PaLI-X 和 PaLM-E 论文中的超参数,包括学习率计划和正则化。
Q1
使用了与 RT-1 中相同的可见指令集,其中包括本次评估中的 200 多个任务:
- 36 项拾取(picking)物体的任务
- 35 项敲击(knocking)物体的任务
- 35 项竖直放置(placing things upright)物体的任务
- 48 项移动(moving)物体的任务
- 18 项打开和关闭(opening and closing)各种抽屉的任务
- 36 项从抽屉中取出(picking out of)物体并将其放入(placing)抽屉的任务
这些分布式评估仍然会改变物品的摆放位置以及时间和机器人位置等因素,这就要求技能能够适应环境的实际变化。
图 3 显示了泛化评估的示例,这些评估分为未见类别(物体,背景和环境),还分为简单和困难案例。
- 对于未见过的物体,困难情况包括较难掌握和较独特的物体(如玩具)。
- 对于未见过的背景,困难案例包括更多样的背景和新奇的物体。
- 对于看不见的环境,硬情况对应的是视觉上更独特的办公桌环境,包括显示器和配件,而较容易的环境则是厨房水槽。
这些评估包括 280 多项任务,主要侧重于在许多不同场景中的取放技能。
评估结果如图 4 和附录表 4 所示。RT-2 模型与 RT-1 模型在所见任务上的表现相似,其他基线模型的成功率较低。在各种泛化实验中,RT-2 模型与基线模型的差异最为明显,这表明视觉-语言-动作模型的优势在于从互联网规模的预训练数据中迁移出更多可泛化的视觉和语义概念。
Q2
评估这些模型在多大程度上能够通过迁移网络知识,在机器人数据所展示的能力之外实现新兴能力(capabilities as emergent),它们是通过迁移互联网规模的预训练而出现的。并不指望这种迁移能够实现新的机器人动作,但希望语义和视觉概念(包括关系和名词)能够有效迁移,即使这些概念在机器人数据中并不存在。
RT-2 继承了场景语境中语义理解和基本推理的新能力。例如,要完成 “将草莓放入正确的碗中” 的任务,不仅需要对草莓和碗的含义有细致入微的理解,还需要根据场景进行推理,才能知道草莓应该与同类水果放在一起。在 “捡起即将掉下桌子的袋子” 任务中,RT-2 展示了物理理解能力,能够区分两个袋子并识别岌岌可危的物品。在这些场景中测试的所有交互都从未在机器人数据中出现过,这说明从视觉语言数据中迁移了语义知识。
将 RT-2 的新兴能力分为三类,涵盖推理和语义理解(图 8 展示了每类能力的示例)。
- 第一类是符号理解(symbol understanding),明确测试 RT-2 策略是否从视觉语言预训练中迁移了任何机器人数据中都不存在的语义知识。这类指令的示例包括 “move apple to 3” 或 “push coke can on top of heart”。
- 第二类称之为推理(reasoning),它展示了将底层 VLM 的各方面推理应用于控制任务的能力。这些任务需要进行视觉推理(“move the apple to cup with same color”),数学推理(“move X near the sum of two plus one”)和多语言理解(“mueve la manzana al vaso verde”)。
- 最后一类称为**人类识别(human recognition)**任务,其中包括 “move the coke can to the person with glasses” 等任务,以展示以人为中心的理解和识别能力。
图 6a 中展示了实验的结果。在所有类别中,VLA 模型都明显优于基线模型,最佳 RT-2-PaLI-X 模型的平均成功率是次佳基线模型(RT-1)的 3 倍多。虽然基于 PaLI-X 的较大模型在符号理解,推理和人物识别方面的平均表现更好,但基于 PaLM-E 的较小模型在涉及数学推理的任务中更具优势。这一有趣的结果归因于 PaLM-E 中使用了不同的预训练混合数据,它所产生的模型在数学计算方面的能力要强于主要采用视觉预训练的 PaLI-X。
Q3
比较了 5B 和 55B 两种不同大小的模型,以及三种不同的训练程序:
- 不使用任何来自 VLM 预训练的权重,从头开始训练一个模型;
- 仅使用机器人动作数据对预训练模型进行微调;
- 联合微调,即本研究中使用的主要方法,同时使用原始 VLM 训练数据和机器人数据对 VLM 进行微调。
消融结果见图 6b: - 首先,从头开始训练一个非常大的模型,即使是 5B 模型的性能也非常差。鉴于这一结果,跳过对从头开始训练的更大的 55B PaLI-X 模型的评估。
- 其次,对模型(无论其大小)进行联合微调的泛化性能要优于简单地使用机器人数据进行微调。将其归因于在训练的微调部分保留原始数据,可使模型不会遗忘在 VLM 训练过程中学到的先前概念。
- 最后,扩大模型规模带来了更好的泛化性能。
Q4
受 LLM 中的思维链提示方法的启发,对 RT-2 的一个变体与 PaLM-E 进行了微调,仅调整了几百个梯度步骤,以提高其联合利用语言和行动的能力,希望它能激发出更复杂的推理行为。对数据进行了扩充,增加了一个 “Plan” 步骤,首先用自然语言描述机器人将要采取的行动的目的,然后是实际的行动token,例如:
“Instruction: I’m hungry. Plan: pick rxbar chocolate. Action: 1 128 124 136 121 158 111 255.”
这种数据增强方案是 VQA 数据集(视觉推理)和操作数据集(生成动作)之间的桥梁。
定性地观察到,具有思维链推理能力的 RT-2 能够回答更复杂的指令,这是因为它有地方先用自然语言规划自己的行动。这是一个很有前景的方向,它提供了一些初步证据,表明使用 LLM 或 VLM 作为规划器可以在单个 VLA 模型中与底层策略相结合。
实验结论
本文介绍了如何通过将 VLM 预训练与机器人数据相结合来训练 VLA 模型。然后,介绍了基于 PaLM-E 和 PaLI-X 的两种 VLA 实例,称之为 RT-2-PaLM-E 和 RT-2-PaLI-X。这些模型通过机器人轨迹数据进行联合微调,以输出机器人动作,这些动作以文本token的形式表示。研究结果表明,能产生性能极佳的机器人策略,它能显著提高泛化性能,并能继承网络规模视觉语言预训练的新兴能力。
局限性:
- 首先,通过 VLMs 进行网络规模的预训练可以提高对语义和视觉概念的泛化能力,但机器人并没有因为这些额外的经验而获得执行新动作的能力。模型的物理技能仍然局限于机器人数据中的技能分布(见附录 G),但它学会了以新的方式使用这些技能。这是因为数据集在技能上的变化不够多。未来工作的一个令人兴奋的方向是研究如何通过新的数据收集范例(如人类视频)来学习新技能。
- 其次,尽管可以实时运行大型 VLA 模型,但这些模型的计算成本很高,当这些方法应用于需要高频控制的场合时,实时推理可能会成为一个主要瓶颈。未来一个令人兴奋的研究方向是探索量化和蒸馏技术,使这些模型能够以更高的速率或在更低成本的硬件上运行。这也与当前的另一个限制有关,即只有少数通用的 VLM 模型可用于创建 RT-2。
- 希望能有更多的开源模型(如 https://llava-vl.github.io/)可用,专有模型也能开放其微调应用程序接口,这是建立 VLA 模型的充分条件。