Abstract
transformers凭借其对大型数据集的扩展能力,彻底改变了视觉和自然语言处理。但在机器人操作中,数据既有限又昂贵。通过正确的问题表述,操纵仍然可以从变形金刚中受益吗?我们使用peract来研究这个问题,peract是一种用于多任务6-dof操作的语言条件行为克隆agent。peract使用感知器transformer[1]对语言目标和rgb-d体素观测值进行编码,并通过“检测下一个最佳体素动作”输出离散化动作。与在2d图像上操作的框架不同,体素化的3d观察和动作空间为有效学习6-dof动作提供了强大的结构先验。通过这个公式,我们从每个任务的几个演示中训练了一个多任务transformer,用于18个rlbench任务(有249个变体)和7个真实世界任务(有18个变体)。我们的结果表明,在各种桌面任务中,peract的表现明显优于非结构化图像到动作agents和3d convnet基线。
Keywords:Transformers, Language Grounding, Manipulation, Behavior Cloning
1 Introduction
Transformers[2]已经在自然语言处理和计算机视觉中广泛应用。通过将问题作为序列建模任务,并对大量不同的数据进行训练,Transformers在多个领域取得了突破性的成果[3,4,5,6]。即使在通常不涉及序列建模的领域中[7,8],Transformers也被用作通用架构[9]。但在机器人操作中,数据既有限又昂贵。我们还能把Transformers的力量用正确的问题表述带到六自由度操纵吗?
语言模型对tokens序列进行操作[10],视觉transformers对图像patch序列进行操作[4]。虽然存在像素transformers[11,1],但它们的数据效率不如使用卷积或补丁 patches 来利用图像的二维结构的方法。因此,尽管transformers可能与领域无关,但它们仍然需要正确的问题表述来实现数据效率。在直接将2d图像映射到6-dof动作的行为克隆(bc) agents中也存在类似的效率问题。像gato[9]和bc-z[12,13]这样的智能体已经显示出令人印象深刻的多任务能力,但它们需要数周甚至数月的数据收集。相比之下,最近在强化学习方面的工作,如c2farm[14],构建了一个体素化的观察和动作空间,利用3d卷积神经网络有效地学习3d动作的视觉表征。同样,在这项工作中,我们的目标是利用transformers利用体素补丁的3d结构进行高效的6-dof行为克隆(类似于视觉transformers[4]利用图像补丁的2d结构)。
为此,我们提出了peract (perception - actor的缩写),这是一种语言条件bc agent,它可以学习模仿各种各样的6自由度操作任务,每个任务只需要几个演示。peract编码一系列rgb-d体素补丁,并预测离散的平移、旋转和夹持动作,这些动作在观察-行动循环中由运动规划器执行。peract本质上是一个经过监督学习训练的分类器,用于检测类似于cliport[16,17]等先前工作的动作,只不过我们的观察和动作是用3d体素而不是2d图像像素表示的。
由于高维输入的缩放问题 scaling issues,在端到端bc方法中,体素网格不像图像那么普遍。但在peract中,我们使用percepver Transformer[1]来编码高达100万体素的高维输入,仅使用一小组潜在向量。这种基于体素的公式 formulation 提供了强大的结构先验,具有以下几个优点:融合多视图观察的自然方法,学习稳健的以行动为中心的表征[18,19],以及在6-dof中实现数据增强——所有这些都有助于通过专注于多样化而不是狭隘的多任务数据来学习可推广的技能。
为了研究这种公式 formulation 的有效性,我们在rlbench[15]环境中进行了大规模实验。我们在18个不同的任务上训练了一个多任务agent,这些任务有249个变体,涉及一系列可理解和不可理解的行为,如将酒瓶放在架子上和用棍子拖动物体(见图1-a-j)。每个任务还包括几个姿势和语义变化,对象的位置、颜色、形状、大小和类别各不相同。我们的结果表明,在不使用实例分割、对象姿势、内存或符号状态的任何显式表示的情况下,peract明显优于图像到动作agents(34倍)和3d convnet基线(2.8倍)。我们还使用franka panda验证了我们的方法,该多任务agent在7个真实任务上从头开始训练,总共只进行了53次演示(见图1 k-o)。
图1。语言条件操纵任务:peract是一个语言条件多任务agent,能够模拟各种6-dof操纵任务。我们在rlbench[15]中对18个模拟任务进行了实验(a-j;仅显示了10个),其中有几个姿势和语义变化。我们还用franka panda在7个真实世界的任务(k-o;只显示了5个)上演示了我们的方法,用53个演示训练了多任务agent。请参阅补充视频,了解模拟和现实世界的推出情况。
总之,我们的贡献如下:
- 一个用transformers来感知、执行和指定目标的新问题表述。
- 一个有效的以行动为中心的框架,用于在6-dof行动中接地语言 grounding language。
- 在一系列模拟和现实世界任务中调查多任务agents的实证结果。
2 Related Work
Vision for Manipulation.
传统上,机器人感知方法使用明确的“对象”表示,如实例分割、对象类别、姿势[20,21,22,23,24,25]。这些方法很难处理像布和豆子这样的可变形的颗粒状物品,因为这些物品很难用几何模型或分割来表示。相比之下,最近的方法[26,17,16,27]在没有任何“对象性”假设的情况下学习以动作为中心的表示,但它们仅限于具有简单拾取和放置原语的自上而下 top-down 的2d设置。在3d方面,james等人提出了c2farm[14],这是一种以行动为中心的强化学习(rl) agent,具有粗粒度到细粒度的3d- unet主干。从粗到细的方案有一个有限的接受域 receptive field,不能在最好的水平上观察整个场景。相比之下,peract通过transformer骨干学习具有全局接受域的以动作为中心的表示。此外,peract使用bc而不是rl,这使我们能够通过使用语言目标来轻松训练多任务agent来完成多个任务。
End-to-End Manipulation
方法[28,29,30,31]对对象和任务的假设最少,但通常被表述为图像到动作的预测任务。直接在RGB图像上进行6自由度任务的训练通常效率很低</