Abstract
对于 3d 对象操作,构建显式 3d 表示的方法比仅依赖相机图像的方法表现更好。但是使用诸如体素之类的显式 3d 表示是以巨大的计算成本为代价的,从而对可扩展性产生不利影响。在这项工作中,我们提出了rvt,这是一个多视图transformer,用于3d操作,既可扩展又准确。rvt的一些关键特征是一种注意机制,用于跨视图聚合信息,并从机器人工作空间周围的虚拟视图重新渲染相机输入。在模拟中,我们发现单个 rvt 模型在具有 249 个任务变化的 18 个 rlbench 任务中运行良好,比现有的最先进方法 (peract) 实现了 26% 的相对成功。它还比 peract 快 36 倍,以实现相同的性能,并实现了 peract 的推理速度 2.3 倍。此外,rvt 可以在现实世界中执行各种操作任务,每个任务只有几个(~10)演示。视觉结果、代码和经过训练的模型在以下网址提供:https://robotics-view-transformer.github.io/。
Keywords: 3D Manipulation, Multi-View, Transformer
1 Introduction
机器人学习的一个基本目标是构建能够在不受约束的 3D 设置中解决各种操作任务的系统。一种流行的学习方法直接处理从单个或多个摄像机观看的图像。这些基于视图的方法在各种拾取和放置和对象重排任务上取得了令人瞩目的成功 [1, 2, 3, 4]。然而,它们在需要 3D 推理的任务上的成功是有限的。如James等人[5]和Shridhar等人[6]所示,基于视图的方法在RLBench[7]上的3D操作任务中挣扎,成功率不到2%。、
为了解决这个问题,已经提出了用场景的显式3d表示来推理的方法。c2farm[5]用多分辨率体素表示场景,并在困难的rlbench任务中取得了很强的性能。peract[6]通过使用perceiver transformer[8]处理体素,改进了行为克隆中的c2f-arm。然而,与图像推理相比,创建和推理体素的计算成本更高,因为体素的数量随着分辨率的增加而立方缩放,而不是直接针对图像像素。与基于视图的方法相比,这使得基于体素的方法的可扩展性较差。事实上,使用8个v100 gpu(3072 gpu小时)在18个rlbench任务上训练peract需要16天。这阻碍了快速开发和原型制作。此外,当扩展到具有更多任务和多样性的更大数据集时,这种计算要求变得更加令人望而却步。
因此,一个关键问题是——我们能否构建一个操作网络,不仅性能良好,而且继承了基于视图的方法的可扩展性?为此,我们提出了RVT(Robotic ViewTransformer),它在成功率和训练时间方面都明显优于基于SOTA体素的方法,如图1所示。在相同的硬件条件下,RVT在36倍的时间内实现了PerAct的峰值性能,将训练时间从14天缩短到10小时。除了训练速度快得多外,RVT的成功率也比PerAct高出26%,在RLBench上平均完成18项任务(249项任务变化)。在RLBench上,RVT在88.9%的任务上优于PerAct,同时实现了2.3倍的推理速度(11.6 vs 4.9 fps)。此外,我们发现RVT在现实世界中也能很好地工作,其中只有51个演示,单个RVT模型就可以学习执行各种操作任务(5个任务,13个变体),如打开抽屉、将物体放在架子上、按洗手液和堆叠物体(见图4)。
图1:RVT的扩展和性能优于RLBench上的PerAct,在36倍的时间内实现了同等性能(相同的硬件),峰值性能为1.26倍。
RVT的核心是一种基于视图的方法,它利用了transformer架构。它联合处理场景的多个视图,并聚合视图中的信息。然后,它生成视图式热图和特征,用于预测机器人末端执行器的姿态。我们深入研究了多视图架构的设计,并报告了几个有用的发现。例如,我们观察到,当强制transformer在连接补丁以进行联合关注之前,首先关注同一图像中的补丁时,性能会更好。
另一个关键创新是,与之前的基于视图的方法不同,我们通过重新渲染虚拟视图中的图像,将相机图像与馈送到transformer的图像解耦。这使我们能够控制渲染过程,并带来了几个好处。例如,我们可以从对任务有用的视点(例如,直接在表格上方)重新渲染,同时不受现实世界物理约束的限制。此外,由于RVT的多视图输入是通过重新渲染获得的,因此我们甚至可以使用单传感器相机来使用RVT,就像我们在现实世界的实验中所做的那样。
总之,我们的贡献有三方面:首先,我们提出了RVT,一种用于3D对象操纵的多视图rp4880s,它准确且可扩展;其次,我们研究了多视图transformer的各种设计选择,这些选择可以提高对象操作性能;最后,我们对仿真和现实世界中的多任务对象操纵进行了实证研究。
2 Related Work
Vision-based Object Manipulation.
机器人控制policy的学习传统上是通过低维状态观测来研究的[9,10,11,12,13]。最近,基于视觉的policies[14,15,16,17,18,19,20,21]越来越受到关注,因为高维视觉感官输入在任务中提供了更通用的观察表示,并且在现实世界的感知系统中更容易访问。已经探索了各种形式的视觉输入。先前的工作已经将rgb图像直接编码到低维潜在空间中,并依赖于基于模型的[22,23]或无模型的[24,25]强化学习(rl)来训练policies在这个空间中运行。最近,rt-1[26]通过利用transformer架构[27],从图像历史中推断出机器人的动作。我们提出的rvt也使用transformer来预测动作,但是,与rt-1不同,我们还利用深度来构建多视图场景表示。深度输入的使用也得到了广泛的研究。cliport[3]和IFOR[1]等方法直接处理rgb-d图像进行对象操作,因此仅限于2d自上而下设置中的简单拾取和放置任务。为了克服这个问题,已经使用了点云等显式3d表示。c2f-arm[5]和peract[6]将点云体素化,并使用3d卷积网络作为控制推理的骨干。然而,高精