【论文阅读】Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation

Abstract

3d感知表示非常适合机器人操作,因为它们很容易编码遮挡并简化空间推理。许多操作任务在末端执行器姿态预测中需要较高的空间精度,这通常需要高分辨率的3d特征网格,这对于处理来说计算成本很高。因此,大多数操作policies直接在2d中运行,上述3d归纳偏差。在本文中,我们介绍了act3d,一种操作policy transformer,它使用自适应分辨率的3d特征场来表示机器人的工作空间,该场依赖于手头的任务。该模型利用感知深度将 2d 预训练特征提升到 3d,并关注它们来计算采样 3d 点的特征。它以从粗到细的方式对 3d 点网格进行采样,使用相对位置注意力对其进行特征化,并选择在哪里聚焦下一轮点采样。通过这种方式,它有效地计算了高空间分辨率的3d动作图。act3d 在 rlbench 中设置了新的最先进技术,这是一个已建立的操作基准,它在 74 个 rlbench 任务上比之前的 sota 2d 多视图 policy 实现了 10% 的绝对改进,比之前的 sota 3d policy 减少了 22% 的绝对改进。我们在消融实验中量化了相对空间注意、大规模视觉语言预训练的 2d 主干以及从粗到细的注意力之间的权重绑定的重要性。代码和视频可在我们的项目网站上获得:https://act3d.github.io/。

1 Introduction

许多机器人操纵任务的解决方案可以建模为一系列6-dof末端执行器姿势(3d位置和方向)。许多最近的方法训练神经操纵 neural manipulation policies,使用演示的监督直接从2d图像中预测3d末端执行器姿势序列[1,2,3,4,5,6]。这些方法通常是样本效率低下的:它们通常需要许多轨迹来处理测试时的微小场景变化,并且不能很容易地在相机视点和环境之间进行推广,正如在各自的论文中提到的和我们的实验中所示。

为了使机器人policy在平移、旋转或相机视图变化下进行泛化,它需要具有空间等变性[7],即将输入视觉场景的3d平移和旋转映射到机器人末端执行器的类似3d平移和转动。空间等变要求根据所考虑的动作空间,通过2d或3d动作图预测3d末端执行器位置,而不是从整体场景或图像特征中回归动作位置。Transporter 网络[8]为4自由度机器人操纵引入了一种空间等变架构:它们将RGB-D输入图像重新投影到自上而下的图像中,并通过自上而下的2D动作图预测机器人末端执行器的2D平移。与之前的研究相比,他们在更少的训练演示下表现出了更好的泛化能力。然而,它们仅限于自上而下的2D世界和4-DoF操纵任务。这就引出了一个问题:我们如何将动作预测中的空间等变扩展到一般的6-DoF操纵?

开发空间等变的6-dof操纵policies需要通过将机器人工作空间中的3d点分类为机器人末端执行器未来3d位置的候选者来预测3d动作图。由于额外的空间维度,预测精细操作任务所必需的高分辨率3d动作图比2d动作图更具计算挑战性。对机器人的3d工作空间进行体素化,并以高分辨率对3d体素进行处理,在计算上要求很高[9]。下一个末端执行器姿势可能在自由空间中的任何位置,这防止了使用稀疏的3d卷积[10,11]来选择性地仅对3d自由空间的一部分进行特征化。为了解决这个问题,peract[1]最近的工作使用感知者[12]的潜在集瓶颈自我注意 the latent set bottlenecked self-attention 操作对3d体素进行了特征化,其复杂性与体素数量呈线性关系,而不是二次型,即全对全自我注意操作。然而,由于潜在的集合瓶颈,它放弃了特征的空间解纠缠。其他方法避免在3d自由空间中完全特征化点,而是从检测到的2d图像接触点回归机器人3d位置的偏移[2,13,14],这同样不完全符合空间等变。

本文介绍了Act3D,这是一种用于多任务6自由度机器人操纵的语言条件transformer,通过自适应3D空间计算预测连续分辨率的3D动作图。Act3D将场景表示为连续的3D特征场。它通过使用感测深度从一个或多个视图中提取2D基础模型的特征来计算场景级物理3D特征云。它通过循环粗到细的3D点采样和特征化来学习任意空间分辨率的3D特征场。在每次迭代中,模型对整个工作空间中的3D点进行采样,并使用对物理3D特征云的相对空间交叉注意力[15]对其进行特征化。Act3D通过对3D点特征进行评分来预测3D末端执行器位置,然后对末端执行器的3D方向和开口进行回归。在推理时,我们可以通过在自由空间中采样比训练时看到的模型更多的3D点来权衡更高的空间精度和任务性能

我们在rlbench[16]中测试了act3d,rlbench是从演示中学习各种机器人操纵policies的既定基准。我们在单任务和多任务设置中都设定了新的基准。具体来说,在hiveformer[2]引入的74个任务的单任务设置中,我们比之前的sota绝对提高了10%,在peract[1]引入的18个任务和249个变体的多任务设置中比之前的so4绝对提高了22%。我们还使用franka panda验证了我们的方法,该多任务agent从头开始在8个真实任务上训练,总共只进行了100次演示(见图2)。在彻底的消融中,我们展示了我们架构的设计选择的重要性,特别是相对空间注意力、大规模视觉语言预训练的2d骨干、高分辨率特征和从粗到细注意力的权重。

总之,我们的贡献是:

1.一种用于语言条件多任务6-dof操纵的新型神经policy架构,该架构既能在3d中直接推理,又能使用迭代粗到细的平移不变注意力在3d中保持计算的局部性。

2.在一系列模拟和现实世界任务中取得了强有力的实证结果,在rlbench上以较大的绝对优势优于之前的sota 2d和3d

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值