【论文阅读】Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation-CSDN博客

本文链接：https://blog.csdn.net/qq_33673253/article/details/142317053

Abstract

3d感知表示非常适合机器人操作，因为它们很容易编码遮挡并简化空间推理。许多操作任务在末端执行器姿态预测中需要较高的空间精度，这通常需要高分辨率的3d特征网格，这对于处理来说计算成本很高。因此，大多数操作policies直接在2d中运行，上述3d归纳偏差。在本文中，我们介绍了act3d，一种操作policy transformer，它使用自适应分辨率的3d特征场来表示机器人的工作空间，该场依赖于手头的任务。该模型利用感知深度将 2d 预训练特征提升到 3d，并关注它们来计算采样 3d 点的特征。它以从粗到细的方式对 3d 点网格进行采样，使用相对位置注意力对其进行特征化，并选择在哪里聚焦下一轮点采样。通过这种方式，它有效地计算了高空间分辨率的3d动作图。act3d 在 rlbench 中设置了新的最先进技术，这是一个已建立的操作基准，它在 74 个 rlbench 任务上比之前的 sota 2d 多视图 policy 实现了 10% 的绝对改进，比之前的 sota 3d policy 减少了 22% 的绝对改进。我们在消融实验中量化了相对空间注意、大规模视觉语言预训练的 2d 主干以及从粗到细的注意力之间的权重绑定的重要性。代码和视频可在我们的项目网站上获得：https://act3d.github.io/。

1 Introduction

许多机器人操纵任务的解决方案可以建模为一系列6-dof末端执行器姿势（3d位置和方向）。许多最近的方法训练神经操纵 neural manipulation policies，使用演示的监督直接从2d图像中预测3d末端执行器姿势序列[1,2,3,4,5,6]。这些方法通常是样本效率低下的：它们通常需要许多轨迹来处理测试时的微小场景变化，并且不能很容易地在相机视点和环境之间进行推广，正如在各自的论文中提到的和我们的实验中所示。

为了使机器人policy在平移、旋转或相机视图变化下进行泛化，它需要具有空间等变性[7]，即将输入视觉场景的3d平移和旋转映射到机器人末端执行器的类似3d平移和转动。空间等变要求根据所考虑的动作空间，通过2d或3d动作图预测3d末端执行器位置，而不是从整体场景或图像特征中回归动作位置。Transporter 网络[8]为4自由度机器人操纵引入了一种空间等变架构：它们将RGB-D输入图像重新投影到自上而下的图像中，并通过自上而下的2D动作图预测机器人末端执行器的2D平移。与之前的研究相比，他们在更少的训练演示下表现出了更好的泛化能力。然而，它们仅限于自上而下的2D世界和4-DoF操纵任务。这就引出了一个问题：我们如何将动作预测中的空间等变扩展到一般的6-DoF操纵？

开发空间等变的6-dof操纵policies需要通过将机器人工作空间中的3d点分类为机器人末端执行器未来3d位置的候选者来预测3d动作图。由于额外的空间维度，预测精细操作任务所必需的高分辨率3d动作图比2d动作图更具计算挑战性。对机器人的3d工作空间进行体素化，并以高分辨率对3d体素进行处理，在计算上要求很高[9]。下一个末端执行器姿势可能在自由空间中的任何位置，这防止了使用稀疏的3d卷积[10,11]来选择性地仅对3d自由空间的一部分进行特征化。为了解决这个问题，peract[1]最近的工作使用感知者[12]的潜在集瓶颈自我注意 the latent set bottlenecked self-attention 操作对3d体素进行了特征化，其复杂性与体素数量呈线性关系，而不是二次型，即全对全自我注意操作。然而，由于潜在的集合瓶颈，它放弃了特征的空间解纠缠。其他方法避免在3d自由空间中完全特征化点，而是从检测到的2d图像接触点回归机器人3d位置的偏移[2,13,14]，这同样不完全符合空间等变。

本文介绍了Act3D，这是一种用于多任务6自由度机器人操纵的语言条件transformer，通过自适应3D空间计算预测连续分辨率的3D动作图。Act3D将场景表示为连续的3D特征场。它通过使用感测深度从一个或多个视图中提取2D基础模型的特征来计算场景级物理3D特征云。它通过循环粗到细的3D点采样和特征化来学习任意空间分辨率的3D特征场。在每次迭代中，模型对整个工作空间中的3D点进行采样，并使用对物理3D特征云的相对空间交叉注意力[15]对其进行特征化。Act3D通过对3D点特征进行评分来预测3D末端执行器位置，然后对末端执行器的3D方向和开口进行回归。在推理时，我们可以通过在自由空间中采样比训练时看到的模型更多的3D点来权衡更高的空间精度和任务性能。

我们在rlbench[16]中测试了act3d，rlbench是从演示中学习各种机器人操纵policies的既定基准。我们在单任务和多任务设置中都设定了新的基准。具体来说，在hiveformer[2]引入的74个任务的单任务设置中，我们比之前的sota绝对提高了10%，在peract[1]引入的18个任务和249个变体的多任务设置中比之前的so4绝对提高了22%。我们还使用franka panda验证了我们的方法，该多任务agent从头开始在8个真实任务上训练，总共只进行了100次演示（见图2）。在彻底的消融中，我们展示了我们架构的设计选择的重要性，特别是相对空间注意力、大规模视觉语言预训练的2d骨干、高分辨率特征和从粗到细注意力的权重。

总之，我们的贡献是：

1.一种用于语言条件多任务6-dof操纵的新型神经policy架构，该架构既能在3d中直接推理，又能使用迭代粗到细的平移不变注意力在3d中保持计算的局部性。

2.在一系列模拟和现实世界任务中取得了强有力的实证结果，在rlbench上以较大的绝对优势优于之前的sota 2d和3d