【论文阅读】3D Diffuser Actor: Policy Diffusion with 3D Scene Representations

置顶

好悬给我拽开线

已于 2024-11-20 17:04:45 修改

阅读量1.9k

点赞数 24

文章标签：论文阅读

于 2024-09-18 16:39:08 首次发布

本文链接：https://blog.csdn.net/qq_33673253/article/details/142318969

版权

Abstract

扩散policies是条件扩散模型，它学习以机器人和环境状态为条件的机器人动作分布。他们最近被证明优于确定性和替代的动作分布学习公式。3d机器人policies使用使用感知深度从单个或多个摄像机视图聚合的3d场景特征表示。它们已被证明比它们在相机视点上的 2d 对应物具有更好的泛化能力。我们统一了这两条工作并提出了 3d diffuser actor ，这是一种神经 policy，配备了一种新颖的 3d 去噪 transformer，融合了来自 3d 视觉场景的信息、语言指令和本体感觉来预测噪声 3d 机器人姿态轨迹中的噪声。3d diffuser actor 在 rlbench 上设置了新的最先进技术，在多视图设置上的绝对性能增益比当前的 sota 提高了 18.1%，在单视图设置中的绝对增益为 13.1%。在 calvin 基准测试中，它比之前的 sota 提高了 9%。它还学习从少数演示中控制现实世界中的机器人机械手。通过与当前 sota policies 和我们模型的消融进行了彻底的比较，我们展示了 3d diffuser actor 的设计选择显着优于 2d 表示、回归和分类目标、绝对注意力和整体非标记化 3d 场景嵌入。

1 Introduction

许多机器人操作任务本质上是多模态的：在任务执行期间的任何一点，可能有多个动作产生任务最优行为。事实上，人类演示通常包含可以完成任务的不同方式。一个自然的选择是将policy学习视为分布学习问题:不是将policy表示为确定性映射，而是学习以当前机器人状态为条件的动作的整个分布p(y|x)[1,2,3,4]。

最近的工作使用扩散目标从演示中学习这种状态条件动作分布，用于机器人操作policies[5,6,7]。它们优于确定性或其他替代方案，例如变分自动编码器[8]、高斯混合[9]、分类和回归目标的组合 [4] 或基于能量的目标 [10]。它们通常使用低维(oracle)状态[5]或2d图像[6]作为其场景表示。

同时，3d机器人policies通过基于感知深度和相机外部特性将透视图的特征“提升”到3d机器人工作空间来构建场景表示。它们已被证明在摄像机视点上比2d机器人policies具有更好的泛化能力，并在测试时处理新的摄像机视点[17，18]。我们推测这种改进的性能来自于视觉场景tokens和机器人的动作在公共3d空间中相互作用的事实，这对相机视点具有鲁棒性，而在2d policies中，神经网络需要隐式学习2d到3d的映射。

在这项工作中，我们将扩散用于处理动作预测中的多模态，并使用 3d 场景表示进行有效的空间推理。我们提出了 3d diffuser actor，一种新颖的 3d 去噪 policy transformer，它将标记化的 3d 场景表示、语言指令和加噪声的末端执行器未来平移和旋转轨迹作为输入，并预测机器人末端执行器平移和旋转的误差。该模型表示同一3d空间中的场景tokens和末端执行器位置，并将它们与相对位置3d注意[19，20]融合，实现了平移等方差，有助于泛化

我们在rlbench[11]和calvin[12]的模拟基准以及现实世界中的演示中测试3d diffuser actor从演示中学习机器人操作policies。3d diffuser actor 在 rlbench 上设置了新的最先进技术，多视图设置的绝对增益为 18.1%，单视图设置的绝对增益为 13.1%（图 1），优于现有的 3d policies 和 2d 扩散 policies。在calvin上，它在零镜头 zero-shot 不可见场景泛化设置下的性能优于当前的sota，相对增益提高了9%(图1)。我们进一步展示了 3d diffuser actor 可以从少量真实世界演示中学习 12 个任务中的真实世界中的多任务操作。我们凭经验表明，3d diffuser actor 优于所有现有的 policy 公式，它们要么不使用 3d 场景表示，要么不使用动作扩散。我们进一步与我们模型的消融版本进行比较，并展示了 3d 相对注意力的重要性。

图1：3d diffuser actor结合了扩散policies和3d场景编码，在多任务设置的rlbench[11]和零样本长期设置的calvin[12]基准上设置了新的SOTA。

Our contributions:

这项工作的主要贡献是将3d场景表示和扩散目标相结合，用于从演示中学习机器人policies。3d机器人policies尚未与扩散 objectives 结合。chaineddiffuser是一个例外[21]，它使用扩散模型作为运动规划器的直接替代品，而不是操纵policies，因为它依赖于其他基于学习的policies（act3d[17]）来提供要达到的目标3d关键点。我们在实验中与chaineddiffuser进行了比较，结果表明我们的表现大大优于它。

Concurrent work:并行工作：

在我们努力的同时，3D diffusion policy[22]也有一个类似的目标，即将3d表示与扩散目标相结合，从演示中学习操作。虽然这两部作品有着相同的目标，但它们的架构却截然不同。与3D Diffuser Actor不同，[22]的模型不以tokenized的3d场景表示为条件，而是以从3d场景点云中汇集的整体1d嵌入为条件。我们在实验中将3D Diffuser Actor与[22]进行了比较，并表明它的性能大大优于它。我们认为这是因为3D Diffuser Actor中使用的标记化场景表示对场景变化具有鲁棒性：如果场景的一部分发生变化，则只有3d场景tokens的相应子集会受到影响。相比之下，整个场景中汇集的整体场景嵌入总是受到任何场景变化的影响。由于3D场景标记化的这种空间解纠缠 disentanglement，3D Diffuser Actor的泛化效果更好。

Our models and code will be publicly available upon publication. Videos of our manipulation results are available at https://sites.google.com/view/3d-diffuser-actor.

2 Related Work

Learning manipulation policies from demonstrations

早期关于从演示中学习的工作通过行为克隆训练确定性policies[23,24]。为了更好地处理动作多模态，方法将动作维度离散化并使用交叉熵损失[25,16,13]。生成对抗网络[1,2,26]、变分自编码器[8]、组合分类和高斯分布[4,27,28]和基于能量的模型（ebms）[10,29,30]已被用于从多模态演示中学习。扩散模型[31,32]是与EBMs相关的一类强大的生成模型，因为它们模拟分布的分数，也就是能量的梯度，而不是能量本身[33,34]。扩散模型背后的关键思想是通过应用顺序去噪过程将简单的先验分布迭代地转换为目标分布。它们已被用于从低维输入以及视觉感官输入中模拟模仿学习[35,36,5,37,7,38]中的状态条件动作分布，并且在动作预测中显示出比替代方案更好的模式覆盖率和更高的保真度。

Diffusion models in robotics

除了模仿学习中的policy表示外，扩散模型还被用于模拟跨对象和对象部分排列[39,40,38,41,30]、视觉图像子目标[42,43,44,45]和离线强化学习[46,47,48]。chaineddiffuser[21]建议用轨迹扩散模型代替通常用于keypose to keypose链接的运动规划器，该模型以3d场景特征云和预测的目标3d keypose为条件，对从当前到目标keypose的轨迹进行去噪处理。它使用一个扩散模型，该模型将act3d[17]预测的3d末端执行器keyposes作为输入，并使用场景的3d表示来推断将当前末端执行器姿势与预测姿势联系起来的机器人末端执行器轨迹。3D Diffuser Actor会预测机器人末端执行器的下一个3d keyposes以及链接轨迹，这比链接两个给定的keyposes要困难得多。3d扩散策略[22]也将3d场景表示与扩散目标相结合，但使用1d点云嵌入。我们在实验部分与chaineddiffuser和3d扩散策略进行了比较，结果表明我们的表现大大优于它们。

2D and 3D scene representations for robot manipulation

端到端图像到动作policy模型，如rt-1[49]、rt-2[50]、gato[51]、bc-z[52]、rt-x[53]、octo[54]和instructrl[55]，利用transformer架构从2d视频输入直接预测6-dof末端执行器姿势。然而，这种方法的代价是需要数千次演示来隐式建模3d几何体并适应训练领域的变化。以c2f-arm[15]和peract[16]为例，3d场景到动作policies涉及对机器人的工作空间进行体素化，并学习识别包含下一个末端执行器按键的3d体素。然而，随着分辨率要求的增加，这在计算上变得昂贵。因此，相关方法要么采用粗到细的体素化、等变网络[14]，要么采用高效的注意力操作[56]来降低计算成本。act3d[17]完全放弃了3d场景体素化；相反，它通过在空工作空间中采样3d点并使用对3d物理场景点的交叉关注对其进行特征化来计算可变空间分辨率的3d动作图。robotic view transformer（rvt）[18]将输入的rgb-d图像重新投影到替代图像视图，对其进行特征化处理，并将预测提升到3d，以推断机器人末端执行器的3d位置。

3D Diffuser Actor基于3d policies中的act3d[17]和diffusion policies的[36,6]的作品构建。它使用类似于[17]的标记化3d场景表示，但它是一个概率模型而不是确定性模型。它不采样3d点，也不推断3d动作图。它使用扩散目标，而不是[17]中使用的分类或回归目标。与[40,36]相反，它使用3d场景表示，而不是2d图像或低维状态。我们在实验中与2d扩散policies和3d扩散policies进行了比较，结果表明3D Diffuser Actor的性能大大优于它们。我们在附录的图4中强调了我们的模型与相关模型之间的差异，我们参考图5和图6了解3D Diffuser Actor和act3d的更多架构细节。

3 Method

3D Diffuser Actor经过训练，可以模仿形式的演示轨迹，并伴有任务语言指令l，类似于之前的作品[57,16,17,58]，其中代表视觉观察，at代表时间步长t的机器人动作。每个观察ot是一个或多个姿势RGB-D图像。每个动作都是一个末端执行器姿态并被解耦为3D位置、旋转和开合二值状态，在所有实验中，我们使用[59]的6D旋转表示来表示所有的旋转，以避免四元数表示的不连续性。我们将使用符号来表示时间范围 T 的时间步 t 处的 3D 位置和旋转的轨迹。我们的模型在每个时间步 t 预测轨迹和二进制状态。