【论文阅读】Render and Diffuse: Aligning Image and Action Spaces for Diffusion-based Behaviour Cloning

好悬给我拽开线

已于 2024-09-11 17:00:46 修改

阅读量666

点赞数 18

文章标签：论文阅读

于 2024-08-09 01:14:14 首次发布

本文链接：https://blog.csdn.net/qq_33673253/article/details/141031370

版权

摘要

在机器人学习领域，rgb图像等高维观测值与低级机器人动作之间的复杂映射，这两个本质上非常不同的空间，构成了一个复杂的学习问题，尤其是在数据量有限的情况下。在这项工作中，我们介绍了一种渲染和扩散（r&d）方法，该方法使用机器人三维模型的虚拟渲染，在图像空间内统一低级机器人动作和rgb观察。使用这种联合观察动作表示 joint observation-action representation，它使用迭代更新机器人虚拟渲染的学习扩散过程来计算低级机器人动作。这种空间统一简化了学习问题，并引入了对样本效率和空间泛化至关重要的归纳偏差。我们在仿真中全面评估了研发的几个变体，并展示了它们在现实世界中的六项日常任务中的适用性。我们的结果表明，r&dex具有很强的空间泛化能力，并且比更常见的图像到动作方法更具样本效率。

I. INTRODUCTION

当学习从高维输入（如rgb图像）预测动作时，神经网络必须学习两个固有不同空间之间高度复杂的映射。最近的研究[14,29]表明，在与观测相同的空间中预测行为会导致样本效率和空间泛化能力的急剧提高。然而，这些方法通常利用依赖于精确深度信息的3d表示，并通过使用运动规划器[14,29,9]或单独的学习策略[18,34]预测开环达到的下一个最佳姿势来分层操作。

在这项工作中，我们的目标是利用上述方法的见解，但我们不是依赖于3d表示和次优姿势动作公式，而是从rgb图像中学习低级控制策略，同时仍然对齐观察和动作空间。在观察空间内表示低级动作可以简化学习问题，提高学习策略的样本效率和空间泛化能力。我们使用一种称为渲染和扩散（r&d）的过程来实现这一点，并通过在采取所考虑的动作时实现的配置中渲染机器人来表示图像空间中的低级机器人动作。通过利用学习到的动作去噪过程（类似于[6]），可以通过迭代地以不同的配置渲染机器人来更新这些动作表示，直到它们表示的动作与训练数据中的动作紧密一致（见图1）。将我们设计的渲染动作表示映射回低级机器人动作的几种不同选项产生了一系列研发方法，这些方法以独特的方式统一了图像和动作空间。

通过机器人的虚拟渲染实现观察动作的统一，使模型能够理解所考虑动作的空间含义，并引入对样本高效空间泛化至关重要的归纳偏差。我们的贡献有三方面：

1）我们提出了一种在统一图像空间内结合低级动作和rgb观测的新方法。

2）我们提出了利用这种表示的一系列研发方法，并引入了使用从演示中学到的去噪过程迭代更新低级动作的不同方法。

3）我们在仿真中彻底评估了我们提出的方法，系统地研究了它的空间泛化能力和样本效率，并展示了它在各种现实世界任务中的能力。

II. RELATED WORK

对齐观察和行动空间

机器人控制策略学习通常通过将观察结果映射到动作来处理[37,15,6]。由于这种映射的复杂性，在不引入偏差的情况下学习它是具有挑战性的。

最近，在与观测值相同的空间中表示动作的方法取得了巨大的成功，特别是在空间泛化和样本效率方面。例如，c2f-arm[14]和peract[29]等方法对体素化点云观测进行体素化，以在同一体素化空间内进行次佳姿态预测。act3d[9]和chaineddfuser[34]使用点云观测值和在同一笛卡尔空间中采样的候选点来进行下一个最佳姿态预测。类似地，隐式图对齐[31]在从点云数据导出的图表示中统一了观察和动作[31,32]。运输网络[36]和cliport[28]使用从rgbd观测和模板匹配中学习到的特征图来识别拾取和放置姿势。此外，许多方法在学习完成各种任务时都使用了光学[1,33]或3d[27,8,38]流预测。然而，所有这些方法要么局限于简单的桌面环境，需要明确访问深度信息，要么不适合学习低级机器人动作，因为它们利用离散的次优姿态预测。相比之下，我们的方法试图将仅rgb的观测与低级机器人动作对齐。我们通过在执行这些低级操作时可以达到的配置中使用机器人的渲染来实现这一点。该技术提供了一种新的方法，可以在没有先前方法中观察到的约束的情况下整合观察和行动。

Diffusion Models in Robotics

以多种创新的方式被采用。例如，图像扩散模型[19,20,35]已被用于创建图像增强，帮助机器人适应具有干扰物对象和不同视觉设置的不同环境。图像扩散模型也被用于“想象”低级机器人策略的对象重新排列目标[16]或子目标[3]。扩散策略[6]将扩散模型应用于视觉运动策略学习，在解决复杂的现实世界机器人任务方面取得了很好的效果。随后，许多工作利用类似的公式，使用扩散模型学习低级控制的动作条件分布[5,22,10]。与这些方法相反，我们提出在统一的观测动作空间内使用扩散模型。该策略消除了学习独立观察和动作空间之间复杂映射的复杂性，简化了学习过程，提高了样本效率和泛化能力。

III. PRELIMINARIES

Diffusion Models

扩散模型是一类生成模型，它采用正向和反向马尔可夫链扩散过程来有效地捕获复杂和多模态的数据分布。在正向阶段，这些模型迭代地将噪声添加到从真实数据分布q（x）中提取的样本中，如[12]所述：

这里，表示正态分布，表示方差表，K表示扩散步骤的总数。随着K的增加，该过程逐渐将数据样本转换为高斯噪声分布。

相反，在反向扩散过程中，目标是利用参数化模型从噪声改变的状态重建原始数据。该模型经过训练以估计正向过程的反向条件分布，从而学习通过迭代过程从正态分布N开始生成新样本：

这里，是由θ参数化的函数，预测每个扩散步骤k的均值和协方差。训练过程侧重于优化数据似然的变分下限，已被证明可以在各种应用中生成高质量的样本，包括图像和音频生成[23,21,26]。

最近，扩散模型也通过学习控制参数a的条件分布成功地应用于控制问题，其中o是环境的观测值。在这项工作中，我们建立在这样的公式之上，并通过引入一种新的方法来融合ak和o，以及根据观测空间中的预测来更新ak，从而对其进行扩展。

IV. RENDER AND DIFFUSE

Problem Setting

我们考虑一个标准的行为克隆设置，其中给定一个演示数据集为rgb图像和动作对，其中和，我们的目标是获得一个将图像映射到动作的策略：。推导一个将图像映射到动作策略的主要困难是它们的表示空间之间的内在差异。在确保空间泛化的同时，用有限的数据学习这种映射是一个重大的挑战。

Overview

我们引入了一种策略，将图像和动作域统一到单个图像空间i中，通过降低在这些根本不同的空间之间导航所固有的复杂性来简化学习过程。我们利用渲染过程和机器人的已知模型来直观地“想象”机器人所考虑的动作的潜在空间影响。通过学习去噪过程，这些渲染的动作会被更新，直到它们与我们的数据集d中观察到的动作紧密对齐。我们的方法的高级概述可以在图1中看到。

A. Rendered Action Representation

我们方法的初始阶段涉及将状态观测与统一图像空间中的动作相结合。一般来说，预测特定动作的状态变化需要一个准确的环境模型，包括其动态。获取或学习这样的模型通常是不切实际或不可行的。然而，机器人的三维模型及其运动学，以及相机模型，都是广泛可用的。利用这些资源，我们建议将机器人动作表示为机器人的渲染图像，如果执行了预期的动作，则可以在运动学上实现该配置。

这样，我们通过“想象”机器人动作对其实施例的空间影响，在同一图像空间中表示观察结果（rgb图像）和低级机器人动作（例如末端执行器速度），同时将环境动力学的学习留给下游模型。在这项工作中，我们将动作视为末端执行器的速度，只渲染一个打开的夹具，尽管这种方法可以很容易地扩展到使用正向运动学来包含机器人的完整配置。然后，我们将此渲染叠加到当前的rgb图像上，如图2所示。请注意，对于腕戴式相机，我们只渲染抓取器的手指，以防止视觉障碍。这是使用一个不同的3d模型完成的，只代表抓取器的手指。此外，为了打破大多数双指抓取器中存在的对称性，我们使用颜色纹理来帮助下游模型轻松区分其在图像中的6d姿态。

Rendering Procedure.

为了确定抓取器应呈现的姿态，我们首先计算其在机器人基座框架内的潜在空间姿态，表示为。这里，表示表示预期动作的相对变换。T（a）是由末端执行器速度（a∈se（3））通过指数映射构建的：。然后，通过利用相机c的外部矩阵Tw-c，我们可以在相机的帧中重新定位夹具的cad模型并渲染其图像，创建渲染的动作表示，我们将其表示为：

这里，是相机的固有矩阵。此外，对于rc，我们还可以访问渲染的抓取器的部分点云，因为渲染过程为我们提供了真实深度信息。只要已知摄像机c的外部矩阵和内部矩阵，就可以对任意数量的摄像机c执行这样的过程。为简洁起见，我们在后续讨论中省略了上标c，除非明确谈论多个相机

即使我们可以在统一的空间中将动作和观察表示为r，我们仍然需要一种方法来系统地更新它们，直到它们与我们的数据集d中观察到的动作紧密对齐。为此，我们利用第三节中描述的扩散模型，学习如何改变噪声动作的渲染表示，使其更接近训练数据分布。我们称这个过程为渲染和扩散（r&d）

B. R&D Family:

将渲染的动作表示r作为模型的输入，我们还必须决定如何更新它，即我们学习到的模型应该预测什么以及在哪个空间（图像或动作）。这一决定催生了几个研发先锋，形成了一个方法家族（见图3），我们将在下面描述每种方法。在这项工作中，我们将夹具的开合动作视为一个单独的二进制变量ag，并对研发的所有变体（图4中的夹具动作）进行独立预测。我们这样做是因为我们只渲染了一个开放的抓取器，正如我们在第iv-a节中提到的那样。

R&D-A

学习如何更新r的最直接方法是学习直接在动作空间a中添加到地面真实动作中的噪声，如[6]所述。在这种情况下，我们可以有效地学习的函数。该模型将通过明确了解目前考虑的行动的空间影响，并负责确定如何更新这些行动。我们假设，这种方法可以极大地帮助模型使用这种新引入的归纳偏差来学习观察空间和动作空间之间的映射

R&D-I

另一种进一步对齐观察空间和动作空间的方法是预测同一图像空间i中的去噪方向。我们将这个去噪方向表示为，其中F的每个像素值都包含机器人特定部分应该朝哪个方向移动以更接近数据集d中表示的动作的信息。它可以被视为空间梯度或相机帧中表示的每像素3d流。因此，在这种情况下，我们要学习的函数（包括夹持器动作ag）可以表示为

这里，I是rgb观测值，r（anoisy）是噪声动作的渲染表示，sg是夹具的当前状态，k是扩散时间步长。

R&D-AI

理论上，通过预测F的去噪方向来完全对齐动作和观察空间，可以最大限度地简化学习问题，但这里必须考虑几个因素。首先，抓取器的渲染可能恰好在所有相机视图之外，其次，在如此高维的输出空间中高精度地学习动作分布可能具有挑战性。为了解决这些问题，我们建议将之前描述的edr&d-a和r&d-i方法结合起来，在动作a和图像i空间中进行预测。在r在图像之外的情况下，我们可以依赖直接在动作空间中做出的预测。此外，我们可以在最后一个扩散步骤中使用动作空间中的预测，这是去噪过程的一部分，负责高频、精确的细化，以提高我们预测动作的精度。

C. Learning Problem

History and Prediction Horizons.

根据[6]，我们的目标是预测T步未来的行为，并在学习问题中包含H步过去的观察结果。此外，我们还包括来自多个相机的图像（C），并分别对每个相机进行预测。因此，我们正在学习预测，其中t表示轨迹中的当前时间步长，ε是添加到第三节所述动作中的噪声。为了清楚起见，我们在后续讨论中省略了所有上标。

Training.

我们通过最小化以下值来学习fθ：

这里，和是真值去噪方向和抓取器动作。方程5中的前两项分别负责学习图像和动作空间中的扩散去噪方向，而最后一项负责二元夹持器动作预测。我们使用l1loss代替mse，因为在某些应用中，它已被证明可以减少与数据分布的偏差[25]。我们得到真值去噪方向为：

这里，是一个变换，它将夹具从由anoisy引起的姿态调整到与相机帧中的真实动作相关的姿态。因此，Fgt表示根据真实动作渲染的抓取器的每个点应该在哪里，以及它们由于噪声动作而结束的位置之间的差异。请注意，如果使用全机器人配置，则可以使用正向运动学获得一组变换。算法1中描述了完整的训练过程。

D. Architecture

我们采用视觉变换器（vit）[7]风格的架构，如图4所示，来学习去噪函数fθ。选择Transformer架构是因为它能有效地融合来自各种来源的信息。这包括来自不同时间步长（过去和未来）的数据、多个相机视点以及其他条件变量，如夹具的状态和扩散时间步长。

Network Structure Overview

首先，将图像观察的patches和渲染的动作表示转换为tokens（图4左）。然后将抓取器状态信息、扩散时间步长和action tokens的嵌入连接到图像tokens上，并用几个self-attention层（中间）进行处理。为了使网络能够区分来自多个相机视图和不同时间步长的信息，在相应的tokens中添加了不同的可学习位置嵌入。最后，相应的tokens嵌入被解码（通过线性投影）为每个相机视图去噪方向预测F（右）；抓取器动作ag和添加表示在动作空间a中的真实动作的噪声ε。请注意，r&dai在图像和动作空间中都进行了预测，而r&d-a和r&d-i变体不能分别预测每个像素的去噪方向（f∈i）和添加到动作中的噪声（ε∈a）。

E. Inference

图5显示了推理时渲染和扩散过程的概述。它从对环境的RGB观察(a)开始，从正态分布初始化动作，并构建渲染的动作表示，以及渲染的抓取器的部分点云(b)。然后，这用于进行全相机视图去噪方向和抓取器动作预测。知道了渲染的夹持器上每个点应该移动的方向()，然后我们根据DDIM[30] 采取去噪步骤来更新夹持器点云的位置() (c):

这里，是k=0时点的估计位置。然后，我们通过将来自不同相机视图的点云投影到一个共同的参考系中来聚合它们。这给我们留下了2个点云和，它们隐式地表示去噪时间步长k和k-1处的抓取器姿态。由于我们知道它们之间的真值对应关系，我们可以提取一个变换，使用奇异值分解（svd）将它们对齐，如[2]所示：

通过这种方式，来自多个视图的预测被融合在一起，而不需要网络隐式地学习相机的外部特性。最后，通过将计算出的变换应用于来计算。重复该过程k次（d-e），直到提取出最终的动作（f）。

渲染和扩散推理过程的概述，显示了（a）初始rgb观测值和（b，e，f）渲染的动作表示，以及（c，d）不同扩散时间步长的渲染的部分点云。不同的颜色表示未来不同时间步的动作。

V. EXPERIMENTS

为了彻底评估 r&d 在从有限数量的演示中学习低级控制策略方面的有效性，以及它在现实世界机器人任务中的空间泛化能力和实用性，我们在三个不同的设置中进行了实验：

（1）模拟设置，我们将 r&d 与 RLBench [13] 的 11 个不同的任务上的最新行为克隆方法进行比较，（2）在四个 rlbench 任务的演示凸包内对插值进行系统评估，其中需要大量的空间泛化

(3) 现实世界的设置，我们评估完整机器人管道在六个日常任务上的性能。此外，我们展示了在多任务设置中工作的 r&d，并对变压器模型的超参数进行了消融研究，以进一步证明我们的设计选择的合理性

A. Baselines

我们将研发与最先进的行为克隆方法进行了比较，这些方法最近在复杂机器人任务的学习控制策略方面取得了令人印象深刻的结果。即使用act[37]和扩散策略（dp）[6]作为基线。act和Diffusion Policy都使用原始实现中提出的resnet-18视觉骨干。与r&d 类似，act使用变压器架构，而扩散策略使用卷积神经网络。调整预测范围、观察历史或可训练参数的数量等超参数以匹配 r&d 的超参数进行公平比较。我们想指出的是，通过将那些已经在复杂任务上表现出强大的性能的基线进行比较，我们的目标不是在大数据机制或任务复杂性方面的性能方面击败它们。相反，我们的目标是使用它们来展示表示图像空间内的低级机器人动作可以提高低数据状态下的空间泛化和性能。除了上述基线之外，我们还测试了我们的方法 r&d-a、r&d-i 和 r&d-ai 的三种变体，如第 iv-b 节所述。

B. Hyper-parameters

Common parameters

为了进行公平的比较，包括基线在内的所有方法都使用来自一个外部相机和一个安装在机器人手腕上的相机的rgb观测值（128×128）。此外，所有方法都使用h=2的最后观测值作为输入，并预测t=8的未来行动。动作被表示为相对末端执行器位移，我们发现这个动作空间对模拟环境中的所有方法都最有效。所有模型都经过了100k次迭代（批量大小为8）的训练，并且具有大致相同数量的可训练参数（90m-100m）。

R&D parameters

我们使用与 8 个自注意力层一致的转换器、1024的嵌入隐藏维度、16 个注意力头和 16 的补丁大小。在训练期间，我们使用 50 个扩散去噪步骤，而在推理时我们只取 4，这可能是由于使用了 ddim 噪声调度器 [30]。我们能够在具有 nvidia rtx a3000 gpu 的笔记本电脑上运行 4hz 的整个去噪过程，而无需进行广泛的优化

C. Evaluation in Simulated Environments

我们的第一个模拟实验旨在研究我们的模型在有限数量的演示下完成各种机器人操作任务的能力。

Experimental Procedure.

我们使用标准的rlbench演示收集程序，使用franka-emika熊猫机器人，收集了11项不同任务的20个演示。对于这组实验，环境中的对象是随机初始化的，这种策略并不能保证通过少量演示就能很好地覆盖工作空间。此外，演示是线性末端执行器运动轨迹和rrt-connect[17]规划器生成的路径的组合，从而形成演示的多模态数据集。对于Place Phone on Base和Slide Block to Target任务，我们必须将对象的旋转限制在-45到45度之间，否则，rrt规划器产生的路径将主导数据集，消除演示之间的任何相关性。我们这样做是为了能够研究仅依赖于图像空间中的预测的R&D变体之一的性能——R&D-I。

我们在20个收集的演示以及10个演示的较小子集上训练我们的模型和基线。我们通过在环境中初始化100个不同姿势的对象来评估训练好的模型，这些姿势在演示收集过程中从未见过。

Results & Discussion.

这组实验的结果如表i所示。从结果中可以明显看出，r&d优于没有明确结合观察和行动空间的基线。这在需要大量空间概括的任务中尤其明显（例如，抬起炖锅的盖子）或具有类似外观的干扰物（例如，按钮）。这验证了我们的假设，即结合观察和行动空间会引入一种有用的归纳偏差，帮助模型更好地理解预测行动的空间含义（提高空间泛化能力），更容易区分任务目标（泛化到干扰因素）。另一方面，学习将观察直接映射到行动并且缺乏对此类信息的显式访问的方法需要隐式地表示它，这在低数据状态下是一项具有挑战性的任务。此外，我们观察到r&d-i和r&d-a的表现相似，表明大部分性能增益来自作为模型输入的观察和行动的组合，而不是预测的空间。r&dai变体结合了图像和动作空间的预测，平均表现优于其他两个变体，证明了整合不同来源的预测是合理的。

Failure Cases of the Baselines

在我们的实验中，我们观察到被评估基线的几种常见故障模式。首先，它们容易过度拟合本体感觉信息，忽略 rgb 观察。这导致即使当前阶段（例如抓取对象）尚未完成，策略也会随着任务而取得进展。其次，来自 rlbench 的不完美 rrt 演示通常会对性能产生负面影响，策略偶尔会不必要地致力于复杂的运动，将它们从分布中取出。此外，act和dp都严重依赖手腕相机的观测，当它无法很好地看到感兴趣的物体时，就会偏离分布。这一点尤其重要，因为我们在初始化机器人时，配置了限制腕式摄像头视野的配置。

Failure Cases of R&D.

表i中的一个明显异常是开放抽屉任务，其中研发的表现比基线差。我们假设这是由于几个原因造成的。首先，前摄像头（唯一使用的外部摄像头）可能会被抽屉的大小和位置严重遮挡。其次，该任务的演示轨迹中有很大一部分是使用rrt规划器生成的，导致许多数据样本具有相对于感兴趣对象（即抽屉手柄）的任意夹具运动特征。由于r&d严重依赖于联合图像动作表示，这可能会导致歧义，并阻止模型有效地学习图像的任务相关部分以及渲染的抓取器应如何相对于它们移动。这些问题对于基线方法来说不太普遍，因为它们依赖于全局图像嵌入和本体感觉。为了验证我们的假设，我们进行了一项实验，其中抽屉总是放置在一个位置，这样前置摄像头就可以看到抽屉的把手，并且演示轨迹不涉及在任意方向上的显著移动。我们的实验表明，性能提高了25%以上，验证了我们的假设，即R&D需要足够的环境可观测性和一致的演示数据

其他任务的故障模式通常涉及不正确的夹具动作预测。主要原因是我们的渲染动作表示不包括抓取器动作，这使得模型无法准确理解其动作的含义。此外，我们观察到随机收集的演示的分布显着影响 r&d 的性能。具体来说，我们发现 r&d 难以在演示中很少观察到的工作空间区域中完成任务。对于剩余的实验，我们只评估我们方法的 r&dai 变体并将其称为 r&d。

D. Spatial Generalisation Experiments

在我们的下一组实验中，我们通过研究凸包内的性能来系统地研究我们的方法的空间泛化能力。

Experimental Procedure.

对于这组实验，我们从RLBench中选择了4个需要大量空间概括的任务，即：打开盒子、抬起煎锅盖、将手机放在底座上和滑块对准目标。然后，我们定义了一个演示收集过程，确保对象的姿势可以均匀地覆盖工作空间。选定的任务不涉及大对象，因此可以有更大的工作空间来初始化对象，从而产生明显不同的看不见的对象姿势，需要良好的空间泛化能力才能在有限的演示中完成这些任务。我们首先进行一个演示，将对象放置在工作空间的中心，然后迭代收集演示，选择对象的姿势，使其与收集的演示列表中的所有其他姿势的距离最大化。我们使用贪婪的最远点采样算法来实现这一点。在开始时（<6个演示），只有工作区的边缘被覆盖，在极限情况下，整个工作区被密集地覆盖。由于工作空间限制（出于可达性目的），这组实验中没有演示包含RRT生成的轨迹。

我们以这种方式在不同数量的演示上训练所有模型，并以网格状的方式在整个工作空间上评估它们，同时改变对象的位置和方向。每个任务的工作空间维度、演示分布和评估网格维度可以在附录A中找到。

Results & Discussion.

图6所示。成功率与研发和基线的示范次数。越来越多的演示以统一的方式覆盖工作空间。黄色阴影区域表示工作空间稀疏覆盖的低数据区域。

图6显示了研发的性能和基线是如何随着工作空间覆盖密度的增加而变化的，也就是演示的数量。我们可以看到，正如预期的那样，所有的方法都从大量的演示中受益匪浅。然而，当仅使用少量演示来稀疏地覆盖工作空间时，R&D和基线之间的表现形成鲜明对比(图6中图表的左侧)。图7显示了在平底锅任务中测试的一个θ角度的单个评估片段的结果，清楚地表明R&D在演示的凸包内具有很强的插值能力。这再次显示了引入的归纳偏置 the introduced inductive bias的附加价值，通过对齐观察和行动空间来实现。还请注意，引入这种归纳偏差并没有削弱R&D学习完成Open Box等任务所需的精确低级动作的能力。随着演示数量的增加，我们观察到R&D和基线之间的性能差距正在缩小(图6中图表的右侧)。这种趋势是可以预期的，因为有足够的演示密集地覆盖工作空间，高容量模型(如扩散策略或ACT)可以隐式地学习观察和操作空间之间的映射。然而，比例曲线仍然有利于R&D。

图7所示。在5个示范(黑色三角形)上训练的模型的个别评估片段的结果，这些示范是对一个平底锅角度进行测试的平底锅的盖子。热图表示稀疏评估之间的三次插值，红色和蓝色分别代表成功和失败。

Failure Cases.

与前一组实验一样，R&D的一个常见失败模式是错误的抓取动作预测;然而，随着演示次数的增加，这些失效模式变得不那么频繁了。我们还观察到，对于覆盖较少的工作空间，工作空间的边缘(包括平移和旋转)是最具挑战性的。例如，从图8中，我们可以看到，当对象初始化为0度角(方向边界之间的中间值)时，研发人员在将块推到目标上是最成功的，但是当角度为45度时(收集演示时使用的最大值)，研发人员就会非常困难。此外，对于Phone on Base任务，无论方向如何，研发都在工作空间的最远区域挣扎。与工作空间的其他区域相比，这两种情况都需要机器人进行更多的移动，从而导致低级动作预测的误差累积。然而，正如预期的那样，在这些具有挑战性的地区，随着更多的演示，性能会提高。

图8所示。针对手机基座和滑动块任务的16个演示(黑色三角形)训练的单个研发评估片段的结果。热图表示稀疏评估之间的三次插值，红色和蓝色分别代表成功和失败。

E. Multi-Task Setting

虽然我们之前的实验涉及为每个任务训练单独的policies，但这组实验证明了r&d使用单个网络学习多个任务的能力。这个实验的目的不是为了推广到看不见的任务，而是为了展示r&d能够吸收来自不同来源的数据，同时保持效率。

Experimental Procedure.

我们调整R&D(和基线)，以包括目标规范作为可学习的嵌入，并使用从V-D节中使用的4个RLBench任务收集的数据训练单个网络。在这组实验中，我们使用了V-C部分中收集的20个演示，并对训练的模型进行了100episodes评估。

Results & Discussion.

成功率（以及单个任务设置中的性能差异）见表2。我们可以看到，对于所有方法，与仅在单个任务上训练的policies相比，性能都有所下降。由于几个原因，在低数据制度下，这是意料之中的。首先，由于数据量有限，学习问题变得更加复杂。其次，标准化动作空间扩展，不再针对每个任务单独定制。无论如何，r&dre的性能仍优于基线，表明它能够学习如何使用单个网络完成多个任务。有趣的是，所有方法都显示出开箱任务的成功率有所提高。我们假设这是由于来自更多不同数据的额外正则化，这增强了policy对小干扰的鲁棒性，例如与盒子的轻微碰撞或不完全的夹具闭合。

当一个模型在4个不同任务（每个任务20个演示）的演示上训练时，R&D-AI的性能和基线。我们展示了成功率（%）和与单任务设置相比的性能差异。

F. Ablations

在我们最后一组模拟实验中，我们的目标是证明我们的设计选择是合理的，并更好地了解各种超参数对R&D的影响。

Experimental Procedure.

用不同的超参数集训练R&D的变体，并在节V-D中使用的4个RLBench任务上对其进行评估。我们使用在V-C节中描述的收集的20个演示，并评估100集的训练模型。我们将这些变体与第IV节中描述的“基础”模型进行比较，第V-B节中概述了超参数。我们以百分点表示相对性能差异。

Different Variants.

R&D-NoTexture在渲染抓手时不使用纹理颜色;

R&D-No-Hist只使用当前观察;

r&d - depth -6和R&D-Depth-12分别使用6和12个自注意层;

R&D-Heads-8和R&D-Heads-20分别使用8个和20个注意头(每个头64个);

r&d - step2、r&d - step8和r&d - step16在推理过程中使用了不同的扩散时间步长;

Results & Discussion.

从表iii中，我们可以看到，不仅包括当前的观察结果，还包括更多的结果，这在性能上产生了巨大的差异。随后，在渲染中添加纹理以消除夹持器的完整6d姿势的歧义也很重要。虽然transformer的深度似乎对网络功能没有太大影响，但它的宽度对模型的性能有很大影响。需要注意的是，增加模型的容量会带来计算需求的增加。最后，扩散时间步长的数量似乎不会改变我们的方法的性能，因为它们高于某个阈值。关于超参数的其他讨论，以及我们发现什么是有效的，什么是无效的，可以在附录a中找到。

G. Real-World Deployment

Experimental Procedure.

我们使用配备Robotiq 2F140夹具的真正Franka Emika Panda机器人对图9所示的6项日常任务进行了评估。对于每个任务，我们使用2个通过联合镜像控制的机器人收集20个演示。在演示收集过程中，机器人与环境中物体之间的相对姿势是随机的。机器人和物体之间的相对姿势是随机的，通过移动物体相对于机器人(例如，打开盒子的任务，我们移动抽屉和上面的盒子)或移动机器人相对于一个静态物体使用轮式基座(例如，马桶座圈的任务)。物体(或机器人)的定位是这样完成的，外部摄像机可以看到感兴趣的物体，任务在运动学上是可行的，限制了可用的随机化数量。我们使用2个校准过的RealSense D415摄像头来捕捉RGB-only环境观察:一个外部(左肩)摄像头和一个安装在机器人手腕上的摄像头。在对模拟中的研发进行彻底和系统的评估之后，我们专注于定性地展示其在现实世界中的适用性，并为每个任务运行10次评估，每次随机化环境中物体的姿势。在测试过程中，机器人与物体的相对位置是在演示过程中观察到的凸包中选择的，评估模型的插值能力，而不是外推能力。在我们的实验中，我们使用一个标准的末端执行器位置控制器来执行R&D预测的动作。

Results & Discussion.

从表4中，我们可以看到，r&d能够完成现实世界中的日常任务，其中存在不同的噪声源，例如不完善的相机校准。然而，在“把苹果放在抽屉里”和“打扫橱柜”任务中发现了失败的情况。对于前者，当机器人移动它的抓取器到一个挡住苹果的位置时，就会发生这种情况，而手腕上的摄像头却看不到苹果。我们假设这个问题可以通过向模型中添加更多过去的观测或使用多个外部摄像机来解决。对于后者，海绵的柔顺抓取有时会导致并不是所有的咖啡豆都被扫干净。这是预期的policy培训没有纠正措施和访问力测量。有趣的是，我们还观察到，在没有任何数据增强或其他技术的情况下，在场景中存在明亮的干扰物或甚至同一类别的多个物体(例如多个苹果)的情况下，研发仍然能够以高成功率(约70%)完成这些任务。

VI. LIMITATIONS & FUTURE WORK

Limitations.

尽管我们的实验显示出有希望的结果，特别是在空间概括、任务理解和对干扰物的概括方面，但研发仍然有其局限性。首先，推理涉及到一个迭代过程，包括在整个模型中进行多轮渲染和前向传播，这在计算上是非常昂贵的。其次，它依赖于相机校准，这在某些情况下是不可用的。此外，从我们的模拟实验中它在Open Drawer任务上的表现可以看出，在处理严重闭塞和数据不一致的任务时，它并不是很精通。此外，网络的高维输入和输出空间会使训练变得困难，需要评估多个检查点才能达到最佳性能。最后，由于大量可能的方法变化和超参数，很难找到给定任务的最佳参数集。

Future Work.

尽管我们提出的方法存在上述局限性，但我们对可能的工作路线感到兴奋，这些工作路线将解决这些问题，并将其作为联合表示RGB观察和行动的通用方法的一般潜力。特别是，我们将研究扩展这种表示的方法，以包括机器人的完整配置(包括抓手动作)，通过利用不同的网络架构提高其计算需求，以及融合不同空间中表达的预测的替代方法。此外，当我们在图像空间中表达机器人动作时，将这种表示与图像基础模型(如DINO[4])相结合，具有巨大的潜力。

APPENDIX

THINGS THAT INCREASED / DECREASED PERFORMANCE提高/降低性能的因素

Normalisation：我们发现将输出归一化为[−1,1]是至关重要的一步，没有这一步，模型就无法学习任何有意义的东西。
Decreasing the Learning Rate：由于计算原因，我们使用小批量，高学习率(例如1e−3)会引入显著的训练不稳定性。但是，将学习率设置得太小，会增加网络收敛所需的时间。我们确定学习率为1e−4。
Decreasing patch size.：为了提高算法的计算效率，我们尝试使用更大的32 × 32的patch尺寸。我们发现它大大降低了性能。将补丁大小减小到8 × 8可以改善某些任务的性能，但是，它带来了计算需求的显著增加。
MSE Loss：将损失函数从L1更改为MSE会导致性能下降。
L1 Loss for the Gripper Actions：我们尝试将夹持器动作纳入扩散过程，并使用L1损失（与类似于[6]的6D动作相同）。模型的性能显著下降，大多数故障情况是错误的夹具动作预测。
Using ResNet Encoders.：为了降低输入的维度，我们尝试在将图像输入到Transformer之前使用resnet编码器处理图像[11]。我们观察到性能显著下降。
Using UNet Model.：最初，我们尝试使用标准的unet[24]架构，在潜在空间中融合来自多个摄像机和时间步长的信息。结果表明，transformer模型能够更好地融合不同来源的信息。
Deterministic Sampling确定性抽样：我们尝试确定地开始扩散过程，确保最初，手腕相机可以看到抓手的所有渲染。我们发现，平均而言，这种方法降低了性能。
Adding Proprioceptive Inputs.除了提供抓取器状态信息，我们还尝试将抓取器的current6D姿态添加到模型的输入中。我们没有观察到性能上的重大变化。
Using Exponential Moving Average (EMA)我们观察到当使用EMA来增加训练的稳定性时，表现没有重大变化。
View-Masking：我们在训练过程中随机屏蔽了来自不同摄像机视图的信息。某些任务的表现有所提高，而另一些则有所下降。我们认为视图/信息屏蔽在提高性能方面具有巨大的潜力，需要进行更多的研究

EXPERIMENTAL DETAILS

Evaluation in Simulated Environments

Gripper's 3D Model.

在我们的模拟实验中，我们使用了一个Franka Emika Panda机器人，并渲染了它的开放式抓取器来创建我们渲染的动作表示。对于腕式相机，我们只使用它的手指来避免严重的遮挡。我们用于渲染的3D模型的可视化如图10所示。

Alterations of RLBench Tasks.RLBench任务的变更。

为了彻底而系统地进行我们的实验，我们不得不改变一些rlbench任务。首先，我们改变了机器人的启动配置，使整个抓手可以从前置摄像头看到。我们这样做是为了研究一种R&D变体的性能，这种变体完全依赖于在图像空间中做出的预测——r&d- i。其次，对于某些任务，我们限制了环境中物体的方向。这是必要的，因为否则，大多数收集的演示都包括由rrtconnect计划器生成的轨迹，这将删除观察和低级操作之间的相关性，使得从少量演示中学习性能良好的policies变得极其困难。这些任务包括:将手机放在基座上，将块滑动到目标，关闭笔记本电脑(−45◦- 45◦)。