【论文阅读】Hierarchical Diffusion Policy for Kinematics-Aware Multi-Task Robotic Manipulation

最新推荐文章于 2024-11-11 22:42:59 发布

好悬给我拽开线

最新推荐文章于 2024-11-11 22:42:59 发布

阅读量1k

点赞数 8

文章标签：论文阅读

本文链接：https://blog.csdn.net/qq_33673253/article/details/142580450

版权

Abstract

本文介绍了分层扩散policy (hdp)，一种用于多任务机器人操作的分层agent。hdp 将操作 policy 分解为层次结构：高级任务规划 agent，它预测远处的下一个最佳末端执行器姿势 next-best end-effector pose (nbp) 和生成最佳运动轨迹的低级目标条件 diffusion policy。因式分解的 policy 表示允许 hdp 在生成细粒度低级动作的同时处理长期任务规划。为了在满足机器人运动学约束的同时生成上下文感知运动轨迹，我们提出了一种新的运动学感知目标条件控制agent、机器人运动学扩散器(rk-diffuser)。具体地说，rk-diffuser学习生成末端执行器的姿态和关节位置轨迹，并通过可微运动学将精确但运动学不感知的末端执行器姿态扩散器提取到运动学感知但不太准确的关节位置扩散器上。根据经验，我们表明 hdp 在模拟和真实方面都比 state-of-the-art 方法实现了更高的成功率。

1. Introduction

由于环境、物体和机器人轨迹的多样性，在机器人中学习高效的视觉操纵策略具有挑战性。policy表示法的选择对agent的性能有显著影响。

参数化policy的一种方法是将视觉观察直接映射到机器人命令，例如关节位置或速度动作[18,22,27,39]。这些方法对任务和环境的假设最少，并保持了对过度驱动的灵活控制，但它们往往存在采样效率低和泛化能力差的问题，特别是对于长期任务[20,34]。

学习次佳姿势（nbp）agents[6,7,15-17,20,34,43]的最新进展显著提高了机器人操纵的采样效率和性能。nbp agents没有学习连续动作，而是直接预测远处的“关键帧”[17]，即下一个最佳的端ee姿势，并使用预定义的运动规划器计算agent要遵循的轨迹。然而，由于运动规划器不知道任务上下文，它将无法执行需要理解环境上下文（例如动力学）的任务。例如，在图1中，要打开盒子，agent必须了解铰链的未知物理特性，例如阻力，并且只能成功执行特定的弯曲轨迹。

图1。我们介绍了hdp，一种用于机器人操纵的分层agent。在高层，hdp学习预测下一个最佳末端执行器姿势。在当前和预测姿态（红色）的条件下，扩散模型生成机器人要遵循的动作轨迹（蓝色）。相比之下，由于违反了环境约束，例如盒子的铰链，经典规划者（黄色）生成的轨迹无法执行。

在这项工作中，我们引入了分层扩散policy（hdp），这是一个结合了两个世界优点的分层多任务agent。hdp通过将高级nbp agent与低级学习控制器链接来分解操纵policy。在较高层次上，hdp将3d视觉观察和语言指令作为输入，并预测6-dof的次佳末端执行器姿势。在高层次上，hdp需要理解视觉环境和语言指令，并执行长期任务级决策的能力。在低级别，以高级6-dof末端执行器姿势动作为目标，hdp将控制任务转换为上下文感知的6-dof姿势到达任务。我们介绍了一种新型的运动学感知低级agent，机器人运动学扩散器（rk扩散器），一种基于扩散的policy[5]，通过条件采样和轨迹修复直接生成运动轨迹。具体来说，rk diffuser没有像chi等人[5]、xian等人[40]那样生成末端执行器姿态轨迹并求解机器人逆运动学，而是学习末端执行器姿势和机器人关节位置扩散，并通过可微分机器人运动学将精确但运动学未知的末端执行器态势轨迹提取到关节位置轨迹中。rk扩散器实现了精确的轨迹生成和最大的控制灵活性，同时避免了违反机器人运动学约束，这是逆运动学求解器的常见问题。

在我们的实验中，我们在rlbench中实证分析了hdp在各种具有挑战性的操作任务上的表现[19]。我们发现（1）rk扩散器在目标条件运动生成方面通常取得了更高的成功率。（2）所提出的分层agent，hdp，优于平坦基线agents和其他分层变体。（3） hdp可以直接在真实的机器人上进行训练，只需20次演示即可完成具有挑战性的烤箱打开任务，成功率很高。

2. Related Works

2.1. End-to-End Visual Manipulation Agents

端到端操作方法[18,22,27,39]对对象和任务的假设最少，并学习从rgb图像到机器人动作的直接映射，但往往样本效率低。最近出现了两种方法来解决这种样本效率低下的问题：（1）学习直接预测远处“关键帧”的次佳姿势（nbp）动作模式[17]；（2）通过将基于3d体素的动作值图学习为policies，并通过取具有最高值的体素的坐标来提取动作，从而对齐3d任务空间和动作空间的3d动作值图[20]。这种结构化的动作空间大大减少了所需的数据量和学习policy的泛化。特别是，shridhar等人[34]和gervet等人[6]使用Transformers骨架构建，能够将语言tokens作为输入，并开发出语言条件policies。在这项工作中，在不失一般性的情况下，我们选择peract[34]作为我们用于各种任务的高级语言条件agent。以预测的6-dof nbp为输入，rk扩散器自然作为peract的低水平policy工作。与我们的工作类似，james和abbeel[15]将高级c2f-arm[20]与低级agent相结合，后者通过人类启发式方法学习对一组采样轨迹进行排序。这种方法已被证明适用于一系列具有挑战性的操作任务，但它计算量大，不可扩展，取决于预定义的运动生成器。我们表明，hdp具有强大的多任务操纵能力，同时具有运动学意识和高精度。

2.2. Diffusion Models

扩散模型是一类强大的生成模型，通过迭代去噪过程学习近似数据分布。他们在有条件和无条件的图像、视频和3d对象生成方面都取得了令人印象深刻的结果[10,11,26,32,35,38]。在决策领域，扩散模型最近被采用为一个强大的policy类[1,5,21,23,37]。具体来说，扩散策略[5]通过模仿学习的条件生成来学习为机器人操纵生成不同的多模态轨迹。与我们的工作同时，xian等人[40]提出了chaineddiffuser作为一个分层agent。正如我们在实验中所展示的，chaineddiffuser中的抓取器姿态diffusion policy依赖于反向运动学求解器来生成机器人关节动作，然而，这容易受到预测误差的影响，并可能违反机器人的运动学约束。相反，所提出的cdp学习了末端执行器姿态和关节位置轨迹，并通过提取末端执行器的姿态来细化关节位置轨迹。

2.3. Differentiable Physics for Decision Making

可微分物理模拟将每个模拟步骤构造为可微分计算图，使得环境步骤相对于网络参数完全可微分[4,12,13,42]。与标准的不可微环境[3,41]相比，通过可微物理学习决策policies被证明是更有效和更通用的，其中物理先验是对梯度的归纳偏差。与可微物理学类似，我们利用可微机器人运动学模型[45]将精确但不太可靠的末端执行器姿态轨迹提取到关节位置空间

3. Preliminaries

3.1. Diffusion Models

扩散模型是一个强大的生成模型家族，由正向和反向马尔可夫链扩散过程组成。考虑一个真实的数据分布和从中提取的样本。前向扩散过程在K步中向x0添加高斯噪声，从而得到一系列有噪声的样本。在DDPM[10]中，噪声由方差调度器控制

其中是调度器参数。理论上，将以各向同性高斯分布。为了重建分布，扩散模型学习条件分布，并通过以下方式生成新样本

其中，在的条件下，。该模型可以通过最大化证据下限（ELBO）来训练

在决策的背景下，扩散policies考虑动作轨迹，并学习条件分布，其中是policy学习的N个附加条件，例如rgb观测值、点云、机器人状态等。为了简单起见，我们滥用符号并将a表示为。

3.2. Differentiable Kinematics

微分模拟旨在将物理模拟步骤编码为可微分计算图。以一个简单的点质量系统为例。

其中力F是系统的输入，m是质量，v是速度，y是点的位置。重要的是，这样的系统是可微分的，我们可以通过位置y的梯度来优化输入力F。同样，在机器人技术的背景下，以机器人的预定义URDF模型为条件，机器人的末端执行器姿态可以通过可微分的正向运动学函数获得，如，其中sj是关节角度。因此，给定夹持器姿态上的损失函数，关节位置可以直接通过梯度更新。

4. Hierarchical Diffusion Policy

hdp的整体pipeline如图3所示。

图3。分层扩散policy（hdp）概述。hdp是一个用于运动学感知机器人操纵的多任务分层agent。hdp由两个级别组成：高级语言引导的agent和低级目标条件的diffusion policy。从左到右，高级agent接收3d环境观察和语言指令，然后预测下一个最佳末端执行器姿势。此姿势引导低级rk扩散器。rk扩散器随后通过条件采样和轨迹修复，在给定下一个最佳姿态和环境观测值的情况下，生成连续的关节位置轨迹。为了生成运动学感知轨迹，rkdiffuser通过可微机器人运动学将精确但不太灵活的末端执行器姿态轨迹提取到关节位置空间中。

Problem Definition.

我们的目标是学习一个HDP策略，它处理RGB-D观察值o和语言指令l，指定任务，以预测混合动作a。这里，a由轨迹和夹具打开/关闭动作组成，其中T是轨迹长度，，N表示机器人关节的数量。为简洁起见，我们在episode中使用没有时间索引表示的动作a。

Factorised Hierarchical Policy.

为了处理长视界上下文感知操作任务，我们将policy分解为层次结构。具体来说，。其中，高级动作，由

(1) 末端执行器位姿动作组成，其中平移动作，四元数旋转动作;

(2) 二元夹持动作，在高阶动作的条件下，用rk-diffuser参数化低阶动作policy ，学习生成精确的关节位置轨迹。这样的分解将复杂而昂贵的任务级理解从语言指令转移到高级agent，只留下控制由简单的、目标条件的低级agent来学习。在推理过程中，hdp以顺序方式工作，我们将作为输出。

4.1. Dataset Preparation

我们假设可以访问多任务数据集，总共包含与语言描述配对的个专家演示。请注意，单个任务可能有多个变体，每个变体都有不同的描述，例如“打开中间抽屉”或“打开底部抽屉”。每个演示由专家轨迹和由此产生的观察组成。为了实现高级策略和低级RK-Diffuser 的训练，动作演示包括:

(1)末端执行器姿态;

(2)夹持器打开/关闭动作夹持器;

(3)关节位置关节。

观察包括多视图校准的 RGB-D 相机观察和机器人状态。

Keyframe Discovery.

参考先前的工作[17,20]，在所有轨迹点上训练高级agent是低效的，相反，我们应用了james和davison[17]中介绍的关键帧发现方法。扫描每个轨迹ξ，我们提取一组关键帧索引，捕捉主要瓶颈末端执行器姿势。具体而言，如果

(1)关节速度接近0，则认为一帧为关键帧;

(2)夹持器打开/关闭状态保持不变。

与之前只保留关键帧进行训练的工作不同，我们维护关键帧索引并提取不同的数据段来训练高级和低级agents。细节将在以下章节中讨论。

4.2. High-Level Next-Best Pose Agent

对于高阶，我们使用具有结构化动作表示的次佳姿势agent[17]。在这项工作中，为了参数化并实现这一目标，我们采用了Perceiver-Actor（peract）[34]。peract是一种语言条件行为克隆（bc）agent，具有transformer[36]骨架。peract通过使用高分辨率体素场景表示来预测基于3d体素的动作值图，实现了其高采样效率、通用性和准确性。为了处理大量的视觉和语言tokens，peract采用了PerceiverIO[14]，它用一组小的潜在向量对输入进行编码，降低了计算复杂度。

Action Spaces.

peract为所有动作头使用离散动作空间，包括（1）用于的体素上的离散policy头和（2）用于和的一对离散policies头。通过根据动作空间范围转换离散索引来重建连续动作。

Model Training.

对于高级agent，我们只使用关键帧进行训练。此外，根据shridhar等人[34]的研究，我们使用演示增强和翻译增强来生成更多样本。网络通过行为克隆损失进行优化，即离散动作空间中的交叉熵损失：

其中是关键帧k的专家动作。

4.3. Low-Level RK-Diffuser

给定预测的高级动作，我们通过去噪扩散过程使用rk扩散器进行条件轨迹生成。机器人操纵的标准Diffusion Policy考虑了末端执行器姿态扩散

其中由条件变量组成，包括已知的起始姿势姿势、高级agent预测的下一个最佳姿势、机器人的低维状态s、末端执行器姿势、夹具打开量和环境v的点云。

除了使用开始和下一个最佳姿势作为网络的条件变量外，我们还在每个去噪步骤中用开始姿势和预测的下一个最好姿势来输入轨迹。这种末端执行器姿态扩散允许修复操作 the inpainting operation 作为扩散过程的硬约束，这保证了轨迹中的最后一步始终与高级agent的输出对齐。

在执行之前，末端执行器姿势轨迹必须经过反向运动学（IK）解算器的处理，以确定相应的关节位置。然而，预测的末端执行器姿态轨迹缺乏运动学意识，很有可能违反运动学约束。例如，考虑预测轨迹的每一步都有概率p违反IK约束。对于长度为T的轨迹，轨迹可能违反约束的概率为，。正如我们在实验中所展示的，IK误差是导致末端执行器姿态轨迹扩散失败的主要原因。

Kinematics-Aware Diffusion.

作为使用IK解算器的替代方案，可以通过关节位置控制来操作机器人。这种方法提供了对机器人的直接和完全控制。然而，在关节位置空间中学习轨迹扩散模型具有挑战性。在末端执行器姿态扩散模型的情况下，我们可以对预测的下一个最佳姿态施加准确和强烈的约束。然而，对于过度驱动的7-DoF机器人手臂，6-DoF末端执行器姿势可能有无数个相应的关节位置，这使得难以对关节位置扩散进行修复。正如我们在实验中所表明的那样，朴素的关节位置扩散模型对于目标条件控制往往不太准确，尤其是对于末端姿态。

为了解决这个问题，我们引入了机器人运动学扩散器（RK扩散器）。与Xian等人[40]类似，RK Diffuser学习了一个末端执行器姿势扩散模型，该模型生成了准确但不太可靠的末端执行器姿态轨迹。RK扩散器进一步学习了一个额外的关节位置扩散模型

其中，我们使用同一组条件变量进行条件生成，但对于修复 inpainting，我们只修复初始关节动作。

对于从每个学习到的policy中采样的动作轨迹和，我们可以通过将可微机器人运动学模型视为的函数来构建这样的映射。在推理过程中，使用接近最优的解进行初始化，我们可以优化关节位置，以使用梯度预测接近的末端执行器姿势

其中α是学习率。这给出了一个不违反机器人运动学约束的轨迹，同时实现了操纵任务的高精度。

Networks.

低级rk扩散器将开始姿态、结束姿态、第一步观察的rgb-d图像、机器人低维状态的向量和轨迹排名作为输入。对于rgb-d图像，我们首先将其转换为世界坐标系中的点云，并使用pointnet++[29]提取特征；对于其他矢量特征，我们使用4层mlp。对于时间编码网络，我们发现janner等人[21]使用的时间conv1d unet表现良好，在常用的Transformer骨干之间没有明显的性能差距。

Model Training.

在训练扩散模型时，我们的目标是最大化数据集的elbo（方程式5）。然而，从高级别policy中获取预测的next-best poses是低效的，因为预测可能是次优的和缓慢的。为了缓解这个问题，对于每个演示ξ，我们通过用检测到的关键帧索引对轨迹ξ进行分块来构建子轨迹。接下来，我们将每个关键帧重新标记为训练轨迹的子目标。这与高级agent的训练相一致，在实践中，πhigh和πlow可以同时优化。重新标记的想法也类似于后见之明体验回放[2]，该回放已被证明在学习分层policy学习方面是有效的[24,28]。具体来说，我们有

其中β1、β2和β3是加权参数，ξ（i）是从数据集中采样的子轨迹，其开始和结束被重新标记到两个附近的关键帧。特别是，通过可微运动学从关节位置预测端部影响器姿势，可以实现。这使我们能够训练一个关节位置轨迹，该轨迹更好地将运动学作为感应偏差来规范关节位置。

Trajectory Ranking.

在训练过程中，大多数操纵算法使用基于采样的运动规划器，其轨迹可能是次优的。在RK扩散器中，我们建议为每个子轨迹添加一个额外的条件变量，轨迹秩，其中dEuclidian是开始和结束姿势之间的欧几里德距离，dtravel是开始和停止姿势之间的行进距离。直观地说，忽略机器人运动学约束的最优轨迹应该具有。为了鼓励RK扩散器生成接近最优的轨迹，我们在推理过程中设置。附录中分析了轨迹排名 trajectory ranking 的影响。

4.4. Practical Implementation Choices

对于高级别的agent，与过去的工作[15,34]不同，我们忽略了coclusion，它是一个二元变量，用于指示运动规划器是否应该执行碰撞避免，因为低级别的rk扩散器经过训练，可以生成碰撞感知的最优轨迹。对于低级别的agent，与大多数学习预测噪声预测模型并在去噪步骤中学习重建噪声的扩散模型不同，我们遵循Ramesh等人[31]的研究，观察到通过经验直接预测原始动作a0姿势和a0关节的表现更好。此外，当被关键帧索引截断时，子轨迹可能具有不同的长度。为了解决这个问题，我们将每个轨迹重新采样为64的长度，以便进行批量训练。更多的实现和讨论见附录。

5. Experiments

在我们的实验中，我们展示了以下内容：

（1）hdp在所有rlbench任务中都优于state-of-the-art方法；

（2）一般来说，分层agents优于简单的低级连续控制policies；以及

（3）任务感知规划对于许多操作任务，特别是涉及铰接对象的操作任务非常重要。

除此之外，我们还进行了一系列消融研究，结果表明：

（1）ik误差是末端执行器姿势Diffusion Policy失败的主要原因；

（2）在没有最后一个关节位置修复的情况下，关节位置扩散的准确性较低；以及

（3）3d信息和相应的特征提取模块对rk扩散器的性能至关重要。

最后，我们证明HDP能够在仅需20次演示的开放式烤箱任务中高效地解决具有挑战性的现实世界任务。

对于所有模拟实验，我们为每个任务使用RLBench[19]的100个演示，并训练100K次迭代。在一个真实的机器人上，我们展示了HDP可以通过20次演示高效地学习。

5.1. Trajectory Visualisations

首先，我们旨在了解为什么学习低级控制器是必要的。在图4中，我们在rlbench中可视化了一个开箱任务的轨迹。rrt学习正确到达目标姿势的轨迹。然而，如果不了解任务背景，rrt产生的轨迹将导致盒盖从夹具上掉落。为了可视化vanilla关节位置Diffusion Policy和rk扩散器的关节位置轨迹，我们进一步根据关节位置预测末端执行器的姿态。虽然关节位置Diffusion Policy理解任务上下文，但如果不直接用下一个最佳关节位置进行修复，轨迹的准确性就会降低。rk扩散器通过可微分运动学将精确的末端执行器姿态提取到关节位置，实现了高预测精度和运动学感知。

图4。开箱任务的轨迹可视化。

5.2. Simulation Experiments

我们的目的是将hdp与（1）state-of-the-art低水平控制行为克隆agents进行比较，包括act[44]和vanilla Diffusion Policy[5]；（2） high-level nextbest-pose agent，带有固定的局部规划器peract。此外，我们的目标是证明所提出的rkdiffuser相对于替代方案的优势，包括：（1）planner：固定线性路径和标准rrt的混合规划器，这是rlbench中使用的默认设置；（2） planner+bezier：在peract骨干中添加一个额外的头部，并训练离散输出，以在每个episode步骤中选择最合适的轨迹生成方法，类似于行为克隆设置中的Learned Path Ranking (LPR)[15]；（3）扩散器：vanilla扩散器[21]被构建为目标条件下的关节位置扩散模型。附录中提供了基线算法的更多详细信息。我们选择了11个rlbench任务，从简单的情境感知抓取任务到需要与铰接对象交互的具有挑战性的任务。我们在表1中给出了结果，并进行了以下观察。

hdp在rlbench任务中的表现优于state-of-the-art方法。如表1所示，hdp在11个rlbench任务中实现了80.2%的总体成功率。特别是，我们观察到，在不需要精确轨迹控制的简单任务（红色）上，大多数基线都达到了合格的性能。然而，当涉及到更具挑战性的任务（蓝色）时，hdp保持了其性能，而基线大多失败，这要么是由于对任务背景缺乏了解，要么是由于运动轨迹生成不准确。

分层agents优于简单的低级连续控制policies。将act和vanilla Diffusion policy与分层agents进行比较，我们观察到分层agents始终优于前者。根据经验，act和diffusion policy都无法准确检测中间关键帧，例如抽屉或烤箱的把手。由于分布偏移，这种错误被放大，这是长期任务中行为克隆agents的常见问题。相比之下，在高级peract的分层agent实现了更好的泛化，并简化了低级agent的优化任务。当在多任务设置下进行训练时，act和diffusion policy都无法管理不同的技能，也无法概括到看不见的测试示例。然而，所有算法在开微波炉任务上的性能都很低。我们观察到，这项任务具有高度多样化的最终末端执行器姿态分布，这导致高级policy具有很高的方差，并产生不准确的次佳姿态。然后，此错误会传播到低级agents。对这一问题的进一步探讨有待于今后的研究。

学习了低级agents后，其性能优于运动规划器。特别是，我们注意到，即使对下一个最佳姿势进行了准确的预测，规划器对任务的缺乏理解也往往会导致轨迹偏离所需的最佳轨迹。例如，虽然peract+planner在开箱任务中的成功率为0%，但它经常成功地抓住盒盖。预测轨迹始终超过盖铰链的转弯半径，导致故障。严格的运动学限制加剧了这个问题。例如，在同一个任务中，peract+planner+bezier的表现很差，因为与lift toilet seat task不同，peract的额外头部所提示的平滑开口曲线在运动学上是不可行的。相反，学习的轨迹捕获了数据所证明的任务上下文，并在更多任务上表现出色。

5.3. Ablation Studies

我们对选定的rlbench任务进行消融研究，以进一步了解所提出的低水平agent、rkdiffuser。由于高级agent在先前的工作中得到了很好的研究[34]，我们将其与专家交换，只关注低级agents的性能。结果见表2。

表2。消融研究：具有地面真实next-best poses的低水平agents的成功率（%）/ik错误率（%）。对于红色任务，我们预计hdp不会比基线有所改善；对于蓝色任务，我们预计hdp将超越许多基线。

基于抽样的运动规划器可能无法理解任务上下文。作为基于采样的规划器，RRT 在只需要目标信息的简单任务上实现了强大的性能。然而，对于需要细粒度轨迹的任务，例如厕所座椅上，RRT 完全失败。如第 5.1 节所述，我们看到 RRT 生成的轨迹可能很容易违反任务约束。可以手工制作特定于任务的约束，但它不能跨任务泛化。

ik错误导致了endeffector姿势Diffusion Policy的大多数失败情况。姿势扩散表示直接在末端执行器姿势轨迹上学习Diffusion Policy，并通过求解逆运动学来生成机器人控制。我们观察到，尽管pose diffusion在几个任务上取得了很好的性能，例如开放式微波炉，但它的整体ik错误率为24.55%。具体来说，大多数ik错误是由无效的四元数引起的，占其失败案例的75%。特别是，ik错误率随着控制难度的增加而增加。这解释了学习关节位置轨迹而不是末端执行器姿势的重要性。

如果没有最后一个关节位置的修复，关节位置的扩散就不太准确。就像在Sect4.3，一个endeffector姿势将有多个相应的关节位置，因此，关节位置扩散模型执行最后一步修复是不可行的。在我们的消融中，我们发现它的性能比RKDiffuser差，特别是在具有挑战性的任务上，例如开放式烤箱。

3D信息和相应的特征提取模块对RK扩散器的性能至关重要。如前文4.3所述，RK扩散器使用PointNet++进行点云特征提取。对于RKD-RGB，我们丢弃了深度信息，并使用预训练的ResNet50来提取图像特征；对于RKD ResNet，我们使用ResNet从RGBD图像中提取特征。我们观察到，与原始的RK扩散器相比，两者的性能都较差，这表明了解3D环境对于通用和精确的控制是必要的。我们相信还有其他的表达方式，并将其留给未来的研究。

5.4. Real Robot Experiment

我们还使用franka panda 7 dof手臂对打开烤箱任务和将物体分类到抽屉任务进行了真实世界的实验。我们使用2台realsense d415相机捕捉场景。对于每个子任务，我们收集了10个演示。这两项任务都要求机器人准确定位目标并控制其所有关节，特别是每个时间步中手腕的方向，否则，由于烤箱的高阻力，手臂将因超过关节扭矩限制而停止。总之，hdp在打开烤箱任务中实现了100%的成功率，在将物体分拣到抽屉任务中实现的成功率为94%。由于演示收集的性质，我们观察到任务演示轨迹的差异很大。直观地说，这导致了来自高级agent、peract的次优和高度多样化的次优姿态预测，其中一些预测超出了rk扩散器的分布范围。然而，有趣的是，对rk扩散器的影响似乎很小，该方法仍然能够推广到这些看不见的姿势并生成精确的轨迹。详细结果见附录，最好通过补充视频观看。

6. Conclusion

我们提出了hdp，一种用于运动学感知机器人操纵的分层agent。hdp对policy进行分解：在高层，任务规划agent预测下一个最佳末端执行器姿势，在低层，rk扩散器对连接到预测的下一个最优姿势的关节位置轨迹进行目标条件预测。为了实现运动学感知和高预测精度，rk扩散器通过可微分运动学将精确但不太可靠的末端执行器姿态轨迹提取为关节位置轨迹。我们证明hdp在一组具有挑战性的rlbench操作任务上实现了state-of-the-art性能。在真实的机器人上，hdp学会了打开烤箱和将物体分类到抽屉中的任务。尽管我们已经证明了rk扩散器对分布外姿态的鲁棒性，但长期任务的行为克隆的性质表明，误差累积可能会导致显著的分布变化和最终失败。未来的工作可以探索通过设计更统一的结构来改进框架，以最大限度地减少复合误差。