Abstract
本文介绍了扩散策略,这是一种通过将机器人的视觉运动policy表示为条件去噪扩散过程来生成机器人行为的新方法。我们对来自 4 个不同的机器人操作基准的 15 个不同任务的扩散策略进行了基准测试,发现它始终优于现有的 state-of-the-art 机器人学习方法,平均提高了 46.9%。扩散策略学习动作分布评分函数的梯度,并通过一系列随机朗之万动力学步骤在推理过程中针对该梯度场迭代优化。我们发现,当用于机器人policies时,扩散公式产生了强大的优势,包括优雅地处理多模态动作分布,适用于高维动作空间,并显示出令人印象深刻的训练稳定性。为了充分释放扩散模型在物理机器人上视觉运动policy学习的潜力,本文提出了一套关键的技术贡献,包括后退水平控制、视觉调节和时间序列扩散transformer的结合。我们希望这项工作将有助于激发新一代policy学习技术,这些技术能够利用扩散模型强大的生成建模能力。
Keywords:Imitation learning, visuomotor policy, manipulation
1 Introduction
policy从演示中学习,最简单的形式可以表述为学习将观察结果映射到行动的监督回归任务。然而,在实践中,预测机器人动作的独特性质——例如多模态分布的存在、序列相关性和高精度的要求——使这项任务与其他监督学习问题相比显得独特而具有挑战性。
先前的工作试图通过探索不同的动作表示(图1a)来解决这一挑战——mandlekar等人(2021)使用高斯混合、shafiullah等人(2022)的量化动作分类表示,或通过将policy表示(图1b)从显式转换为隐式,以更好地捕捉多模态分布 florence等人IBC(2021年);吴等(2020)。
在这项工作中,我们试图通过引入一种新形式的机器人视觉运动器policy来应对这一挑战,该运动器通过在机器人动作空间上的条件去噪扩散过程”生成行为,diffusion policy。在这个公式中,policy不是直接输出动作,而是根据视觉观察推断k次去噪迭代的动作得分梯度(图1c)。该公式允许机器人policies从扩散模型中继承几个关键属性,从而显著提高了性能。
图1。policy表示。a) 具有不同类型动作表示的显式policy。b) 隐式policy学习一个以动作和观察为条件的能量函数,并针对最小化能量景观的动作进行优化c)扩散policy通过学习到的梯度场将噪声细化为动作。该公式提供了稳定的训练,允许学习的policy准确地模拟多模态动作分布,并适应高维动作序列。
- Expressing multimodal action distributions.
- 通过学习动作得分函数的梯度,并在该梯度场上执行随机朗之万动力学采样,扩散policy可以表示任意可归一化分布,其中包括多峰动作分布,这是policy学习的一个众所周知的挑战。
- High-dimensional output space.
- 正如其令人印象深刻的图像生成结果所证明的那样,扩散模型在高维输出空间中表现出了出色的可扩展性。此属性允许policy联合推断一系列未来动作,而不是单步动作,这对于鼓励时间动作一致性和避免短视规划至关重要。
- Stable training.
- 基于能量的policies训练通常需要负采样来估计难以处理的归一化常数,已知这会导致训练不稳定。扩散policy通过学习能量函数的梯度绕过了这一要求,从而在保持分布表现力的同时实现了稳定的训练。
我们的主要贡献是将上述优势带入机器人领域,并证明它们在复杂的现实世界机器人操纵任务中的有效性。为了成功地将扩散模型用于视觉运动器policy的学习,我们提出了以下技术贡献,以提高扩散policy的性能,并在物理机器人上释放其全部潜力:
- Closed-loop action sequences.
- 我们将policy预测高维动作序列的能力与滚动时域控制相结合,以实现稳健的执行。这种设计允许policy以闭环方式不断重新规划其行动,同时保持时间行动的一致性,实现长期规划和响应之间的平衡。
- Visual conditioning.
- 我们引入了一个视觉条件化的diffusion policy,其中视觉观察被视为条件化,而不是联合数据分布的一部分。在这个公式中,policy只提取一次视觉表示,而不管去噪迭代如何,这大大减少了计算量,并实现了实时动作推理。
- Time-series diffusion transformer.
- 我们提出了一种新的transformer-based扩散网络,该网络最大限度地减少了典型基于cnn模型的过平滑效应,并在需要高频动作变化和速度控制的任务上实现了state-of-the-art性能。
我们系统地评估了在行为克隆公式下4个不同基准的15个任务中的扩散Policy。评估包括模拟和现实环境、2dof至6dof动作、单任务和多任务基准,以及完全和欠驱动系统,包括刚性和流体物体,使用单个和多个用户收集的演示数据。
根据经验,我们发现所有基准测试的性能都得到了持续的提升,平均提高了46.9%,为diffusion Policy的有效性提供了强有力的证据。我们还提供了详细的分析,以仔细检查所提出算法的特点和关键设计决策的影响。
这项工作是Chi等人(2023)会议论文的扩展版本。我们通过以下方式扩展了本文的内容:
- 包括一个关于Diffusion Policy和控制理论之间联系的新讨论部分。见第4.5节
- 将额外的消融研究纳入替代网络架构设计和不同预训练和微调范例的模拟中,第5.4节。
- 在第7节中,通过三个双手操作任务(包括打蛋器、垫子展开和衬衫折叠)扩展现实世界的实验结果。
2 Diffusion Policy Formulation
我们将视觉运动机器人policies表述为ho等人(2020)的去噪扩散概率模型(ddpm)。至关重要的是,diffusion policies能够表达复杂的多模态动作分布,并具有稳定的训练行为——几乎不需要特定任务的超参数调整。以下部分更详细地描述了ddpm,并解释了它们如何适应表示visuomotor policies。
2.1 Denoising Diffusion Probabilistic Models
DDPM是一类生成模型,其中输出生成被建模为去噪过程,通常称为随机朗之万动力学Welling和Teh(2011)。从高斯噪声中采样的开始,DDPM执行K次迭代去噪,以产生一系列噪声水平逐渐降低的中间动作
,直到形成所需的无噪声输出
。该过程遵循以下方程式
其中εθ为参数为θ的噪声预测网络,将通过学习进行优化, 是每次迭代添加的高斯噪声。
上述等式 1 也可以解释为单个噪声梯度下降步骤:
其中噪声预测网络 有效地预测梯度场
,γ 是学习率。
α、γ、σ 的选择作为迭代步骤 k 的函数,也称为噪声调度,可以解释为梯度下降过程中的学习率调度。α略小于1已被证明可以提高稳定性Ho等人(2020)。有关噪声调度的详细信息将在第 3.3 节中讨论。
2.2 DDPM Training
训练过程首先从数据集中随机抽取未修改的示例。对于每个样本,我们随机选择去噪迭代 k,然后对具有适当方差的随机噪声
进行采样以进行迭代 k。噪声预测网络被要求从添加噪声的数据样本中预测噪声。
如Ho等人(2020)所示,最小化Eq 3中的损失函数也最小化了数据分布与使用Eq 1从DDPM
中提取的样本分布之间的KL散度的变分下界。
2.3 Diffusion for Visuomotor Policy Learning
虽然ddpm通常用于图像生成(图像),但我们使用ddpm来学习机器人视觉运动policies。这需要公式中的两个主要修改:
1. 更改输出 x 来表示机器人动作。
2. 使去噪过程以输入观测为条件。以下段落讨论了每个修改,图 2 显示了概述。
Closed-loop action-sequence prediction:
一个有效的行动公式应该鼓励长期规划中的时间一致性和平滑性,同时允许提示对意外观察的反应。为了实现这一目标,我们在重新规划之前提交扩散模型为固定持续时间产生的动作序列预测。具体来说,在时间步 t,policy 将观测数据 的最新
步作为输入并预测动作的
步,其中在机器人上执行
步而无需重新规划。在这里,我们将
定义为观察范围observation horizon,
定义为动作预测范围,