【论文阅读】DiSPo: Diffusion-SSM based Policy Learning for Coarse-to-Fine Action Discretization

本文链接：https://blog.csdn.net/qq_33673253/article/details/142638051

Abstract

我们的目标是解决从演示中生成粗到细技能学习（lfd）的问题。为了提高精度，传统的lfd方法通常依赖于具有外部插值的广泛细粒度演示或泛化能力有限的动力学模型。为了实现高效记忆学习和方便的粒度 granularity 更改，我们提出了一种基于扩散ssm的policy（dispo），它从各种粗略技能中学习，并通过利用状态空间模型mamba产生不同的动作控制尺度。我们的评估表明，采用mamba和提出的步长缩放方法使dispo在五个从粗到细的基准测试中表现优异，而dispo则在典型的细粒度运动学习和再现中表现良好。我们最终通过模拟和实际操作任务证明了动作的可扩展性。

I. INTRODUCTION

在典型的对象操作中，局部区域周围的小不精确性通常会导致整个任务的失败，如机器人焊接、拧紧和绘图，如图1所示。虽然人类会根据环境限制自然调整动作的速度和精确性，但传统的模仿技能policies，如行为克隆[1]或机器人transformer[2]，只复制了演示中观察到的动作时间间隔。或者，传统方法通常通过在运动学[3]或动态约束[4]下插值路径来估计不可预见时间点的状态。然而，外部适应仍然存在不精确性问题，没有纳入相关任务的先验任务知识。

在此背景下，我们的目标是通过从演示中学习模仿policies来解决coarse-to-fine操纵的问题。为了操纵精度和纠正错误的动作，研究人员引入了多个模仿policies，每个都用不同分辨率的演示训练[5]。或者，基于强化学习（rl）的算法在选定的时间间隔内加入额外的放大探索，以优化动作[6]。虽然有效，但这些方法需要大量的演示或探索，从而增加了存储和计算的复杂性，同时限制了它们在类似场景中的可扩展性。因此，我们需要一种提供可变控制规模选项的通用模仿学习方法。

具有可变控制率的代表性模仿学习方法是动态运动基元（dmp）[7]，它是一个具有非线性扰动的线性动力学系统，用于模仿。通过调整时间步长的持续时间，dmp允许不同的动作，但由于其动力学模型的简单性，它们的编码能力受到严重限制，难以对不同的技能进行编码。或者，最近的transformer-based架构，如行为transformer[8]和Diffusion Policy[9]，显示了在大量数据集中学习各种演示的能力[10]。然而，它们的自注意机制降低了计算效率，增加了内存需求。此外，这些方法通常假定预定义的速率控制策略作为rl方法。状态空间模型(ssm)最近作为transformer架构的替代品出现[2]，采用连续时间动态系统的循环表示。选择性地压缩表示，mamba[11]显示了高效的内存和强大的编码能力。除此之外，我们特别关注ssm的离散化以产生多尺度控制的潜力。

我们提出了一种新的基于扩散ssm的policy (dispo)，它允许基于学习的coarse-to-fine动作离散化。该算法从粗糙的演示中学习policy，并返回不同分辨率的动作。我们特别采用mamba来有效地编码一系列观察和动作，同时在diffusion policy之上调节动作步长。我们证明了我们提出的方法，dispo，能够从固定速率的粗演示中产生不同规模的行为学习。据我们所知，这是第一次尝试调制mamba的离散模型以进行细粒度操作。我们统计评估了dispo和四种基线方法，隐式行为克隆[12]、扩散策略- c、扩散策略- t[9]和mail[13]，在三个需要精细操作任务的模拟环境中。评估结果表明，在dispo中，步长调制可以产生更精细的运动，具有类似专家的行为。

我们的贡献点如下：

本文介绍了一种利用mamba实现coarse-to-fine动作离散化的新型演示学习算法。
我们提出了一个特征正则化损失，旨在形成一个平滑的特征空间，使各种粗糙演示的数据高效编码成为可能。
我们对最先进的视觉运动policy学习方法进行了基准评估，并在现实世界的操作场景中证明了我们的方法的有效性。

II. RELATED WORK

我们回顾了与我们的贡献相关的研究，并将其分解为各个领域。

Learning from demonstration (LfD).

lfd是从一组示例行为中学习状态-动作映射(即policy)的方法学领域[14]。传统的方法，如dmp，主要关注于编码和重现特定任务的演示轨迹。随着神经网络技术的进步，transformer[2]架构实现了多模态输入的多种技能编码[15]，[16]，[17]，[18]。为了便于多模态连续动作预测，研究人员开发了基于分类的行为transformer[8]、[19]和基于扩散的行为policy[20]、[9]、[21]、[22]。diffusion policy是一种代表性的扩散模型，它采用卷积神经网络或transformer主干来预测动作序列[9]。在本文中，我们将这些方法作为state-of-the-art基准方法进行基准测试。

State-space models (SSM).

传统的状态空间模型是用状态变量来表示动态系统的。Gu等人在深度学习中采用该模型，引入了记忆连续时间信号的深度ssm[23]，然后引入了S4架构[24]，显示了对长序列的快速推理和线性可扩展性。作为最近的一种变体，Mamba包括一种数据选择机制，通过学习输入相关参数来增加模型的适应性[11]，[25]。Liu等人将曼巴语言模型与视觉编码器集成在一起，构建了机器人中的端到端推理和操作模型[26]。然而，尽管Mamba模型具有内存效率和可并行化的建模能力，但在机器人技术中并没有得到太多的研究。在本文中，我们不仅采用了建模能力，而且采用了基于动态系统的调制 modulation。

Diffusion Models with SSMs.

最近的研究将扩散模型与ssm集成在一起，以解决多个领域的问题，包括时间序列数据[27]、[28]、视觉[29]、[30]和运动生成[31]。Jia等人[13]在机器人领域应用了带有SSM主干的扩散模型，生成了以观察为条件的动作轨迹。然而，这项研究的重点是提高现有方法解决的一般运动的性能。相比之下，我们的工作使用ssm的离散化特征来生成细粒度运动，而无需额外的训练。

Coarse-to-Fine Strategy in Robot Learning.

以往的研究采用coarse-to-fine策略来调整观察和行动空间的粒度[32]，[33]。在观测空间方面，研究人员向关键部分迭代放大，处理点云等大输入[32]、[34]，或者将全局粗观测与局部细粒度观测相结合，生成精细运动[35]。在动作空间中，研究人员根据其精度要求对动作进行分离，使用基于模型的方法，如目标姿态估计[5]，[33]或基于航路点的控制[36]来处理粗粒度运动，使用神经网络方法来处理细粒度运动。然而，这些方法很难有效地对中间粒度进行建模。另一方面，一些研究人员使用启发式[17]或动态规划算法[37]重新采样演示轨迹。我们的工作不需要额外的模型来表示粒度，从而能够有效地表示不同的运动，并促进