模仿学习数据缺失？试试Diffusion Policy！-CSDN博客

点击下方卡片，关注“具身智能之心”公众号

更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球(戳我)，这里包含所有你想要的。

模仿学习是教机器人灵巧技能的有效方式，视觉模仿学习因采用图像或深度图等高维视觉观察，简化了特定任务状态估计需求而受到青睐。但视觉模仿学习的普遍性以大量演示为代价，如最先进的扩散策略方法，每个现实世界任务需要 100 - 200 次人类收集的演示，数据收集过程耗时且易失败。

虽然在线学习可作为一种解决方案，但在现实场景中存在安全、自动重置、人为干预和硬件成本等问题。因此，如何让离线模仿学习算法用尽可能少的演示学习强大且可泛化的技能，成为实际机器人学习中的一个关键问题，这也促使了diffusion policy 的诞生。

Diffusion policy（扩散策略）是一种基于扩散模型的机器人策略学习方法，将策略学习定义为对机器人动作空间的条件去噪扩散过程，以 2D 观测特征为条件。其核心是通过正向扩散过程，从专家机器人轨迹开始，逐渐添加高斯噪声，直至信号近似为纯噪声；然后通过反向的去噪过程，将噪声转换为符合专家数据分布的轨迹，以此作为模型的训练信号。在训练时，通过最小化预测的去噪轨迹与原始干净轨迹之间的差异来优化模型。这种方法能够处理多模态动作分布，并直接预测长序列动作，但在生成动力学可行的机器人轨迹方面存在挑战，尤其是在欠驱动机器人系统中，容易生成不可行的状态序列。

Diffusion policy 通常以 2D 观测特征为条件进行策略学习，在处理机器人动力学可行性和多模态动作分布时存在一定局限性。而 3D diffusion policy 则将条件输入扩展到 3D 视觉表示，能够更好地利用场景的三维结构信息，提升策略的泛化能力，更有效地处理复杂的机器人操作任务，如在不同的模拟和现实场景中，3D diffusion policy 可以凭借其对 3D 信息的处理能力，让机器人更好地完成任务，且所需演示次数更少，成功率更高。

今天具身智能之心总结了几篇关于Diffusion policy的论文：DDAT 模型引入生成动态可行机器人轨迹的扩散策略，通过投影方案让扩散模型生成的轨迹满足动力学约束，设计多种投影方法并将其融入训练和推理过程。ScaleDP 模型针对扩散策略在transformer架构中难以扩展的问题，提出可扩展的扩散transformer策略，通过引入因式分解观测特征嵌入的自适应层归一化（AdaLN）块和非因果注意力机制，改善训练动态以更好处理多模态动作分布。DP3 包含感知和决策两部分，感知部分处理点云数据为紧凑 3D 表示，决策部分以 3D 视觉特征和机器人姿态为条件转化随机噪声为连贯动作序列。改进后的 iDP3 模型框架采用以自我为中心的 3D 视觉表示，避免相机校准和点云分割问题，放大视觉输入增加采样点数量，用金字塔卷积编码器取代 MLP 视觉编码器提高准确性，延长预测范围缓解短预测范围受人类专家抖动和噪声传感器影响的问题，能更好地从人类演示中学习。ManiCM 模型提出实时 3D 扩散策略，把一致性约束应用于扩散过程，实现一步推理生成机器人动作，还设计操纵一致性蒸馏技术，直接预测动作样本，加快收敛且避免传统扩散模型预测噪声的不稳定问题。

一起看看吧~

DDAT：用于生成动态可行机器人轨迹的扩散策略

扩散模型凭借其多模态生成能力，在图像和视频生成领域取得了显著成果，在机器人研究中也备受关注，被广泛用于生成机器人运动轨迹。然而，其随机性质与机器人精确的动力学方程存在冲突，难以生成动力学上可行的轨迹，这一问题限制了扩散规划在欠驱动机器人系统中的应用。传统解决方法，如每几步重新生成轨迹或在推理后进行投影，都存在计算成本高、易发散等问题。因此，如何利用扩散模型生成满足机器人动力学约束的可行轨迹成为亟待解决的问题，这也是本文研究的出发点。

文章提出的 DDAT 模型架构旨在解决上述问题，将机器人动力学视为黑箱，通过从示例轨迹数据集中学习，利用正向扩散过程添加噪声，再训练神经网络反向去噪来生成轨迹。为确保生成轨迹的动力学可行性，采用了多种投影方案。如通过凸多面体对可达集进行下近似，将预测的下一状态投影到近似可达集上；引入参考投影，结合参考轨迹减少投影误差；利用动作预测来优化状态投影，缩小投影搜索空间；还设计了基于动作预测的直接获得可行状态的投影方法，并通过反馈校正提升效果。在训练过程中，根据噪声水平设计投影课程，将投影融入训练和推理阶段，使模型更好地学习生成符合动力学约束的轨迹。

ScaleDP：将 Transformer 中的扩散策略扩展至十亿参数以用于机器人操作

扩散模型在图像、音频、视频和 3D 生成等众多领域取得了显著进展，在机器人学领域也作为模仿学习策略受到广泛关注，被应用于强化学习、奖励学习、抓取和运动规划等多个方面。在机器人操作任务中，研究人员期望模型具备可扩展性，即随着模型规模和训练数据的增加，性能和泛化能力能相应提升，就像语言建模和计算机视觉领域的大型模型那样。然而，现有基于 Transformer 架构的扩散策略（DP-T）在可扩展性方面存在问题，增加模型层数或头数并不能提升性能，甚至会导致训练结果恶化。经研究发现，这是由于观测融合模块中的大梯度问题导致训练不稳定。为解决该问题，文章提出了可扩展的扩散 Transformer 策略（ScaleDP）。

ScaleDP 模型架构主要包含对神经架构的修改，具体有交叉注意力块、自适应层归一化（AdaLN）块和非因果注意力机制这几个关键部分。在交叉注意力块方面，传统方法在增加 DP-T 深度时会使梯度幅度变大，不利于训练，而 ScaleDP 通过改进结构来优化这一情况。自适应层归一化（AdaLN）块借鉴了图像生成中自适应归一化层的应用，通过从时间步 k 和观测 o 的嵌入向量之和回归尺度和偏移参数，让模型能根据条件改变噪声动作嵌入的分布，实现更稳定的训练和更好的推理性能。非因果注意力机制则是去除了传统 Transformer 架构中自注意力层的掩码，使每个动作能与前后动作更一致，解决了单向注意力机制隐藏动作表示的问题。通过这些改进，ScaleDP 能够有效扩大模型规模，从 1000 万参数扩展到 10 亿参数，在模拟实验和真实机器人实验中均表现出比基线模型更好的性能和泛化能力。

3D Diffusion Policy：通过简单的3D表示进行可推广的视觉运动策略学习

3D Diffusion Policy（DP3）是一种新颖的视觉模仿学习算法，旨在解决机器人通过少量演示学习复杂技能的难题，它将3D视觉表示与扩散策略相结合，在多种模拟和现实任务中展现出高效性、泛化性和安全性。

3D Diffusion Policy由感知和决策两个关键部分组成。感知部分利用单目相机获取点云数据，将其处理为紧凑的3D表示；决策部分以3D视觉特征和机器人姿态为条件，通过扩散策略将随机噪声转化为连贯的动作序列。

感知模块：使用稀疏点云表示3D场景，通过裁剪和下采样处理点云数据，再用轻量级MLP网络（DP3 Encoder）将点云编码为64维的紧凑3D特征，该编码器结构简单却性能优异，优于多种复杂的预训练点编码器。

决策模块：基于条件去噪扩散模型构建，以3D视觉特征和机器人姿态为条件，从高斯噪声开始，通过去噪网络进行K次迭代，逐步将随机噪声转化为无噪声的动作。训练时，通过最小化预测噪声与真实噪声之间的均方误差来优化去噪网络。

基于 3D 扩散策略的通用人形机器人操作技术

3D Diffusion Policy（DP3）是一种将 3D 视觉表示与扩散策略相结合的视觉模仿学习算法，旨在让机器人通过少量演示学习复杂技能，并实现泛化。在此研究中，作者对其进行改进，提出了 Improved 3D Diffusion Policy（iDP3），以适应人形机器人的操作。

原始 DP3 模型框架的感知模块用稀疏点云表示 3D 场景，通过裁剪和下采样处理点云数据，再用轻量级 MLP 网络（DP3 Encoder）将点云编码为 64 维的紧凑 3D 特征，该编码器结构简单却性能优异，优于多种复杂的预训练点编码器。决策模块基于条件去噪扩散模型构建，以 3D 视觉特征和机器人姿态为条件，从高斯噪声开始，通过去噪网络进行 K 次迭代，逐步将随机噪声转化为无噪声的动作，训练时通过最小化预测噪声与真实噪声之间的均方误差来优化去噪网络。改进后的 iDP3 模型框架采用以自我为中心的 3D 视觉表示，直接使用相机坐标系下的 3D 表示，避免了相机校准和点云分割的问题。同时通过放大视觉输入，显著增加采样点数量来捕获整个场景，减少无关点云的影响。iDP3 还用金字塔卷积编码器取代了 DP3 中的 MLP 视觉编码器，卷积层结合金字塔特征提高了准确性。此外，iDP3 延长了预测范围，有效缓解了 DP3 在短预测范围内受人类专家抖动和噪声传感器影响的问题，使模型能更好地从人类演示中学习。

ManiCM：基于一致性模型的实时 3D 扩散策略用于机器人操作

在机器人研究领域，设计能够执行多样化操作任务的机器人一直是重要目标。随着技术发展，卷积网络、transformers 和扩散模型等多种架构被用于探索机器人操作，其中扩散模型凭借其在生成复杂高维机器人轨迹方面的能力，在机器人操作任务中受到越来越多关注，被广泛应用于高层次规划、低层次运动策略、教师模型和数据合成等领域。然而，扩散模型在推理阶段需要大量采样步骤来生成高质量动作，导致决策效率低下，尤其是在处理高维 3D 视觉输入时，这一问题严重阻碍了其在实时闭环控制中的应用。尽管有研究尝试通过分层采样等方法加速推理，但确定不同任务领域的分层结构存在困难，限制了这些方法在 3D 机器人操作中的实用性。

文章提出的 ManiCM 模型架构旨在解决扩散模型在 3D 机器人操作中决策效率低的问题。该模型以强大的 3D 扩散策略（DP3）为基础，通过一致性蒸馏技术将其知识提炼到单步采样器中，实现实时推理。在训练阶段，ManiCM 通过设计操纵一致性函数直接预测动作样本，而非像传统图像生成那样预测噪声，这使得模型能更快收敛到低维机器人动作流形。同时，采用一致性蒸馏方法，利用教师网络和目标网络确保动作能从 ODE 轨迹上的任意点直接去噪，通过最小化在线网络和目标网络输出的差异来优化模型。在评估阶段，ManiCM 能够在一步推理中解码高质量动作。此外，模型将点云表示作为条件注入扩散策略，通过下采样和 MLP 编码获取紧凑 3D 表示，使模型能够捕捉空间信息，更好地处理精细的机器人操作任务。

上述研究成果都很好地解决了模仿学习数据缺失，借助 Diffusion policy 强大的生成能力，通过生成符合动力学约束的轨迹（如 DDAT 模型）、优化架构以更好处理多模态动作分布（如 ScaleDP 模型）、将随机噪声转化为连贯动作序列（如 DP3 及 iDP3 模型）以及实现一步推理生成动作（如 ManiCM 模型）等方式，为模仿学习提供了丰富且有效的数据补充与处理路径，极大地缓解了因数据不足给模仿学习带来的困境。