点击下方卡片,关注“具身智能之心”公众号
更多干货,欢迎加入国内首个具身智能全栈学习社区:具身智能之心知识星球(戳我),这里包含所有你想要的。
模仿学习是教机器人灵巧技能的有效方式,视觉模仿学习因采用图像或深度图等高维视觉观察,简化了特定任务状态估计需求而受到青睐。但视觉模仿学习的普遍性以大量演示为代价,如最先进的扩散策略方法,每个现实世界任务需要 100 - 200 次人类收集的演示,数据收集过程耗时且易失败。

虽然在线学习可作为一种解决方案,但在现实场景中存在安全、自动重置、人为干预和硬件成本等问题。因此,如何让离线模仿学习算法用尽可能少的演示学习强大且可泛化的技能,成为实际机器人学习中的一个关键问题,这也促使了diffusion policy 的诞生。

Diffusion policy(扩散策略)是一种基于扩散模型的机器人策略学习方法,将策略学习定义为对机器人动作空间的条件去噪扩散过程,以 2D 观测特征为条件 。其核心是通过正向扩散过程,从专家机器人轨迹开始,逐渐添加高斯噪声,直至信号近似为纯噪声;然后通过反向的去噪过程,将噪声转换为符合专家数据分布的轨迹,以此作为模型的训练信号。在训练时,通过最小化预测的去噪轨迹与原始干净轨迹之间的差异来优化模型。这种方法能够处理多模态动作分布,并直接预测长序列动作,但在生成动力学可行的机器人轨迹方面存在挑战,尤其是在欠驱动机器人系统中,容易生成不可行的状态序列。
Diffusion policy 通常以 2D 观测特征为条件进行策略学习,在处理机器人动力学可行性和多模态动作分布时存在一定局限性 。而 3D diffusion policy 则将条件输入扩展到 3D 视觉表示,能够更好地利用场景的三维结构信息,提升策略的泛化能力,更有效地处理复杂的机器人操作任务,如在不同的模拟和现实场景中,3D diffusion policy 可以凭借其对 3D 信息的处理能力,让机器人更好地完成任务,且所需演示次数更少,成功率更高。
今天具身智能之心总结了几篇关于Diffusion policy的论文:DDAT 模型引入生成动态可行机器人轨迹的扩散策略,通过投影方案让扩散模型生成的轨迹满足动力学约束,设计多种投影方法并将其融入训练和推理过程。ScaleDP 模型针对扩散策略在transformer架构中难以扩展的问题,提出可扩展的扩散transformer策略,通过引入因式分解观测特征嵌入的自适应层归一化(AdaLN)块和非因果注意力机制,改善训练动态以更好处理多模态动作分布。DP3 包含感知和决策两部分,感知部分处理点云数据为紧凑 3D 表示,决策部分以 3D 视觉特征和机器人姿态为条件转化随机噪声为连贯动作序列。改进后的 iDP3 模型框架采用以自我为中心的 3D 视觉表示,避免相机校准和点云分割问题,放大视觉输入增加采样点数量,用金字塔卷积编码器取代 MLP 视觉编码器提高准确性,延长预测范围缓解短预测范围受人类专家抖动和噪声传感器影响的问题,能更好地从人类演示中学习。ManiCM 模型提出实时 3D 扩散策略,把一致性约束应用于扩散过程,实现一步推理生成机器人动作,还设计操纵一致性蒸馏技术,直接预测动作样本,加快收敛且避免传统扩散模型预测噪声的不稳定问题。
一起看看吧~
DDAT:用于生成动态可行机器人轨迹的扩散策略
扩散模型凭借其多模态生成能力,在图像和视频生成领域取得了显著成果,在机器人研究中也备受关注,被广泛用于生成机器人运动轨迹。然而,其随机性质与机器人精确的动力学方程存在冲突,难以生成动力学上可行的轨迹,这一问题限制了扩散规划在欠驱动机器人系统中的应用。传统解决方法,如每几步重新生成轨迹或在推理后进行投影,都存在计算成本高、易发散等问题。因此,如何利用扩散模型生成满足机器人动力学约束的可行轨迹成为亟待解决的问题,这也是本文研究的出发点。
文章提出的 DDAT 模型架构旨在解决上述问题,将机器人动力学视为黑箱,通过从示例轨迹数据集中学习,利用正向扩散过程添加噪声,再训练神经网络反向去噪来生成轨迹。为确保生成轨迹的动力学可行性,采用了多种投影方案。如通过凸多面体对可达集进行下近似,将预测的下一状态投影到近似可达集上;引入参考投影,结合参考轨迹减少投影误差;利用动作预测来优化状态投影,缩小投影搜索空间;还设计了基于动作预测的直接获得可行状态的投影方法,并通过反馈校正提升效果 。在训练过程中,根据噪声水平设计投影课程,将投影融入训练和推理阶段,使模型更好地学习生成符合动力学约束的轨迹。

ScaleDP:将 Transformer 中的扩散策略扩展至十亿参数以用于机器人操作
扩散模型在图像、音频、视频和 3D 生成等众多领域取得了显著进展,在机器人学领域也作为模仿学习策略受到广泛关注,被应用于强化学习、奖励学习、抓取和运动规划等多个方面。在机器人操作任务中,研究人员期望模型具备可扩展性,即随着模型规模和训练数据的增加,性能和泛化能力能相应提升,就像语言建模和计算机视觉领域的大型模型那样。然而,现有基于 Transformer 架构的扩散策略(DP-T)在可扩展性方面存在问题,增加模型层数或头数并不能提升性能,甚至会导致训练结果恶化。经研究发现,这是由于观测融合模块中的大梯度问题导致训练不稳定。为解决该问题,文章提出了可扩展的扩散 Transformer 策略(ScaleDP) 。
ScaleDP 模型架构主要包含对神经架构的修改,具体有交叉注意力块、自适应层归一化(AdaLN)块和非因果注意力机制这几个关键部分。在交叉注意力块方面,传统方法在增加 DP-T 深度时会使梯度幅度变大,不利于训练,而 ScaleDP 通过改进结构来优化这一情况。自适应层归一化(AdaLN)块借鉴了图像生成中自适应归一化层的应用,通过从时间步 k 和观测 o 的嵌入向量之和回归尺度和偏移参数,让模型能根据条件改变噪声动作嵌入的分布,实现更稳定的训练和更好的推理性能。非因果注意力机制则是去除了传统 Transformer 架构中自注意力层的掩码,使每个动作能与前后动作更一致,解决了单向注意力机制隐藏动作表示的问题。通过这些改进,ScaleDP 能够有效扩大模型规模,从 1000 万参数扩展到 10 亿参数,在模拟实验和真实机器人实验中均表现出比基线模型更好的性能和泛化能力 。

3D Diffusion Policy:通过简单的3D表示进行可推广的视觉运动策略学习
3D Diffusion Policy(DP3)是一种新颖的视觉模仿学习算法,旨在解决机器人通过少量演示学习复杂技能的难题,它将3D视觉表示与扩散策略相结合,在多种模拟和现实任务中展现出高效性、泛化性和安全性。
3D Diffusion Policy由感知和决策两个关键部分组成。感知部分利用单目相机获取点云数据,将其处理为紧凑的3D表示;决策部分以3D视觉特征和机器人姿态为条件,通过扩散策略将随机噪声转化为连贯的动作序列。
感知模块:使用稀疏点云表示3D场景,通过裁剪和下采样处理点云数据,再用轻量级MLP网络(DP3 Encoder)将点云编码为64维的紧凑3D特征,该编码器结构简单却性能优异,优于多种复杂的预训练点编码器。
决策模块:基于条件去噪扩散模型构建,以3D视觉特征和机器人姿态为条件,从高斯噪声开始,通过去噪网络进行K次迭代,逐步将随机噪声转化为无噪声的动作。训练时,通过最小化预测噪声与真实噪声之间的均方误差来优化去噪网络。

基于 3D 扩散策略的通用人形机器人操作技术
3D Diffusion Policy(DP3)是一种将 3D 视觉表示与扩散策略相结合的视觉模仿学习算法,旨在让机器人通过少量演示学习复杂技能,并实现泛化。在此研究中,作者对其进行改进,提出了 Improved 3D Diffusion Policy(iDP3),以适应人形机器人的操作。
原始 DP3 模型框架的感知模块用稀疏点云表示 3D 场景,通过裁剪和下采样处理点云数据,再用轻量级 MLP 网络(DP3 Encoder)将点云编码为 64 维的紧凑 3D 特征,该编码器结构简单却性能优异,优于多种复杂的预训练点编码器。决策模块基于条件去噪扩散模型构建,以 3D 视觉特征和机器人姿态为条件,从高斯噪声开始,通过去噪网络进行 K 次迭代,逐步将随机噪声转化为无噪声的动作,训练时通过最小化预测噪声与真实噪声之间的均方误差来优化去噪网络。改进后的 iDP3 模型框架采用以自我为中心的 3D 视觉表示,直接使用相机坐标系下的 3D 表示,避免了相机校准和点云分割的问题。同时通过放大视觉输入,显著增加采样点数量来捕获整个场景,减少无关点云的影响。iDP3 还用金字塔卷积编码器取代了 DP3 中的 MLP 视觉编码器,卷积层结合金字塔特征提高了准确性。此外,iDP3 延长了预测范围,有效缓解了 DP3 在短预测范围内受人类专家抖动和噪声传感器影响的问题,使模型能更好地从人类演示中学习。


ManiCM:基于一致性模型的实时 3D 扩散策略用于机器人操作
在机器人研究领域,设计能够执行多样化操作任务的机器人一直是重要目标。随着技术发展,卷积网络、transformers 和扩散模型等多种架构被用于探索机器人操作,其中扩散模型凭借其在生成复杂高维机器人轨迹方面的能力,在机器人操作任务中受到越来越多关注,被广泛应用于高层次规划、低层次运动策略、教师模型和数据合成等领域。然而,扩散模型在推理阶段需要大量采样步骤来生成高质量动作,导致决策效率低下,尤其是在处理高维 3D 视觉输入时,这一问题严重阻碍了其在实时闭环控制中的应用。尽管有研究尝试通过分层采样等方法加速推理,但确定不同任务领域的分层结构存在困难,限制了这些方法在 3D 机器人操作中的实用性。
文章提出的 ManiCM 模型架构旨在解决扩散模型在 3D 机器人操作中决策效率低的问题。该模型以强大的 3D 扩散策略(DP3)为基础,通过一致性蒸馏技术将其知识提炼到单步采样器中,实现实时推理。在训练阶段,ManiCM 通过设计操纵一致性函数直接预测动作样本,而非像传统图像生成那样预测噪声,这使得模型能更快收敛到低维机器人动作流形。同时,采用一致性蒸馏方法,利用教师网络和目标网络确保动作能从 ODE 轨迹上的任意点直接去噪,通过最小化在线网络和目标网络输出的差异来优化模型。在评估阶段,ManiCM 能够在一步推理中解码高质量动作。此外,模型将点云表示作为条件注入扩散策略,通过下采样和 MLP 编码获取紧凑 3D 表示,使模型能够捕捉空间信息,更好地处理精细的机器人操作任务 。

上述研究成果都很好地解决了模仿学习数据缺失,借助 Diffusion policy 强大的生成能力,通过生成符合动力学约束的轨迹(如 DDAT 模型)、优化架构以更好处理多模态动作分布(如 ScaleDP 模型)、将随机噪声转化为连贯动作序列(如 DP3 及 iDP3 模型)以及实现一步推理生成动作(如 ManiCM 模型)等方式,为模仿学习提供了丰富且有效的数据补充与处理路径,极大地缓解了因数据不足给模仿学习带来的困境。
参考文献
DDAT: Diffusion Policies Enforcing Dynamically Admissible Robot Trajectories, https://arxiv.org/pdf/2502.15043
Scaling Diffusion Policy in Transformer to 1 Billion Parameters for Robotic Manipulation, https://arxiv.org/pdf/2409.14411
3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations, https://arxiv.org/pdf/2403.03954
Generalizable Humanoid Manipulation with 3D Diffusion Policies, https://arxiv.org/pdf/2410.10803
ManiCM: Real-time 3D Diffusion Policy via Consistency Model for Robotic Manipulation, https://arxiv.org/pdf/2406.01586
往期 · 推荐
机械臂操作
UC伯克利&NVIDIA最新!AutoEval:真实世界中通用机器人操作策略评估系统
港大最新!RoboTwin:结合现实与合成数据的双臂机器人基准
伯克利最新!CrossFormer:一个模型同时控制单臂/双臂/轮式/四足等多类机器人
四足或人形机器人
Fourier ActionNet:傅利叶开源全尺寸人形机器人数据集&发布全球首个全流程工具链
斯坦福大学 | ToddlerBot:到真实世界的零样本迁移,低成本、开源的人形机器人平台
TeleAI&港科大最新!离线学习+在线对齐,扩散模型驱动的四足机器人运动
Robust Robot Walker:跨越微小陷阱,行动更加稳健!
斯坦福大学最新!Helpful DoggyBot:四足机器人和VLM在开放世界中取回任意物体
机器人学习
强化学习迁移到视觉定位!Vision-R1将图文大模型性能提升50%
视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源
UC伯克利最新!Beyond Sight: 零样本微调异构传感器的通用机器人策略
CoRL 2024 | 通过语言优化实现策略适应:实现少样本模仿学习
NeurIPS 2024 | BAKU:一种高效的多任务Policy学习Transformer
人形机器人专场!有LLM加持能有多厉害?看HYPERmotion显身手
NeurIPS 2024 | 大规模无动作视频学习可执行的离散扩散策略
波士顿动力最新!可泛化的扩散策略:能有效操控不同几何形状、尺寸和物理特性的物体
RSS 2024 | OK-Robot:在机器人领域集成开放知识模型时,真正重要的是什么?
MIT最新!还在用URDF?URDF+:一种针对机器人的具有运动环路的增强型URDF
VisionPAD:3DGS预训练新范式!三大感知任务全部暴力涨点
NeurIPS 2024 | VLMimic:5个人类视频,无需额外学习就能提升泛化性?
纽约大学最新!SeeDo:通过视觉语言模型将人类演示视频转化为机器人行动计划
CMU最新!SplatSim: 基于3DGS的RGB操作策略零样本Sim2Real迁移
LLM最大能力密度100天翻一倍!清华刘知远团队提出Densing Law
机器人干活总有意外?Code-as-Monitor 轻松在开放世界实时精确检测错误,确保没意外
斯坦福大学最新!具身智能接口:具身决策中语言大模型的基准测试
机器人控制
RoboMatrix:一种以技能为中心的机器人任务规划与执行的可扩展层级框架
港大DexDiffuser揭秘!机器人能拥有像人类一样灵巧的手吗?
TPAMI 2024 | OoD-Control:泛化未见环境中的鲁棒控制(一览无人机上的效果)
VLA
CVPR2025 | MoManipVLA:通用移动操作VLA策略迁移,显著提升效率与泛化
上海AI Lab最新!Dita:扩展Diffusion Transformer以实现通用视觉-语言-动作策略
北大最新 | RoboMamba:端到端VLA模型!推理速度提升3倍,仅需调整0.1%的参数
英伟达最新!NaVILA: 用于导航的足式机器人视觉-语言-动作模型
优于现有SOTA!PointVLA:如何将3D数据融入VLA模型?
北京大学最新!HybridVLA:打通协同训练,各种任务中均SOTA~
北京大学最新 | 成功率极高!DexGraspVLA:首个用于灵巧抓取的分层VLA框架
ICLR'25 | VLAS:将语音集成到模型中,新颖的端到端VLA模型(西湖大学&浙大)
清华大学最新!UniAct:消除异质性,跨域跨具身泛化,性能超越14倍参数量的OpenVLA
简单灵活,便于部署 | Diffusion-VLA:通过统一扩散与自回归方法扩展机器人基础模型
其他(抓取,VLN等)
ICLR 2025 | TeleAI提出过程引导的大模型具身推理框架
铰链物体的通用世界模型,超越扩散方法,入选CVPR 2025
中山大学&鹏城实验室 | 面向主动探索的可信具身问答:数据基准,方法与指标
Uni-3DAR:统一3D世界,性能超扩散模型256%,推理快21.8倍
TPAMI2025 | NavCoT:中山大学具身导航参数高效训练!
CVPR2025 | 长程VLN平台与数据集:迈向复杂环境中的智能机器人
CVPR2025满分作文!TSP3D:高效3D视觉定位,性能和推理速度均SOTA(清华大学)
模拟和真实环境SOTA!MapNav:基于VLM的端到端VLN模型,赋能端到端智能体决策
场面混乱听不清指令怎么执行任务?实体灵巧抓取系统EDGS指出了一条明路
北京大学与智元机器人联合实验室发布OmniManip:显著提升机器人3D操作能力
动态 3D 场景理解要理解什么?Embodied VideoAgent来揭秘!
NeurIPS 2024 | HA-VLN:具备人类感知能力的具身导航智能体
博世最新!Depth Any Camera:任意相机的零样本度量深度估计
真机数据白采了?银河通用具身大模型已充分泛化,基于仿真数据!
港科大最新!GaussianProperty:无需训练,VLM+3DGS完成零样本物体材质重建与抓取
VinT-6D:用于机器人手部操作的大规模多模态6D姿态估计数据集
机器人有触觉吗?中科大《NSR》柔性光栅结构色触觉感知揭秘!
波士顿动力最新SOTA!ThinkGrasp:通过GPT-4o完成杂乱环境中的抓取工作
LLM+Zero-shot!基于场景图的零样本物体目标导航(清华大学博士分享)
PoliFormer: 使用Transformer扩展On-Policy强化学习,卓越的导航器
具身硬核梳理
一文贯通Diffusion原理:DDPM、DDIM和Flow Matching
Diffusion Policy在机器人操作任务上有哪些主流的方法?
强化学习中 Sim-to-Real 方法综述:基础模型的进展、前景和挑战
墨尔本&湖南大学 | 具身智能在三维理解中的应用:三维场景问答最新综述
十五校联合出品!人形机器人运动与操控:控制、规划与学习的最新突破与挑战
扩散模型也能推理时Scaling,谢赛宁团队研究可能带来文生图新范式
全面梳理视觉语言模型对齐方法:对比学习、自回归、注意力机制、强化学习等
基础模型如何更好应用在具身智能中?美的集团最新研究成果揭秘!
关于具身智能Vision-Language-Action的一些思考
具身仿真×自动驾驶
视频模型For具身智能:Video Prediction Policy论文思考分析
性能爆拉30%!DreamDrive:时空一致下的生成重建大一统
真机数据白采了?银河通用具身大模型已充分泛化,基于仿真数据!
高度逼真3D场景!UNREALZOO:扩展具身智能的高真实感虚拟世界
MMLab最新FreeSim:一种用于自动驾驶的相机仿真方法
麻省理工学院!GENSIM: 通过大型语言模型生成机器人仿真任务
EmbodiedCity:清华发布首个真实开放环境具身智能平台与测试集!
华盛顿大学 | Manipulate-Anything:操控一切! 使用VLM实现真实世界机器人自动化
东京大学最新!CoVLA:用于自动驾驶的综合视觉-语言-动作数据集