本文仅是个人对该文章的阅读总结,并不能全篇概括作者的精华,还需大家详细阅读原文
---------------------------------------------------------------------------------------------------------------------------------
摘要
问题:模仿学习为教授机器人灵巧技能提供了一种高效途径,但是学习复杂的、具有普适性的技能通常需要大量的人类示范
解决:3D扩散策略(DP3)将3D视觉表示的强大之处融入到扩散策略中,这是一类有条件的动作生成模型。
核心:利用高效的点编码器从稀疏点云中提取紧凑的3D视觉表示。
取得成果:
(1)在涉及 72 个模拟任务的实验中,DP3仅使用 10 个示范就成功处理了大多数任务,并且相对于基线方法取得了 55.3% 的相对改进。
(2)在 4 个真实机器人任务中,DP3仅使用每个任务 40 个示范就展示了精确控制,成功率高达 85%,并且在空间、视点、外观和实例等多个方面展现了出色的泛化能力。
(3)DP3很少违反安全要求。
方法
问题定义:
视觉运动策略 π : O → A
视觉观察 o ∈ O
动作 a ∈ A
DP3组成:
(1)Perception:DP3利用点云数据感知环境,并利用高效的点编码器将这些视觉观测结果处理成视觉特征;
(2)Decision:DP3利用了expressive Diffusion Policy 作为动作生成的支干,该策略根据我们的3D视觉特征生成动作序列。
A Motivating Example
证明DP3的泛化能力:
目标:让手持器准确的到达指定目标点
为了评估模仿学习算法不仅适应训练数据的有效性,还要泛化到新场景的能力,在3D空间中可视化了•训练点和•成功评估点
仅用五个训练点,DP3就能到达分布在3D空间中的点,展示了DP3在数据有限的情况下的优越泛化能力和效率。