RVT-2: Learning Precise Manipulation from Few Demonstrations

Ming__chen

于 2024-08-16 10:38:34 发布

阅读量112

点赞数 4

分类专栏：具身智能文章文章标签：人工智能深度学习机器学习

本文链接：https://blog.csdn.net/s_m_c/article/details/141253235

版权

具身智能文章专栏收录该内容

21 篇文章 0 订阅

订阅专栏

是对上一篇RVT 的改进。

发表时间：12 Jun 2024

作者单位：NVIDIA

Motivation：为了在工业和家庭领域很有用，这样的系统应该能够用很少的演示来学习新任务，并精确地解决它们。先前的工作，如PerAct[40]和RVT[17]，已经研究了这个问题，但是，它们通常难以处理需要高精度的任务。

解决方法：我们研究了如何使它们更有效、准确和快速。使用架构和系统级改进的组合，我们提出了 RVT-2，这是一种多任务 3D 操作模型，在训练中快 6 倍，推理速度比其前身 RVT 快 2 倍。with just 10 demonstrations

实现方式：我们的动机是思考什么防止 RVT 实现更高的性能的问题。经过仔细分析，我们发现RVT很难处理需要高精度的任务，如螺丝灯泡或插入钉子。在我们的分析中，我们还确定了几个改进来进一步提高系统的训练和推理速度。通过我们的架构和系统级的改进，我们能够提高RVT的速度和有效性。To the best of our knowledge, this is the first time a visionbased policy trained with a few examples has been tested to work on such high-precision tasks.

RVT-2 基于基于关键帧的操作范式。我们将这些改进分为两类：与神经网络变化相关的架构，以及与软件优化相关的系统相关架构。

Background：

Key-frame based manipulation：PerAct[40]和RVT[17]将语言目标与当前场景点云作为输入，并预测下一个关键帧姿态。然后将预测的姿态传递给运动规划器，该规划器生成朝向它的轨迹。当机器人到达预测的姿态时，该方法需要一个新的场景点云并预测后续的关键帧姿态。这个过程迭代，直到任务成功或达到预定义的步骤数。为了训练基于关键帧的行为克隆agent，我们假设可以访问样本数据集。每个样本包括语言目标、当前视觉观察和下一个关键帧姿势。我们可以通过定义指定关键帧姿势的规则从密集的机器人轨迹数据集中自动提取这样一个数据集。例如，当夹持器的状态在打开和关闭之间变化时，姿态是一个关键帧的姿态。

Robotic View Transformer (RVT)：RVT 呈现五个虚拟视图，包括顶部、正面、左侧、背面和右侧视图。RVT 表明，在机器人周围使用这些固定的虚拟视图，而不是原始输入相机视图，会导致更有效的性能。然后，这些虚拟图像被传递到多视图转换器模型，该模型联合推理所有视图。Transformer 模型为每个视图预测一个热图。然后将跨视图的热图分数反向投影到 3D 中，其中每个 3D 点接收分数，该分数是其 2D 投影接收的分数的平均值。热图分数最大的 3D 点代表预测的夹具位置。与热图一起，RVT从视图中提取一个全局特征，以预测夹持器的旋转和状态(打开或关闭)。

Architectural Changes: RVT → RVT-2：Multi-stage Design+Convex Upsampling+Parameter Rationalization+Location Conditioned Rotation+Fewer Virtual Views。

System-Related Changes: RVT → RVT-2：Point-Renderer+Improved training pipeline。

实验：RLBench，A Franka Panda robot with a parallel jaw gripper。

在插入任务过程中进行力反馈的微调，是一个令人兴奋的未来方向。

消融实验证明了各个组件的有效性。

结论：尽管我们使用的技术本身都不是新颖的，但我们的贡献在于有效地将它们结合起来，以在少样本 3D 操作中推进最先进的技术。

future work：

RVT-2，如RVT和PerAct，适用于它所训练的对象实例。将其扩展到unseen的对象实例将是令人兴奋的方向。
虽然在高精度任务上，RVT-2 仅使用单个 RGB-D 传感器实现了令人惊讶的成功，但由于插入位置错误较小，有时会失败。增强 RVT-2 使用力信息来调整细粒度的运动可能非常有趣。
如 RVT2 的开放抽屉任务所示，随着训练的进行，多任务优化可能会恶化某些任务的性能。开发一种防止这种情况的策略将非常有用。
最后，虽然 RVT-2 将多任务 3D 操作的整体性能提高了 17 个点，但该任务仍然远未通过 RVT2 解决，在模拟中的成功率为 82%，在现实世界中为 72%。

Aloha(ACT)和RVT-2的区别：

1. 给定语言输入，RVT-2 可以解决任务的不同变化，而 ACT 不以语言为输入，只能一次使用任务的一个变化进行训练。

2. RVT-2 做出基于关键点的预测，而 ACT 做出连续的联合状态预测。

3. RVT-2 将点云作为输入，而 ACT 与多视图图像一起工作。

Ming__chen

关注

4
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
RVT-2: Learning Precise Manipulation from Few Demonstrations

然后将跨视图的热图分数反向投影到 3D 中，其中每个 3D 点接收分数，该分数是其 2D 投影接收的分数的平均值。通过我们的架构和系统级的改进，我们能够提高RVT的速度和有效性。使用架构和系统级改进的组合，我们提出了 RVT-2，这是一种多任务 3D 操作模型，在训练中快 6 倍，推理速度比其前身 RVT 快 2 倍。最后，虽然 RVT-2 将多任务 3D 操作的整体性能提高了 17 个点，但该任务仍然远未通过 RVT2 解决，在模拟中的成功率为 82%，在现实世界中为 72%。是对上一篇RVT 的改进。
复制链接

扫一扫