SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation

最新推荐文章于 2024-09-17 16:52:57 发布

Ming_Chens

最新推荐文章于 2024-09-17 16:52:57 发布

阅读量343

点赞数 5

分类专栏：具身智能文章文章标签：人工智能机器人

本文链接：https://blog.csdn.net/s_m_c/article/details/141093347

版权

具身智能文章专栏收录该内容

33 篇文章 1 订阅

订阅专栏

发表时间：PMLR 2024

作者单位：清华深圳

Motivation：目前的方法同时使用3D表示和多视图2D表示来预测机器人末端执行器的姿态。然而，它们仍然需要大量的高质量的机器人轨迹，并且在看不见的任务中泛化能力有限，在长视距推理中执行效率较低。

解决方法：本文提出一种新的机器人操作体系结构，利用视觉基础模型进行可推广的场景理解和序列模仿，用于长期动作推理。 采用在大量图像和可提示掩码上预训练的分段任意 (SAM) 作为提取任务相关特征的基础模型，并对机器人数据采用参数高效的微调来更好地理解具体化场景。提示条件SAM编码器通过根据任务描述提取与任务相关的视觉特征来适应语言指令操作。为了解决长视距推理，我们开发了一种新的多通道热图，可以在一次传递中预测动作序列，特别是提高执行效率。 受最近关于利用网络规模数据集的视觉基础模型的研究的启发，并展示了稳健的零样本和少样本泛化，我们进一步深入研究了多视图架构，以提高语言跟踪任务中 3D 操作策略的泛化能力和执行效率。

实现方式：

Motivation：主要解决如何理解3D的问题。

做法：从multi-view architecture来增强泛化性和执行效率。

重要猜想：action具有temporal-smooth assuption，因此只预测一个动作会导致前后矛盾。

重大区别：在infer的时候，不需要预测下一时刻的keypoint gripper pose，直接预测action sequence，因此大大提升效率。

SAM-E 概述：

SAM 编码器在使用参数高效的 LoRA 对具身场景进行微调后，提供单视图观察的可提示视觉嵌入。
多视图转换器实现了跨视图信息集成和视觉语言对齐。
通过时间模仿来预测连贯的动作序列，以实现高效的多步执行。

Multi-View Transformer（fig2）：我们采用多视图转换器使用注意力机制(图中的View-wise Attention和Cross-view Attention)集成多视图视觉观察、带有坐标的深度信息和与任务相关的语言指令，从而能够全面融合多种模式的输入。

Architecture for Action-Sequence Prediction（fig3）：策略头从多视图转换器（如图 2 所示）中获取视图标记作为输入，独立处理不同视图中的视图标记（图中表示不同视图的heatmaps），并在单视图图像中并行通道输出动作序列预测。

实验：我们在RLBench中评估SAM-E，这是一个具有挑战性的多任务3D操作基准。为了与基线进行公平比较，我们使用与最先进方法 (Goyal et al., 2023) 相同的设置，通过使用 18 个任务，实验中有 249 个变化。此外，我们通过在 6 个新任务中的少样本适应来评估 SAM-E 的泛化能力。

结论：我们介绍了具身 3D 操作 (SAM-E) 模型，这是一种新颖的多视图架构，它采用 SAM 作为视觉基础模型，具有参数高效的微调，以提示感知到具体化场景，以及一种新颖的动作序列预测头，用于高效规划和连贯的执行。