Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuni

最新推荐文章于 2024-09-11 12:11:23 发布

Ming_Chens

最新推荐文章于 2024-09-11 12:11:23 发布

阅读量598

点赞数 30

分类专栏：具身智能文章文章标签：语音识别人工智能

本文链接：https://blog.csdn.net/s_m_c/article/details/141136093

版权

具身智能文章专栏收录该内容

33 篇文章 0 订阅

订阅专栏

发表时间：PMLR 2024

作者单位：Amazon AGI

Motivation：

我们解决训练机器人理解多模态提示的问题，将视觉信号与文本描述交织在一起。这种类型的任务对机器人理解视觉和语言信号之间的相互联系和互补性的能力提出了重大挑战。人类交流本质上是多模态的，通常将语音与表达手势和演示相结合。因此，我们的动机增强机器人对交错文本和图像的多模态任务提示的理解。

通过多任务模仿学习在不同的任务集上实现将对象外观与文本表示进行匹配。然而，模仿学习在教机器人预测逆动力学方面不足，因为在训练从当前和历史观察预测动作时，通常会掩盖未来的观察。为了克服这一挑战，我们引入了一个由逆动态预训练(实际上是motion-following task)和多任务微调 (实际上是模仿学习) 组成的两阶段训练管道。

解决方法：

我们引入了一个有效的框架，该框架学习了一个策略，使用来自多任务专家轨迹的多模式提示来执行机器人操作。我们的方法包括一个两阶段的训练管道，执行逆动态预训练和多任务微调。
为了便于多模态理解，我们通过将预训练的 LM 与视觉输入残差连接来增强预训练 LM 。
由于独立预测每个动作维度可能会出现问题（动作与动作之间存在依赖关系），建模动作维度之间的依赖关系来设计我们的多模态提示编码器。

Contributions can be summarized as follows:

Introduction of the two-stage MIDAS training framework.
An effective multimodal prompt encoder.
Equipping a multi-task robot with the in-context learning ability

实现方式：

两阶段的训练pipline:

预训练阶段：我们的预训练策略首先将任何机器人轨迹转换为motion-following task（因为之前方法的imitating multi-task trajectories不能通过当前的观察observations o0,...,oT预测未来的动作a0,...aT-1。为了解决困境，作者创新性的提出每个机器人轨迹本身都可以重新表述为motion following的运动），然后训练机器人在给定观察到的图像序列的情况下恢复动作序列。（这一点与VIMA不同，VIMA中是behavioral cloning，感觉behavioral cloning就是这里说的imitating learning）给定一个轨迹序列：given any sequence of robot trajectory ωT = (o0, a0, o1, . . . , aT −1, oT )，其中（o0, . . . , oT）表示observations序列，(a0, . . . , aT −1)表示动作序列。这样就能实现根据observations序列（o0, . . . , oT）去预测对应的动作(a0, . . . , aT −1），通过公式3计算损失。

多任务微调阶段：通过公式4计算损失。 因此，我们选择通过将每个维度建模为单个token来对动作维度之间的依赖关系进行建模，并自回归解码每个令牌，如图1所示。因此，多任务模仿学习损失函数可以重新表述为：（这一点与VIMA不同，VIMA没有这一项损失）

实际上只比公式三多了后面这一项，多了一个动作维度之间的依赖关系。相比之下，多任务 FT 阶段有助于模型理解不同的多模态提示，并追求其将上下文示例派生的动作序列转换为目标对象的能力。这类似于由于指令查找，预训练语言模型指令跟随能力中看到的改进。

VIMA的编码策略往往无法捕获一些细粒度的视觉信息，例如对象的旋转角度(任务09，图3)。我们假设这是因为预训练的 LM 从未在视觉数据上进行训练。为了捕获细粒度的视觉信息，我们通过将预训练的 LM 与从输入视觉标记添加到 LM 的编码嵌入中的残差连接来增强预训练 LM 来设计我们的多模态提示编码器。直觉上的实现方式是，通过将原始视觉标记直接添加到预训练的 LM 生成的嵌入中，我们可以保留编码过程中可能会丢失更详细的视觉信息。（这一点与VIMA不同，VIMA没有这个残差）

回想一下，机器人动作由末端执行器的初始位姿 Tinitial 和目标位姿 Ttarget 定义。直观地说，Target 应该取决于 Tinitial。因此，独立预测每个动作维度可能会出现问题。因此，我们选择通过将每个维度建模为单个标记并自回归解码每个标记来对动作维度之间的依赖关系进行建模。也就是说，每个动作维度的分布应该取决于已经解码的其他动作维度（也是公式4）。（这一点与VIMA不同，VIMA独立预测每个动作维度，忽视了动作维度之间的依赖关系）。左边是VIMA的损失函数，右边是本文MIDAS的损失函数（都是模仿学习），MIDAS多了后面那一项，学习动作维度之间的依赖关系：

实验：We conduct experiments on the VIMABENCH. We compare our methods with various baselines from the VIMA paper (Jiang et al., 2023) on the VIMA-BENCH.

结论：训练机器人来解释多模式提示涉及几个挑战。提示中的视觉信号可以表示目标对象，描绘一个特定的子目标，或提供上下文演示。机器人必须在解决整体任务目标之前理解多模态提示建议的底层转换动态。

这需要机器人从语言指令中推断出状态转换，并从图像演示中推断出动作，这个概念被称为逆动态预测。然而，模仿学习在教机器人预测逆动力学方面不足，因为在训练从当前和历史观察预测动作时，通常会掩盖未来的观察。机器人逆运动学（inverse dynamics）问题：又称机器人运动学方程的逆解或间接位置求解，指给定机器人末端执行器的位置和姿态，求解可到达给定位置和姿态的各关节的角度值。机器人学之运动学笔记【4】—— 逆向运动学（Inverse Kinematics）-CSDN博客

此外，机器人专注于关键的视觉细节至关重要，例如图像中显示的对象的方向，因为这会显著影响其动作预测。

同时为机器人配备多任务和上下文学习能力在之前的研究中尚未得到广泛探索。