【计算机图形学】ManipLLM: Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation

passer__jw767

已于 2024-03-18 22:04:50 修改

阅读量1.2k

点赞数 17

分类专栏：计算机图形学文章标签：语言模型人工智能自然语言处理 3d 机器人

于 2024-03-18 20:55:01 首次发布

本文链接：https://blog.csdn.net/passer__jw767/article/details/136821394

版权

计算机图形学专栏收录该内容

43 篇文章 13 订阅

订阅专栏

对ManipLLM: Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation的简单理解

1. 为什么要做这件事

基于学习的机器人操纵是在模拟器内的有限类别上训练的，在泛化方面的表现不太好，因为现实世界中有许多类别的物体。

2. 做了件什么事

利用多模态大语言模型的鲁棒推理能力，提升操纵的稳定程度和泛化性。通过微调injected adapters，保存MLLMs固有的推理能力，同时为MLLMs配上操纵的能力。核心的想法就是通过微调范式，将物体类别理解、Affordance先验推理、以物体为中心的姿态预测来刺激MLLM在操纵方面的能力。

推理过程中输入是RGB图像和文字prompt，预测end effector的姿态。建立了初始的接触位置，引入impedance adaptation policy以闭环的方式来规划路径点（没读懂）。

在这里插入图片描述

3. 介绍

原子动作预测的可解释性是操纵可靠的关键。

MLLMs具有良好的物体理解能力。如何增强MLLMs以帮助实现以物体为中心的操纵。主要的挑战在于如何使MLLMs理解物体的几何结构，并预测可移动接触位置，进而实现以物体为中心的操纵。

这篇文章的做法是，训练过程中，为了保有MLLMs的强大推理能力，同时增强它的操纵能力。该工作微调了MLLMs上的injected learnable adapters。同时设计了一些复杂的训练范式，并指定了微调任务（包括物体类别识别、Affordance先验推理，操纵感知的pose预测）。

Affordance先验主要用于考虑物体的几何信息，上边反映了每个像素的移动能力（可移动/不可移动）。

通过这个训练范式，使得MLLMs在类别级上识别物体，理解哪些区域可操纵，哪些区域不可操纵，最终在pose level生成精准的操纵坐标和操纵方向。

推理过程中，给定RGB图像和文本prompt，方法生成2D图像上的contact像素坐标，以及end-effector方向。深度信息用于将像素投影至三维空间中。在初始contact信息建立后，设计impedance adaptation policy（阻抗自适应策略，这个词在ImageMainp中也出现过），对即将执行的路径点通过闭环预测来确定移动方向。

推理过程中，模块基于当前pose在周围方向应用一些小的力，其目的是识别能够导致最大移动的方向。该方法依赖于沿着轴线产生的力反馈，自适应地调整物体方向和预测的策略。

现实世界和虚拟世界不同，现实世界中短吸力gripper需要将其放置位置在距离把手一定位置的地方以避免碰撞，这与模拟器不同。为解决这个问题引入TTA（A-SDF的启发），TTA调整模型的部分参数，从而使得策略适用于机器人操纵。

对于当前测试样例，利用操纵的结果（成功/失败）来监督，是否其预测的pose能够带来成功的操纵，并更新部分参数。这使得模型在保留原始能力基础上，通过辨别高效和不高效的poses来适应目标领域。

Contribution：

提出了一种简单且高效的方法，将MLLMs的能力迁移到以物体为中心的机器操纵上；
设计了微调inference策略的方法，利用MLLMs的推理能力来保证鲁棒且可解释的end-effector’s pose预测；

4. 相关工作

4.1 机器人操纵

广泛使用的是基于状态的强化学习方法。但在复杂场景下还要融合视觉观察的信息。

一些相关的工作包括：Where2Act预测逐点可操纵概率；Flowbot3d预测逐点运动流；VoxPoser基于给定的自然语言指令，将其合成到机器人策略中；RT2将信息迁移到动作上。

以上方法以黑盒的方式进行动作预测，降低了可解释性。

MainpLLM通过利用MLLMs中具有的通用知识和推理能力来增强机器人操纵能力，并使得过程具有可解释性。

4.2 多模态大语言模型

大语言模型，如LLaMa和GPT3，有着强大的推理能力。

多模态大语言模型搭建了RGB视觉图像和文本之间的桥梁。LLaMa-Adapter可以用于以图像为条件的多模态推理，并在视觉和多模态任务下取得良好的效果。

虽然MLLMs发展的挺好，但以物体为中心的操纵能力仍未被开发。本工作的目标就是将操纵能力注入到现有MLLMs中。在保持原有推理能力的基础上，使MLLMs能够以可解释的方式来处理多种类别物体的操纵。

5. 方法

5.1 网络结构

在这里插入图片描述

Visual Encoder是CLIP，用以提取视觉特征。右侧设计的Text Prompts被预训练的LLaMa编码成文本特征。使用多模态投影模块对齐视觉和文本特征，LLaMa需要形成多模态理解，并给出正确答案。

训练过程中，只微调视觉CLIP中的injected adapters、LLaMa、多模态投影模块，冻结其他主要参数，该目的是保留现有MLLMs的强大能力并增强模型在操纵方面的能力。

5.2 微调

设计训练范式以微调MLLMs，鼓励模型生成可解释的pose prediction以进行以物体为中心的操纵。

5.2.1 OCI

同一类别的物体共享想通的几何属性，故理解物体类别是操纵的关键。故OCI的prompt设计为：“图像中的物体是什么类别？”。

由于MLLMs在真实世界的大规模物体上进行训练过，对于类别识别和泛化的能力很强。但由于模拟环境下物体类别有限，这时候更行MLLMs的参数可能会导致其泛化能力下降，对于见到的物体过拟合，所以在这里不更新模型参数，而是作为后续任务提供类别认知先验，以提取类别特定的操纵特征。

5.2.2 APR

该阶段目标是让模型感知物体的哪个区域是可以被操纵的。Affordance map反映物体的哪些位置可以被操纵。

受到Flowbot3D的启发，将运动类型分为“旋转”和
”平移“，并搜集相应的Affordance map。

对于旋转部件，首先找到物体移动部件并使物体部件沿着轴移动。Affordance map $A∈\R^{H×W}$ 如下式获得：

$A=\frac{D}{|max(D)-min(D)|}$

$D∈\R^{H×W}$ 计算移动前后3D位置（对应到每个像素）的欧式距离。基于距离图 $D$ 中归一化的最大和最小值来获得 $A \in [0, 1]$ ，指示逐像素的可运动性概率。

对于平移部件，在物体表面进行操纵同样可以促进移动部件发生移动。平移部件的Affordance map和旋转的相同（上式）。

如下图所示，对于旋转类型，Affordance map反映哪里可以进行操纵，即远离轴的地方可以进行操纵。

在这里插入图片描述

获得了Affordance map后，文章的目标是使模型也学习到类似的操纵先验。因为大语言解码器没办法直接生成Affordance map，所以将Affordance map转换为语言Affordance先验。训练时随机采样 $n$ 个Affordance分数>0.8的正样本点和 $n$ 个Affordance分数<0.2的负样本点用于训练。负样本包括不可运动部件上的点，和可运动部件上具有较低Affordance分数的点。APR的prompt如图2所示，“Determine…within the image: $(x^1_P,y^1_P),...,(x^n_P,y^n_P),(x^1_N,y^1_N)...,(x^n_N,y^n_N)$ ”， $P$ 和 $N$ 分别表示正负样例。对应的GT被formulate成“yes,…,yes,no,…no”的形式。使用cross-entropy loss $L_A$ 进行监督。

5.2.3 FT和MLM

这部分目标是使模型生成精确的end-effector pose。模拟环境中，若操纵成功，则记录RGB图像和对应的end-effector pose，作为模型的输入和结果GT。

对于FT，设计输入的文本prompt用于pose预测：“Specify the … manipulating the objects.”，结果被形式化成"The contact point is…, the gripper up…, the gripper forward…"。为降低方向回归预测难度，将归一化方向向量中的连续数离散成100个discrete bins $[- 50, 50]$ ，每个bin的跨度为 $0.02$ 。输出使用cross-entropy loss $L_F$ 进行监督。（不太能理解这个bin是什么。读过通篇回来理解这部分，结合GPT给的解释，实际上，将回归问题转换为分类问题，每一个bins代表一定的范围，应该是只需要预测这些值落在那个范围，而不是具体而精确的数值。在现实世界中这种0.02之类的角度啥的，相差不大，肉眼甚至难以分辨。我认为这里是：转换成分类使其预测更容易，而视觉上也能有良好的效果。）

但是一下子直接把所有的pose回归出来可能是很困难的，所以提出了Masked Language Modeling（MLM）任务，如图2的第3个prompt所示，适当的mask掉一些信息，让模型来预测，使用cross-entropy loss $L_M$ 来监督。同时作者观察到MLLMs天生具有方向意识，如其能够推理出“向你所在的方向拉门”等，训练过程中将这样的方向认知描述和方向向量映射到一致的表示，进而能够预测end-effector的方向。

5.2.4 训练和推理

总损失： $L=L_A+L_M+L_F$ 。

推理过程中采用思维链方式进行推理并生成精确的初始contact point和end-effector pose。推理与训练一样同样是3步组成。模型最后输出像素坐标、gripper向上方向、gripper向前方向。利用深度图将像素坐标投影到3D操纵空间中获得contact point $(x, y, z)$ 。gripper向上方向、gripper向前方向共同构成了end effector的旋转，建立了与物体的交互关系。

推理过程由如下图所示的3步组成。

在这里插入图片描述

5.3 阻抗自适应策略

在尝试打开一扇门的时候，通常是沿着一个特定的轴向进行操纵。为了解决这种二义性问题提出这种阻抗自适应策略，能够在不同场景下进行高效操作。

在每一个迭代过程中，适应性地基于前一步的操作来预测最适合于当前物体状态的方向。

使用初始迭代作为例子。给定预测的前向方向 $d_i=(x_f,y_f,z_f), i=1$ ，一个随机的扰动 $||ζ||<\epsilon_1$ ，其中 $\epsilon_1$ 表示一个小的正常数。对 $d_i$ 重复这个过程 $i$ 次，得到一组方向表示为 $D=\{d_{ij}=d_i+ζ_j\}_{\{j∈0,1,2,...,N\}}$ ，其中 $d_{i0}$ 表示 $d_i,ζ_0=0$ 。利用阻抗控制，一个力 $f_j$ （ $f_j$ 方向由 $d_{ij}$ 定义，且 $||f_j||=\epsilon_2$ ，其中 $\epsilon_2$ 表示另一个小的正常数）作用于 $D$ 内的每个方向 $d_{ij}$ 。接着，基于观察到的末端执行器运动 $δ_j$ 来确定最佳方向 $d_{opt}$ 。假设在受约束的物体操纵任务重，更大的运动量表示施加力方向的有效性，因此，当前end effector‘s pose的最佳正向方向通过下式生成：

$d_{opt},opt=\argmax_{j∈\{0,1,...,N\}}||δ_j||$

通过这样的方式，通过考虑沿着轴方向的力反馈来确定给定物体当前状态的情况下的最佳移动姿态，以确保生成平滑的策略。

5.4 模拟到现实的迁移

使用的TTA的方式，对于某个测试实例，在推理过程中更新部分参数，以提升在真实世界特定场景下模型的表现。

经分析知，对于end-effector的方向，虽然预测的方向可能不够精准，但是可以通过上面的阻抗自适应策略进行调整，获得更精确的方向。

而操纵位置的预测可能会受到如光照和纹理的影响，故通过更新图2中的V-Adapter来找到更合适的操纵位置。

如何实现TTA？

给定当前测试样例，引入额外的推理步骤来提示模型判断是否预测的位置可以成功进行操纵，这一步的text prompt和训练过程中的“Affordance Prior Reasoning”一致，被定义为：“Determine if operating on the following point can effectively manipulate the object within the image: (x,y).”，这个contact位置是由模型预测出来的一个区域，模型认为这个区域是可以成功进行操纵的，因此模型对这个问题的回答始终会是“yes”。GT是通过在真实世界中，物体是否被成功操纵来得到的，若成功被操纵，则给“yes”，若失败则给“No”，通过这个监督信号来监督模型对于这个prompt的答案。通过这个过程的补充，使得模型学会去分辨目标域中的effective和ineffective的预测。这样的调整帮助模型适应特定的真实世界配置。