ManipLLM: Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation

最新推荐文章于 2024-10-18 11:21:51 发布

Ming_Chens

最新推荐文章于 2024-10-18 11:21:51 发布

阅读量742

点赞数 11

分类专栏：具身智能文章文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/s_m_c/article/details/141187253

版权

具身智能文章专栏收录该内容

33 篇文章 1 订阅

订阅专栏

发表时间：cvpr2024

作者单位：School of Computer Science, Peking University

Motivation：现有的方法通常通过将低级操作预测视为黑盒预测问题而牺牲可解释性，并且缺乏人类固有的常识推理能力，限制了它们操纵广泛类别的对象的能力。

解决方法：

因此，我们引入了一种创新的机器人操作方法，该方法利用多模态大型语言模型(MLLM)的鲁棒推理能力来提高操作的稳定性和泛化能力。通过微调injected adapters，我们保留了 MLLM 固有的常识和推理能力，同时激发了它们的机器人操作能力。基本见解是引入的微调范式，包括对象类别理解、可视性先验推理和以对象为中心的姿态预测，以刺激MLLM在操作中的推理能力。
在推理过程中，我们的方法利用RGB图像和文本提示来预测末端执行器在chain of thoughts中的姿态。在建立初始接触后，引入an active impedance adaptation policy，以闭环方式规划即将到来的航路点。
此外，在现实世界中，我们设计了一种用于操作的test-time adaptation ( (TTA) 策略，使模型能够更好地适应当前的现实世界场景配置。

实现方式：

Fine-tuning Strategy

We adopt the MLLM, LLaMa-Adapter [38], as our backbone and follow its training strategy。视觉和语言部分，分别使用一个Adapter。只训练Adapter和图像文本之间模态对齐的映射层，其它参数都是frozen。

ManipLLM采用了4种不同的prompt来生成机器人动作，每一种对应的数据和任务都有不同。

Object Category Identification (OCI.): 为了实现物体的操作，模型首先要学会辨别物体。提示词为“What is the category of the object in the image?”注意这一步并没有更新模型，而是利用原有大模型的理解能力。

为什么这一步不用更新参数？作者认为，MLLM 已经在现实世界中的不同类别的对象上进行了训练，这使得它们具有高度的类别识别和泛化能力。相比之下，模拟器中的对象类别非常有限，最大为 30 到 50。更新仿真器中的学习过程可能会导致 MLLM 强大的对象类别识别能力和强大的泛化能力的损失。因此，我们在这个阶段不更新模型，而是目标是为后续任务提供类别认知的先验，帮助他们提取特定类别的操作特征。

意思就是说MLLM在Object Category Identification方面已经做的很好了，不需要去对模型的参数进行调整，在这里直接使用MLLM识别物体类别的功能，为后续任务做准备。

Affordance Prior Reasoning (APR.): 这一步主要是让大模型确定物体哪一部分可以被操作。Affordance map将对象视为几何图形，并指示如果对某些像素进行操作，则获得移动距离的概率，反映出在哪里可以操作对象。

这一步主要根据Flowbot3D，将可以运动的物体部分分为revolute和prismatic，即转动和平动。然后根据一些简单的规则确定Affordance Map对应的值，如下图：（可以看到门越远离转动轴的部分affordance越高，表示操作这里更加容易转动门）

然后这一步的提示词为“Determine if operating on each following point can effectively manipulate the object within the image：（x1,y1）.. (x2, y2)”（用文本的形式把可供性的坐标表示出来），即让大语言模型做判断题，确定如下的点是否可以操作物体。大语言模型的回答即为yes, ... no。这里主要就是样本的构建，通过affordance map，超过0.8的点确定为positive，低于0.2的点确定为negative，这样就可以通过随机采样positive和negative点集，构建pair数据来对模型进行微调，让大模型具备判断哪一些像素点可以用来操作物体。

我们的目标是将视觉表示的可供性图转换为语言可供性先验。可供性区域是有ground truth的，用的是监督学习。（应该是在生成the affordance map的时候就进行有监督的训练，而不是在生成文本之后才进行有监督的训练）

Finetuning (FT.) and Mask Language Modeling (MLM.): 这一步主要是让大模型生成准确的机械臂末端操作姿态位置。这一步在仿真中进行数据收集，如果进行了成功的操作，则记录相应的RGB以及对应的末端姿态。这一步的提示词为“Specify the contact point and gripper direction of manipulating the object”。回答为“The contact point is （x, y）, the gripper up direction is (xu, yu, zu), and the gripper forward direction is (xf, yf, zf)"。

为了减少方向回归预测的难度，我们通过将归一化方向向量中的连续数字离散为 100 个离散 bin [-50,50] 将其转换为分类预测，每个 bin 跨越 0.02。输出使用交叉熵损失进行监督，也是交叉熵的有监督训练。

文章发现直接进行微调会导致不准确的输出，所以又采用了Mask Language Modeling的方式，将向量进行mask，然后让大模型对mask的位置进行补填。因此，为了促进姿态的预测，在任务掩蔽语言建模(MLM)中，我们mask了输入文本提示中坐标或方向向量的部分值（比如x，y,z只mask掉y），并促进模型填充缺失的字符。

为什么mask部分能促进姿态的预测？我的理解是相当于先给一些提示，比如只mask掉y，但是直到x，这样模型就能根据已知的x去找对应的y。

mask坐标的形式如图：

Active Impedance Adaptation Policy

在训练期间，上述任务在总目标函数下同时训练：L = LA+LM +LF （Affordance + mask +finetune）。在推理过程中，我们采用思维链推理来模拟模型，以解释性地生成精确的初始接触末端执行器姿态。推理过程遵循三个步骤（通过这种问答的思维链的形式）：

我们利用深度图DH×W将接触点投影到3D操作空间中(x, y, z)。夹持器向上方向和夹持器向前方向共同制定末端执行器的旋转。与预测方向一起，它们共同决定了末端执行器的姿态，以建立与对象的初始交互。也就是说：末端执行器的位置+旋转角度=末端执行器的位姿。

在建立与对象的初始交互后，我们应用a close-loop heuristic policy to adaptively generate upcoming waypoints under impedance control(阻力控制).

具体来说，在操纵铰接对象的任务中，我们可以自由地围绕事物移动，很难弄清楚这样做的最佳方法。例如，当试图打开门时，执行它的最佳方法通常涉及沿着门帧轴以非常特定的方向移动。为了解决这些困难，该策略旨在根据阻抗力反馈调整我们如何与事物交互，从而有效地处理不同的场景。与利用模型来预测每个以下姿势相比，这样的启发式策略效率更高。

我们假设在受约束的对象操作任务中，使用相同的比较小的力进行各个方向上操作的尝试，更大（幅度）的动作代表了施加的力方向的功效。因此，生成最佳前向方向如下，以确定当前末端执行器的姿态。

也就是说，在预测出来的位置进行各个方向的比较小的力气的尝试。当这个比较小的力产生更大的动作的时候，说明这个方向更加正确。（这相当于对错误的一种修正）

Test-Time Adaptation (TTA) strategy（Sim-to-real Transfer）

设计了一种为操作量身定制的测试时间适应(TTA)策略去bridge sim-to-real 的 gap。

TTA，如[21,35]所述，涉及根据当前测试样本在推理过程中更新部分模型参数，增强模型对特定现实场景的性能。具体来说，在当前的测试样本中，我们利用操作成功或失败的结果来监督模型对预测姿态是否会导致成功的操作，只更新部分参数的评估。这允许模型保留其原始能力，并通过区分目标域中的有效和无效姿势来适应目标域。

此步骤中使用的文本提示与“Affordance Prior Reasoning”的训练阶段一致（也就是说在测试的时候按照prompt的第二步去更新模型的参数），即“如果对以下点进行操作可以有效地操纵图像中的对象：(x, y)。”模型预测的接触位置是他们认为可以导致成功操作的区域。具体来说，给定当前的测试样本，我们引入了一个额外的推理步骤来提示模型以评估预测的位置是否会导致成功的操作。因此，对这个问题的响应始终是“是”（因为是测试时候对模型的预测）。我们根据在现实世界中，对象是否被成功操纵，形成“是”或“否”作为监督信号来监督前一个答案来获得真实结果（从而对模型进行监督以及参数的更新）。

那么。要更新模型的哪部分参数呢？为了确定TTA过程中哪些参数更新的参数，我们分析了图4中推理步骤的结果。

我们观察到ManipLLM的推理能力，受益于LLaMa，在现实场景中继续表现出强大的性能。它可以准确地识别图像中描述的对象，并理解如何操纵它们。它的方向意识也是稳健的，确保了ManipLLM的方向预测的鲁棒性。尽管可能存在不精确的方向，具有第3.2节介绍的主动阻抗适应策略，我们可以将方向调整为更最优的状态。

相比之下，位置预测容易受到光照和纹理等因素引起的域间隙的影响。因此，我们通过只更新图 2 中的 V-Adapter 来调整 TTA 期间目标域的视觉感知。

就是一边在真实世界进行操作，一边进行模型的更新？这里是怎么做的？这里是Sim-to-real 的Transfer，是不是在现实世界中进行训练呀？应该是。

实验：我们采用 SAPIEN [31] 和 PartNetMobility 数据集来为我们的任务设置交互式环境。

We use a Franka Panda Robot with flying suction gripper as the robot actuator.

We sample the training data offline with approximately 10,000 manipulation success samples across 20 categories.

结论：主要三点贡献：1. Fine-tuning Strategy 2. Active Impedance Adaptation Policy 3. Test-Time Adaptation (TTA) strategy（Sim-to-real Transfer）

这个任务的Limitation就是，还是不能面向精确任务进行操纵吧（只能是吸盘），不过确实可以做一些大概的操作。输入时候这个Text仿佛是被定死的，没有提到对于任意Text的处理，在training pipeline中也没有展示。在图1中只给定了其中一个text。