ManipVQA: Injecting Robotic Affordance and Physically Grounded Information into Multi-Modal Larg

发表时间:17 Mar 2024

作者单位:Shanghai AI Laboratory

Motivation:尽管MlLMs取得了进步,但传统的 MLLM 通常在通用图像文本对上进行训练,缺乏必要的机器人知识,例如可供性和物理知识,这阻碍了它们在操作任务中的效果。

解决方法:To bridge this gap, we introduce ManipVQA 是一个新颖的框架,旨在通过视觉问答格式赋予 MLLM 以操作为中心的知识。这种方法不仅包括tool detection and affordance recognition,而且还扩展到对物理概念的全面理解。(物理概念是怎么加进去的?通过物理数据集的构建和学习。)为了将这种特定于机器人的知识与 MLLM 固有的视觉推理能力无缝集成,我们采用了统一的 VQA 格式,并设计了一种微调策略(实际上就是使用前面的VQA数据进行微调),该策略保留了原始的视觉推理能力,同时结合了新的机器人见解(可供性和物理知识)

实现方式:An overview of our ManipVQA. We created an extensive vision-language dataset by combining existing resources and expanding affordance grounding tasks using ChatGPT. To maintain consistency with existing VQA datasets, we structured our dataset in a similar VQA format. (统一格式方便训练)Utilizing this created dataset, we then fine-tuned an MLLM. Once integrated with a heuristic policy(不知道这玩意是啥), the enhanced MLLM is capable of performing a broad array of tasks, notably including complex manipulation tasks.

Modeling of Affordances and Physical Concepts:

我们扩展了通用工具对象 Otool 的可抓取性模型 Agrasp,形成元组 (Agrasp, Otool),由 HANDAL 描绘。

  • affordances可能因手头的特定任务 T 而异,工具的不同区域可用于不同的功能。我们形成元组 (AT, Otool),它将特定于任务的可供性 AT 与工具对象相关联。

  • 除了可供性之外,我们还结合了物理概念的建模,表示为 Pi。这些概念使用离散级别或布尔值进行量化,灵感来自 PhyObjects [11] 中提出的方法。每个物理概念 Pi 与其对应的对象 O 相关联,从而产生元组 (Pi, O)。这些概念包括但不限于透明度、液体存储容量和密封性——每一个都在机器人解释和与环境交互的能力中起着关键作用。

Instruction Dataset Construction:目的是赋予模型对机器人可视性、高级视觉推理和基于物理的知识库的稳健理解。

包括:Robotic Affordance Datasets;Physically Grounded Dataset;General Visual Reasoning Datasets;Augmented Instructions with GPT-4:我们使用 GPT-4 来生成复杂且上下文丰富的基于可供性的任务。

总体而言,我们精心策划的训练数据集集成了跨越机器可供性、物理概念理解和一般视觉推理的重要注释。

Task Formulation(上面是数据集,这里是针对上面数据集的任务形式,去更新模型参数):ManipVQA 训练协议集成了一对主要的视觉语言任务:引用表达理解 (REC) 和引用表达生成 (REG)(REC与REG刚好是一对对应的任务)。REC涉及接收伴随自然语言描述的图像的模型,然后预测描述图像中指定目标的bounding box坐标。REG提示模型生成关于图像中区域的描述性自然语言语句,由提供的边界框坐标。

为了进一步增强 ManipVQA 在识别机器人可供性和识别对象物理属性的熟练程度,我们增强了任务框架:REC-Grounding-Affordance(根据对象的使用描述识别对象的功能部分)和REC-Physical(该任务通过要求它根据对象的物理特性和参与相关查询来精确定位对象来拓宽模型的物理属性识别能力)。

MLLM Finetuning Strategy:

  • Model Architecture: SPHINX [13] as our primary architecture;LLaMA2 [12] serving as the language backbone;visual encoder from CLIP;extract local semantic features and the Q-Former [31] for summarizing visual features. We partition a 448 × 448 image into four 224 ×224 sub-images taken from each corner(与SPHINX做法一致).

  • Finetuning Strategy: 我们对自然语言表示和训练样本中的可视性和物理概念进行建模,并与一般的VQA框架一致。 为了保持模型的广泛视觉推理能力,我们将一般视觉推理练习与机器人特有的任务相结合(本文构建各类任务)The training objective employs a unified cross-entropy loss。

实验:on eight NVIDIA A100 (80GB); The pre-trained model was the SPHINX-1K。 The fine-tuning was completed in a single epoch, which took approximately 6 hours.| Visual encoders were kept frozen to maintain the integrity of the pre-trained features.

各类测试任务与其他模型对比:Robotic Affordance Detection(HANDAL dataset); Physical Concept Grounding(Our ManipVQA outperforms PG-InstructCLIP which is also fine-tuned on PhysObjects);General Affordance Grounding(Our method is evaluated on AGD20K and follows its metrics, including KLD, SIM, and NSS);Robotic Manipulation Tasks.

结论:ManipVQA 是一种新方法,旨在通过视觉问答范式为 MLLM 配备以操作为中心的知识。

  • 使用VQA微调后大模型的Vision Reasoning Ability是下降的:微调后准确度以 81.8% 记录。然后将该性能与 [2] 中预训练模型在 86.6% 的准确率进行比较。尽管略有下降,但该模型保留了强大的一般视觉推理能力。

  • 缺乏视觉集成会导致模型推理可供性的能力显著下降("Vis. Ens" represents the employment of a visual encoder ensemble),这可能是因为机器人可供性推理通常需要详细的part-level understanding。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ming_Chens

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值