LLaRA: Supercharging Robot Learning Data for Vision-Language Policy

发表时间:28 Jun 2024

作者单位:Stony Brook University

Motivation:Visual Instruction Tuning在大模型领域大放异彩,但是在机器人动作这一领域的潜力还没得到挖掘。策划对话风格数据并使用这种数据进行机器人指令调优的研究相当有限。受这一启发,we explore a formulation of VLM-based robot action policy in this paper。我们的目标是使VLM适应机器人动作策略,可以处理不同的视觉运动控制挑战,我们称之为Visuomotor指令调优的过程(Visuomotor Instruction Tuning)。

解决方法:我们提出了LLaRA: Large Language and Robotics Assistant,这是一个将机器人动作策略制定为对话的框架,并在使用补充策略学习的辅助数据进行训练时提供改进的响应。我们的方法只预测编码为文本的动作,而不引入任何新的标记或LLM/VLM架构修改。

也就是说,模型的输出是带有各种标识符的文本,标注了物体的位置旋转角度之类的信息(通过特定的标识符说明物体位置、旋转角度之类的信息)。

三点贡献:

  1. 将机器人操作任务制定为自然语言描述的指令-响应对,从而能够成功地将VLM指令调优为策略。(利用现有的行为克隆数据生成对话形式的 Visuomotor Instruction Tuning 数据集去微调现有的VLM模型,使其适用于机器人动作任务

  2. 一种可扩展的管道,用于从现有行为克隆数据生成各种高质量的机器人指令调优数据。(将上述生成转换现有的轨迹数据的方式形成方法论,可以应用于现有的任意一种行为克隆数据,都将他们转变为适用于机器人指令调优的数据)

  3. 识别和生成辅助指令数据,以自监督的方式进一步增强机器人策略学习。(然而,我们还注意到指令调整的VLM的有效性在很大程度上取决于数据形式的质量,这对于新领域的自动化(或规模)并非易事。因此,为了加强(或超充电)这些数据。我们构建了辅助数据集,以自监督的方式补充来自同一 BC(行为克隆) 数据集的策略学习,无需任何外部数据(也是从行为克隆数据得到的)。)这样的辅助数据集旨在训练一个VLM来捕获场景中对象之间的空间/时间关系,从而实现更好的场景表示。除了视觉观察之外,我们还利用对象标签、位置和几何形状(例如旋转)以及任务描述作为专家信息(也是从行为克隆数据得到的)。创建了一组特定领域的辅助数据集(例如,对于空间或时间推理),当用于微调时,使 LLA 能够学习对下游任务有用的关系。因为辅助数据集上有时空关系的信息,因此vlm能从中学到时空信息。

也就是说,本文总共生成了两大类的数据集:instruction dataset 和 辅助数据集。

实现方式

1. Instruction Tuning Data from Trajectories:

对于每个状态转换,我们将状态动作对 (st, at) 转换为单轮对话。当前的视觉观察和文本任务描述,形成 st,可以直接被 VLM 同化为用户指令。然而,数值动作 a 需要转换为 VLM 生成的文本格式。与利用特殊标记直接编码数值动作值的 RT-2 [21] 所采用的方法相比,我们的方法采用相对于图像大小归一化的 2D 图像坐标来表示位置动作。我们在图像中的数值动作值及其对应的2D位置之间建立映射

但是,在单一观察 st 包含多个图像的场景中,LLAVA 等系统性能较差,因为它从未在多个图像上进行训练。为了适应这一点,一种可能的解决方案是切换到VLM设置,它可以消耗多个交错图像,如Qwen-VL和LLAVA-NeXT。相反,我们在对象检测的帮助下将每个额外的图像转换为语言描述。与inBC 相比,我们将此在文本中采用额外对象检测结果的方法命名为 Description-Instruct-BC(DinBC,我们在这些数据上训练的模型称为与前面相同的名称)。也就是说,Din-BC 比 in-BC多一个物体目标检测那一步。(多了个各个物体位置的信息)。希望能通过目标检测 缓解 单一观察 st 包含多个图像的场景中LLAVA 等系统性能较差 这一问题。

  1. Supercharging Visuomotor Instruction Dataset(也是从轨迹数据中获得)

LLARA 创建了辅助机器人指令调整数据集,以增强基于 VLM 的策略。这个想法是辅助数据集将驱动VLM学习更好的场景时空理解,并最终有利于机器人学习。更具体地说,给定一个机器人轨迹,我们生成专家问答对,制定对话,揭示间接学习策略的有用信息。除了视觉观察之外,我们还利用对象标签、位置和几何形状(例如旋转)以及任务描述作为专家信息。

我们主要介绍 6 个数据集变体(好像只有五个),增强现有的专家信息,例如辅助语义,以更好地微调 VLM。在每个数据集中,我们考虑一个标准问题,它使用 GPT-4 进一步多次改写,以注入合理的多样性。他们分别是:

  • Localization Dataset:我们在给定观察中对单个对象的位置生成单轮对话。

  • Detection Dataset: 在更高级的设置中,我们生成关于整个场景的对话,由每个对象的位置给出。

  • Future Prediction Dataset:该数据集支持动态建模。

  • Spatial Relationship Dataset:给定图像中的两个指定对象,查询询问 2D 空间配置(例如,左、右、上、下)以及对象之间的欧几里得距离和距离。

  • Temporal Relationship Dataset:该数据集侧重于两个对象之间的空间关系如何随时间变化(即,在两个时间步之间)

实验在本文中,我们从预训练的 LLaVA 模型开始,只执行单阶段微调、更新 θLLM 和 θMLP。

  1. 包括模拟环境和真实场景

  2. 我们使用 VIMA-Bench [43],一个模拟的桌面机器人操作环境来评估由我们的机器人指令调优数据集训练的 VLM。环境包含 17 个任务,每个任务都与一个多模态指令相关联,包括引用感兴趣对象或特定场景排列的文本指令和图像。机器人动作空间是两个二维坐标,用于拾取和放置位置和旋转。

  3. VIMA takes both front and top view images from the environment while ours only take the front view。

  4. 与 VIMA [43] 相比,我们最好的模型不仅取得了更好的性能,而且需要更少的输入,并且仅在 VIMA 中使用的 12% 数据上进行训练。

结论:All methods generally benefit from increased training data.

  • 15
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ming__chen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值