【论文阅读】GR-MG: Leveraging Partially Annotated Data via Multi-ModalGoal Conditioned Policy

Abstract

机器人社区一直旨在实现具有灵活自然语言指令的可泛化机器人操作。主要挑战之一是获得完全注释动作和文本的机器人数据既耗时又费力。然而,部分注释数据,例如没有动作标签的人类活动视频和没有语言标签的机器人玩数据,更容易收集。我们能否利用这些数据来增强机器人的泛化能力。在本文中,我们提出了 GR-MG,这是一种支持对语言指令和目标图像进行调节的新方法。在训练期间,GRMG 从文本和目标图像的轨迹和条件中采样目标图像,或者仅在文本不可用时对图像进行采样。在推理过程中,只有提供文本,GR-MG 通过基于扩散的图像编辑模型生成目标图像,并在文本和生成的图像上设置条件。这种方法使 GR-MG 能够利用大量部分注释数据,同时仍然使用语言灵活地指定任务。为了生成准确的目标图像,我们提出了一种新的进度引导的目标图像生成模型,该模型将任务进度信息注入到生成过程中,显着提高了保真度和性能。在模拟实验中,GR-MG将连续5个任务中完成的平均任务数从3.35提高到4.04。在真实的机器人实验中,GR-MG 能够在简单泛化设置中分别执行 47 个不同的任务,并将成功率从 62.5% 提高到 75.0% 和 42.4% 提高到 57.6%。代码和检查点将在项目页面上找到:https://gr-mg.github.io/。

I. INTRODUCTION

 机器人研究界正在努力使用基于语言的指令实现通用的机器人操纵。在各种方法中,从人类演示中模仿学习是最有前景的努力之一[1]-[5]。然而,人类演示数据很少。收集带有动作和语言标签的人类演示的过程既耗时又劳动密集。另一方面,没有语言标签的机器人游戏数据是一种可扩展的数据源。它不需要视频剪辑或语言标签,可以在没有人类持续监督的情况下收集[6]。这些数据可以通过事后目标重新标记自动标记[7]:视频中的任何帧都可以用作目标图像,以调节policy,从而预测从先前帧向该帧演变的动作。此外,互联网上还有大量没有动作标签的文本注释人类活动视频。这些数据包含有关agent应如何根据语言描述移动以更改环境的宝贵信息。我们能否开发一个policy来有效地利用上述所有部分注释的数据?

以前的方法已经涉足这一领域,但大多数仅限于使用缺乏语言标签或动作标签的数据[4],[7]-[10]。最近的举措引入了用于生成目标图像[11]或未来视频[12]、[13]的扩散模型。然后,生成的图像或视频被用作目标条件policies或逆动力学模型的输入,以预测动作,从而能够使用所有上述部分注释的数据。

然而,在目标生成阶段,这些方法往往忽略了关键信息,如任务进度。这种遗漏可能会导致生成的目标不准确,从而严重影响后续的行动预测。此外,这些policies仅依赖于图像或视频,在生成的目标不准确的情况下,它们会变得脆弱。

为了解决这些问题,我们引入了gr-mg,这是一种旨在支持多模式目标的模型。它包括两个模块:进度引导目标图像生成模型和多模态目标条件policy。没有动作标签的数据集(例如,带文本注释的互联网视频)可用于训练目标图像生成模型。没有语言标签的数据集(例如,机器人游戏数据)可用于训练policy,语言条件为空字符串。鉴于机器人操作是一个连续的决策过程,任务进度信息可以提高预测精度,我们将一种新的任务进度条件纳入我们的目标图像生成模型中。这显著提高了目标图像生成和行动预测的性能。在policy的训练过程中,我们从轨迹中采样目标图像,并在目标图像和文本指令上或在文本不可用的情况下仅在目标图像上调节policy。在推理过程中,policy利用语言指令和从目标图像生成模型生成的目标图像。由于gr-mg以文本和目标图像为条件,即使生成的目标图像不准确,policy仍然可以依靠语言条件来指导行动预测,从而大大提高了模型的鲁棒性。

我们在具有挑战性的calvin模拟基准[14]和real-robot平台上进行了广泛的实验。在calvin中,在不使用额外的部分注释数据的情况下,gr-mg在零样本泛化设置中显著优于所有比较state-of-the-art方法,将连续完成1个和5个任务的成功率分别从93.8%提高到96.8%和41.2%提高到64.4%。当我们将机器人游戏数据添加到训练中时,gr-mg的平均长度为3.11,只提供了10%的完全注释数据,这甚至比使用所有数据的竞争对手gr-1[4]基线还要好。在真实的机器人实验中,我们在简单和3个具有挑战性的泛化设置中评估了gr-mg。总的来说,gr-mg可以执行47项任务,在简单设置下将平均成功率从62.5%提高到75.0%,在泛化设置下从42.4%提高到57.6%。总之,本文的贡献有三方面:

  • 我们提出了一种新的多模式目标生成机器人策略 Generative Robot Policy with Multi-modal Goals(GR-MG),该策略能够在训练过程中利用文本注释视频和机器人游戏数据
  • 我们在目标图像生成中引入了任务进度条件,大大提高了生成目标图像的准确性
  • 我们在模拟和现实世界中进行了广泛的实验和消融研究,以验证GR-MG在简单和具有挑战性的泛化设置中的有效性。

II. RELATED WORK

A. Leveraging Multi-Modal Goals in Policy Learning

语言可能是人类为机器人指定任务的最灵活、最直观的方式[1]、[2]、[4]、[5]、[15]。然而,语言和视觉信号存在于不同的领域。语言指令中包含的信息可能过于抽象,以至于视觉policy无法理解。一系列研究探讨了目

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值