Abstract
在这篇论文中,我们研究了使基于视觉的机器人操纵系统能够泛化到新任务的问题,这是机器人学习中的一个长期挑战。我们从模仿学习的角度来应对这一挑战,旨在研究如何扩展和扩大收集的数据来促进这种泛化。为此,我们开发了一个交互式和灵活的模仿学习系统,该系统可以从演示和干预中学习,并可以根据传达任务的不同形式的信息进行调节,包括预训练的自然语言嵌入或人类执行任务的视频。当将真实机器人上的数据收集扩展到100多个不同的任务时,我们发现该系统可以执行24个看不见的操作任务,平均成功率为44%,而无需对这些任务进行任何机器人演示。
Keywords: Zero-Shot Imitation Learning, Multi-Task Imitation, Deep Learning
1 Introduction
机器人技术面临的一大挑战是创建一个通用机器人,该机器人能够根据任意用户命令在非结构化环境中执行多种任务。这项工作的关键挑战是泛化:机器人必须处理新的环境,识别和操纵以前从未见过的物体,并理解从未被要求执行的命令的意图。从像素进行端到端学习是对这种多面手机器人行为建模的一种灵活选择,因为它对世界的状态表示有最小的假设。有了足够的真实世界数据,这些方法原则上应该使机器人能够在新的任务、对象和场景中进行泛化,而不需要手工编码的、特定于任务的表示。然而,实现这一目标总体上仍然难以实现。在本文中,我们研究了使机器人能够将零样本或少速 few-shot 推广到新的基于视觉的操纵任务的问题。
我们使用模仿学习的框架来研究这个问题。先前关于模仿学习的工作已经显示了对新对象[1,2,3,4,5]和新对象目标配置[6,7]的一次或零样本泛化。然而,对新任务的零样本概括仍然是一个挑战,特别是当考虑到基于视觉的操作任务时,这些任务涵盖了不同对象的各种技能(例如擦拭、推动、拾取和放置)。实现这种泛化取决于解决与扩大数据收集和学习不同数据算法相关的挑战。
我们开发了一个具有两个关键属性的交互式模仿学习系统,可以实现高质量的数据收集和对全新任务的泛化。首先,我们的系统将共享自主性融入远程操作中,使我们能够收集原始演示数据和人为干预,以纠正机器人当前的policy。其次,我们的系统根据不同形式的任务规范灵活地调整policy,包括语言指令或执行任务的人的视频。与离散单热任务标识符[8]不同,这些连续形式的任务规范原则上可以通过在测试时提供新任务的语言或视频命令,使机器人能够将零样本或少量样本推广到新任务。这些特性之前已经被探索过;我们的目的是实证研究这些想法是否适用于广泛的现实世界任务。
我们的主要贡献是对大规模交互式模仿学习系统的实证研究,该系统解决了广泛的任务,包括零样本和对训练中未看到的任务的少量泛化。使用该系统,我们通过专家远程操作和共享自主过程的组合收集了100个机器人操纵任务的大型数据集,在该过程中,人类操作员通过修复错误来“指导”学习到的policy。在12个机器人中,7名不同的操作员收集了25877个机器人演示,总计125小时的机器人时间,以及18726个相同任务的人类视频。在测试时,该系统能够在以前从未出现在同一场景中的对象之间执行24个看不见的操纵任务。这些闭环视觉运动器policies以10hz的频率执行异步推理和控制,每集的决策量远远超过100个。我们开源了用于训练policy的演示athttps://www.kaggle.com/google/bc-z-robot.
2 Related Work
模仿学习在从低维状态学习抓握和选择位置任务方面取得了成功[9,10,11,12,13,14,15]。深度学习已经实现了直接从原始图像观察中进行模仿学习[8,16,17]。在这项工作中,我们专注于在模仿学习框架中实现对新任务的零样本和少搜索泛化。
多个先验模仿学习作品已经实现了不同形式的泛化,包括对新对象的一次 one-shot泛化[1,2,3,4,18],对新对象配置的一次概括[19],和对新目标配置的6,7、20],以及对新对象[5]、场景[21]和目标配置的零样本泛化[22]。其中许多作品通过机器人演示[1,2]、人类视频[3,4]、语言指令[23,24]或目标图像[21]来适应新的场景。我们的系统灵活地对人类的视频或语言指令进行调节,我们专注于实现零样本(语言)和少热点(视频)泛化,以在真实机器人上完成全新的7-DoF操作任务,包括没有目标图像的场景,以及在训练数据中从未一起遇到任务相关对象的场景。
通过远程操作[25]或动觉教学[10]收集演示的标准,dagger[26]等主动学习方法有助于减少学习者的分布转移。不幸的是,dagger 及其一些变体 [27, 28] 是众所周知的难以应用于机器人操作,因为它们需要一个接口,其中专家必须在不控制机器人 policy 时注释正确的动作。受最近自动驾驶工作的启发,hg dagger[29]和eil[30],我们的系统只需要专家在认为policy可能出错时进行干预,并允许专家暂时完全控制policy,使其重回正轨。由此产生的数据收集方案易于使用,有助于解决分布转移问题。此外,数据收集期间的专家干预率可以用作实时评估指标,我们实证发现这与policy的成功率相关。
除了模仿学习,泛化在许多其他机器人学习工作中也得到了研究。这包括将技能推广到新对象[31,32,33,34,35]、新环境[36]、从模拟到现实[37,38,39,40,41]以及新的操作技能和对象[42,43,44,45]的作品。我们专注于推广到新任务的最后一个案例,但与这些先前的工作不同,我们处理了100个具有挑战性的任务,这些任务涉及10 Hz的7 DoF控制,并在一个事件中涉及100多个决策来解决任务。
3 Problem Setup and Method Overview
我们的模