1. 摘要
当前基于学习的机器人抓取方法利用人类标记的数据集来训练模型。然而,这种方法存在两个问题:(a)由于每个对象都可以通过多种方式掌握,因此手动标记抓取位置并非易事; (b)人类标签受到语义的偏见。虽然已经尝试使用反复试验来训练机器人,但是在这样的实验中使用的数据量仍然非常低,因此使得学习者倾向于过度拟合。在本文中,我们将可用的训练数据增加到先前工作的40倍,从而导致在700小时的机器人抓取尝试中收集的数据集大小为50K数据点。这允许我们训练卷积神经网络(CNN)用于预测抓握位置而没有严重过度拟合的任务。在我们的公式中,我们将回归问题重新设计为图像补丁上的18路二进制分类。我们还提出了一种多阶段学习方法,其中在一个阶段中训练的CNN用于在后续阶段收集硬阴性。我们的实验清楚地表明了使用大规模数据集(和多阶段训练)来完成抓取任务的好处。我们还比较了几个基线,并展示了对于抓取不可见对象的概括性的最新表现。
2. 介绍
- 考虑图1(a)所示的对象。我们如何预测该物体的抓地位置?一种方法是将3D模型拟合到这些对象,或使用3D深度传感器,并执行分析3D推理以预测抓握位置[1] - [4]。然而,这种方法有两个缺点:(a)拟合3D模型本身是一个极其困难的问题;但更重要的是,(b)基于几何的方法忽略了物体的密度和质量分布,这对于预测抓握位置可能是至关重要的。因此,更实用的方法是使用视觉识别来预测抓握位置和配置,因为它不需要对对象进行显式建模。例如,可以为成百上千个对象创建抓握位置训练数据集,并使用标准机器学习算法,如CNN [5],[6]或自动编码器[7]来预测测试数据中的抓握位置。然而,出于两个原因,使用人类标签创建抓握数据集本身就非常具有挑战性。首先,大多数物体可以通过多种方式掌握,这使得无法进行详尽的标记(因此很难获得负面数据;见图1(b))。其次,人类的把握概念受到语义的偏见。例如,人们倾向于将把手标记为诸如杯子之类的物体的抓握位置,即使它们可能从其他几个位置和配置中可抓握。因此,即使没有被人标记为正的抓握位置,也不能将随机采样的贴片假设为负数据点。由于这些挑战,即使是最大的基于视觉的抓取数据集[8]也只有大约1K的对象图像被隔离(只有一个对象可见,没有任何杂乱)。
- 在本文中,我们打破了使用手动标记的抓握数据集来训练掌握模型的模式。我们认为这种方法不具备可扩展性。相反,在强化学习(和人类经验学习)的启发下,我们提出了一种自我监督算法,该算法通过反复试验来预测抓握位置。但是,我们需要多少培训数据来培训大容量模型,如卷积神经网络(CNNs)[6],以预测新看不见的物体的有意义的抓握位置?最近的方法尝试使用具有几百个数据点的强化学习并学习具有数十万个参数的CNN [9]。我们认为,这种训练数据远远少于模型参数数量的方法必然会过度拟合,并且无法推广到新的看不见的物体。因此,我们需要的是一种收集成百上千个数据点的方法(可能通过使机器人与对象24/7交互)来学习该任务的有意义的表示。但是,是否真的可以扩展试验和错误实验来学习掌握预测任务的视觉表征?
- 鉴于CNN等高容量学习算法的成功,我们认为现在是时候开发用于抓取等基础任务的大型机器人数据集了。因此,我们提出了一项大规模的实验研究,不仅大大增加了学习掌握的数据量,而且提供了在特定位置和角度是否可以掌握物体的完整标签。通过机器人执行的交互收集的此数据集将被发布以供社区研究使用。我们使用此数据集来微调在ImageNet上预训练的AlexNet [6] CNN模型,在完全连接的层中学习18M新