Supersizing Self-supervision: Learning to Grasp from 50K Tries and 700 Robot Hours

这篇论文提出了一个大规模的自我监督学习方法来解决机器人抓取问题。通过50,000次尝试和700小时的机器人操作,收集了前所未有的数据集,用于训练卷积神经网络(CNN)预测抓握位置。采用18路二进制分类任务,解决了过度拟合问题。同时,提出了多阶段学习策略,通过不断学习和改进,提高模型在未知物体上的泛化能力。实验结果显示,这种方法明显优于基于启发式和学习的基线方法,并在真实机器人环境中验证了其效果。" 113145308,10541174,Flex连接MySQL via C# WebService教程,"['前端开发', '后端开发', '数据库']
摘要由CSDN通过智能技术生成

1. 摘要

当前基于学习的机器人抓取方法利用人类标记的数据集来训练模型。然而,这种方法存在两个问题:(a)由于每个对象都可以通过多种方式掌握,因此手动标记抓取位置并非易事; (b)人类标签受到语义的偏见。虽然已经尝试使用反复试验来训练机器人,但是在这样的实验中使用的数据量仍然非常低,因此使得学习者倾向于过度拟合。在本文中,我们将可用的训练数据增加到先前工作的40倍,从而导致在700小时的机器人抓取尝试中收集的数据集大小为50K数据点。这允许我们训练卷积神经网络(CNN)用于预测抓握位置而没有严重过度拟合的任务。在我们的公式中,我们将回归问题重新设计为图像补丁上的18路二进制分类。我们还提出了一种多阶段学习方法,其中在一个阶段中训练的CNN用于在后续阶段收集硬阴性。我们的实验清楚地表明了使用大规模数据集(和多阶段训练)来完成抓取任务的好处。我们还比较了几个基线,并展示了对于抓取不可见对象的概括性的最新表现。


2. 介绍

  • 考虑图1(a)所示的对象。我们如何预测该物体的抓地位置?一种方法是将3D模型拟合到这些对象,或使用3D深度传感器,并执行分析3D推理以预测抓握位置[1] - [4]。然而,这种方法有两个缺点:(a)拟合3D模型本身是一个极其困难的问题;但更重要的是,(b)基于几何的方法忽略了物体的密度和质量分布,这对于预测抓握位置可能是至关重要的。因此,更实用的方法是使用视觉识别来预测抓握位置和配置,因为它不需要对对象进行显式建模。例如,可以为成百上千个对象创建抓握位置训练数据集,并使用标准机器学习算法,如CNN [5],[6]或自动编码器[7]来预测测试数据中的抓握位置。然而,出于两个原因,使用人类标签创建抓握数据集本身就非常具有挑战性。首先,大多数物体可以通过多种方式掌握,这使得无法进行详尽的标记(因此很难获得负面数据;见图1(b))。其次,人类的把握概念受到语义的偏见。例如,人们倾向于将把手标记为诸如杯子之类的物体的抓握位置,即使它们可能从其他几个位置和配置中可抓握。因此,即使没有被人标记为正的抓握位置,也不能将随机采样的贴片假设为负数据点。由于这些挑战,即使是最大的基于视觉的抓取数据集[8]也只有大约1K的对象图像被隔离(只有一个对象可见,没有任何杂乱)。
  • 在本文中,我们打破了使用手动标记的抓握数据集来训练掌握模型的模式。我们认为这种方法不具备可扩展性。相反,在强化学习(和人类经验学习)的启发下,我们提出了一种自我监督算法,该算法通过反复试验来预测抓握位置。但是,我们需要多少培训数据来培训大容量模型,如卷积神经网络(CNNs)[6],以预测新看不见的物体的有意义的抓握位置?最近的方法尝试使用具有几百个数据点的强化学习并学习具有数十万个参数的CNN [9]。我们认为,这种训练数据远远少于模型参数数量的方法必然会过度拟合,并且无法推广到新的看不见的物体。因此,我们需要的是一种收集成百上千个数据点的方法(可能通过使机器人与对象24/7交互)来学习该任务的有意义的表示。但是,是否真的可以扩展试验和错误实验来学习掌握预测任务的视觉表征?
  • 鉴于CNN等高容量学习算法的成功,我们认为现在是时候开发用于抓取等基础任务的大型机器人数据集了。因此,我们提出了一项大规模的实验研究,不仅大大增加了学习掌握的数据量,而且提供了在特定位置和角度是否可以掌握物体的完整标签。通过机器人执行的交互收集的此数据集将被发布以供社区研究使用。我们使用此数据集来微调在ImageNet上预训练的AlexNet [6] CNN模型,在完全连接的层中学习18M新
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值