Supersizing Self-supervision: Learning to Grasp from 50K Tries and 700 Robot Hours

1. 摘要

当前基于学习的机器人抓取方法利用人类标记的数据集来训练模型。然而,这种方法存在两个问题:(a)由于每个对象都可以通过多种方式掌握,因此手动标记抓取位置并非易事; (b)人类标签受到语义的偏见。虽然已经尝试使用反复试验来训练机器人,但是在这样的实验中使用的数据量仍然非常低,因此使得学习者倾向于过度拟合。在本文中,我们将可用的训练数据增加到先前工作的40倍,从而导致在700小时的机器人抓取尝试中收集的数据集大小为50K数据点。这允许我们训练卷积神经网络(CNN)用于预测抓握位置而没有严重过度拟合的任务。在我们的公式中,我们将回归问题重新设计为图像补丁上的18路二进制分类。我们还提出了一种多阶段学习方法,其中在一个阶段中训练的CNN用于在后续阶段收集硬阴性。我们的实验清楚地表明了使用大规模数据集(和多阶段训练)来完成抓取任务的好处。我们还比较了几个基线,并展示了对于抓取不可见对象的概括性的最新表现。


2. 介绍

  • 考虑图1(a)所示的对象。我们如何预测该物体的抓地位置?一种方法是将3D模型拟合到这些对象,或使用3D深度传感器,并执行分析3D推理以预测抓握位置[1] - [4]。然而,这种方法有两个缺点:(a)拟合3D模型本身是一个极其困难的问题;但更重要的是,(b)基于几何的方法忽略了物体的密度和质量分布,这对于预测抓握位置可能是至关重要的。因此,更实用的方法是使用视觉识别来预测抓握位置和配置,因为它不需要对对象进行显式建模。例如,可以为成百上千个对象创建抓握位置训练数据集,并使用标准机器学习算法,如CNN [5],[6]或自动编码器[7]来预测测试数据中的抓握位置。然而,出于两个原因,使用人类标签创建抓握数据集本身就非常具有挑战性。首先,大多数物体可以通过多种方式掌握,这使得无法进行详尽的标记(因此很难获得负面数据;见图1(b))。其次,人类的把握概念受到语义的偏见。例如,人们倾向于将把手标记为诸如杯子之类的物体的抓握位置,即使它们可能从其他几个位置和配置中可抓握。因此,即使没有被人标记为正的抓握位置,也不能将随机采样的贴片假设为负数据点。由于这些挑战,即使是最大的基于视觉的抓取数据集[8]也只有大约1K的对象图像被隔离(只有一个对象可见,没有任何杂乱)。
  • 在本文中,我们打破了使用手动标记的抓握数据集来训练掌握模型的模式。我们认为这种方法不具备可扩展性。相反,在强化学习(和人类经验学习)的启发下,我们提出了一种自我监督算法,该算法通过反复试验来预测抓握位置。但是,我们需要多少培训数据来培训大容量模型,如卷积神经网络(CNNs)[6],以预测新看不见的物体的有意义的抓握位置?最近的方法尝试使用具有几百个数据点的强化学习并学习具有数十万个参数的CNN [9]。我们认为,这种训练数据远远少于模型参数数量的方法必然会过度拟合,并且无法推广到新的看不见的物体。因此,我们需要的是一种收集成百上千个数据点的方法(可能通过使机器人与对象24/7交互)来学习该任务的有意义的表示。但是,是否真的可以扩展试验和错误实验来学习掌握预测任务的视觉表征?
  • 鉴于CNN等高容量学习算法的成功,我们认为现在是时候开发用于抓取等基础任务的大型机器人数据集了。因此,我们提出了一项大规模的实验研究,不仅大大增加了学习掌握的数据量,而且提供了在特定位置和角度是否可以掌握物体的完整标签。通过机器人执行的交互收集的此数据集将被发布以供社区研究使用。我们使用此数据集来微调在ImageNet上预训练的AlexNet [6] CNN模型,在完全连接的层中学习18M新
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值