抓取检测之Dex-Net 2.0

前言

如今,在各种期刊顶会都能看到平面抓取检测的论文,他们声称能应对多物体堆叠场景,然而实际效果都不尽人意,我认为主要原因有如下几点:

(1)缺乏多物体堆叠场景的抓取数据集。现在最常用的Cornell Grasp Dataset, Jacquard数据集都是单目标场景。(像Dex-Net数据集和Google机器人工厂这种东西普通研究者就只能看着了)

(2)现在的研究者过于强调端到端检测。

(3)没有一个合适的抓取表示法。

如何利用少量数据集学习一个端到端网络或者整个方法中的一个子网络,实现堆叠场景中的平面抓取检测亟待解决。这里所说的堆叠场景是下左图,而不是大多数论文所说的右图:

     

在众多的机器人抓取研究中,平面抓取检测因其算法简单、效果显著等特点研究者众多,到目前为止,效果最好的算法当属Dex-Net 4.0,本文和接下来的几篇博文将简单介绍下这个系列算法。

简单说一下Dex-Net系列算法。Dex-Net共包括1.0--4.0四个版本,1.0为传统的解析法,不进行介绍。2.0基于深度学习对平行板抓取配置进行质量评估,3.0针对吸盘进行设计,4.0结合了2.0和3.0两个算法,演示视频我放到了B站:

Dex-net2.0:  https://www.bilibili.com/video/BV1WT4y1M7Ec

Dex-net4.0:  https://www.bilibili.com/video/BV1bi4y157P5

1、研究思路

算法输入为深度图,输出为平面抓取表示,即坐标点和抓取角,然后张开平行板抓取器至最大并垂直抓取。算法主要包括两部分:采样抓取候选,抓取质量评估。采样抓取候选:从给定深度图中采样很多个候选的抓取配置,抓取质量评估:评估上一步每个抓取配置的质量[0,1],然后输出质量最高的抓取配置,如下图。其中,第一步采用的传统方法,第二步采用的深度学习,为了训练这个网络,作者“丧心病狂”地生成了一个包含670万个样本的数据集。为了完成两个阶段的衔接,神经网络的输入也不能是传统的深度图,而是经过精心设计裁剪后的深度图。整个算法最妙的地方在于突破了传统的抓取思路:端到端地抓取检测,直接预测最优的抓取配置。

Dex-Net2.0采用的抓取表示为(x,y,theta),其中(x,y)为抓取点在深度图中的坐标,theta为抓取方向,在抓取时,抓取手张到最大然后垂直抓取,如下图:

第一步的采样抓取候选采用cross entropy method[URL],这里不做详细介绍,下面主要介绍第二阶段:抓取质量评估

2、抓取质量评估

为了完成两个阶段的衔接,输入神经网络的数据就不能是传统的深度图,而是以抓取点为中心,抓取方向水平的一个深度图像快,下面详细介绍:

2.1 网络输入

经过第一阶段,得到了很多个(x,y,theta),既然是评估每个(x,y,theta)的质量,就必须把(x,y,theta)和深度图像都做为网络的输入,那么以何种方式输入呢?作者给的方案是:以抓取点(x,y)为中心,将深度图像旋转theta角,使抓取方向与图像的水平轴平行,然后以抓取点(x,y)为中心,切出一块32*32大小的深度图块,将这个深度图块输入网络,除此之外,还将抓取点(x,y)相对于桌面的高度z作为另一个输入(感觉不需要输入z,不过没有验证)。如下图:

2.2 网络输出

输出是,以这个抓取配置进行实际抓取,成功的概率,[0,1]。

2.3 网络结构

如上图。详细结构请参考论文。

2.4 采集数据集

从Dex-Net1.0中筛选了1500个3D物体模型(Dex-Net1.0是一个3D物体模型及抓取数据集),对其中的每个物体,采取同样的操作:将物体随机放在虚拟桌子上,获取当前状态下的垂直抓取表示即(x,y,theta)(可从Dex-Net1.0的标注中直接生成),这些抓取有些是可以用于实际抓取的,有些无法用于抓取。然后使用虚拟深度相机拍摄深度图,然后对每个抓取表示执行和2.1网络输入同样的操作,就得到了670万个正负样本,如下图:

3、实际抓取过程

请看下面截图(懒得写了。。):

4、实验结果

在训练过的物体上的实验结果:

其中,GQ-L-Adv是论文给的几个变种网络的其中一个,前面的Random、IGQ等使对比方法。

Success Rate是从输入深度图到抓取的成功率。

Precision是在得到最优抓取配置的情况下的抓取成功率(有可能网络认为所有的采样抓取都不行,大于0.5认为可行)

Robust Grasp Rate是网络认为质量最高的抓取可行的概率(比如输入100张图像,只有50张图中给出的质量最高的抓取的可行性大于0.5,则该项值为50%)。

在新物体上的实验结果:

训练过的物体的Precision比没训练过的物体低的原因是,测试用的训练的物体都是形状复杂且很难抓取的那种。

5、总结

1、论文主要创新点是:

(1)Dex-Net 2.0 大型数据集,包含670万个样本。

(2)两阶段抓取检测算法,先采样候选抓取,再评估抓取质量。

2、论文所有的实验都是在单目标场景中,或者物体没有重叠的场景,可以看出多物体堆叠场景效果不佳。

3、新物体的 Robust Grasp Rate 较低,只有58%。

4、数据集太大,不适合一般研究者做。

5、没有闭环抓取,只适合精度高的(很贵的)机械臂。论文里用的ABB Yumi 价格在百万以上,我现在用的kinova机械臂(10-20万)即使检测的抓取很合适,抓取成功率也不高(89%)。

6、抓取宽度是固定值,不能用于狭小的空间(个人认为是Dex-Net系列最大的缺陷)。

 

评论 15
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值