平面抓取检测的任务是,输入感知数据,输出抓取配置。到目前,基于学习的平面抓取检测方法主要分为两类:
(1)一阶段的端到端学习方法。
(2)两阶段的学习方法。
1、一阶段学习法
在这类方法中,直接学习从输入数据到抓取配置的映射函数,即神经网络。输入通常为RGB图像或深度图像,输出为抓取配置的集合,然后根据置信度选取最优的抓取配置。目前以基于矩形框抓取表示的方法为主,如
(1)Fully Convolutional Grasp Detection Network with Oriented Anchor Box
(2)Real-world Multi-object, Multi-grasp Detection
(3)Densely Supervised Grasp Detector (DSGD)
2、两阶段学习法
包括两阶段:抓取配置采样,抓取配置评估。第一阶段首先采样多个抓取配置,第二阶段评估每个候选抓取的质量,然后选取最优的抓取。目前最好的是Dex-Net 4.0:
(1)Dex-Net 4.0: Learning ambidextrous robot grasping policies
3、讨论
一阶段学习法的GroundTruth是物体上所有的可行抓取配置,标注抓取配置可以手动标注、机器人实际试错标注或者虚拟环境自动生成,存在下面几个问题:
(1)手动标注没有统一标准,存在误差。
(2)机器人标注太耗时,2016年ICRA的Supersizing Self-supervision: Learning to Grasp from 50K Tries and 700 Robot Hours 耗费了大量时间,最终的结果却不尽人意。
(3)不管是哪种标注方法,都无法详尽地标注物体所有可行的抓取方法,这意味着,神经网络没有最佳的学习target。
(4)多物体堆叠场景难以进行标注,导致现在的平面抓取数据集几乎都是单物体的(cornell、Jacquard等,现在应该有合成的多物体场景数据集,没太关注),使得学习的网络在bin-picking任务中表现较差。
二阶段学习法的GroundTruth是抓取样本的质量,即0或1。数据集可以在虚拟环境中自动生成数据集,学习的target也是最佳的,不过合成像Dex-Net4.0那种百万级的样本也不是一般实验室能做的。尽管如此,可以看出二阶段学习法比一阶段学习法更好,更值得研究。下一步的研究方向是如何面向小数据集进行抓取检测。