** 论文:**
- Real-world Multi-object, Multi-grasp
- Deep Grasp: Detection and Localization of Grasps with Deep Neural Networks
摘要:
-
将整个抓取过程分解为 检测物体位置 和更精细的 抓取方向分类过程 整个网络将抓取配置估计问题划分为:
"边界框参数上的回归" 和 "根据RGB-D信息对方向角进行的分类" -
其中,方向分类器还包括无方向竞争类,用以拒绝无单方向分类的预测(个人理解类似于NMS的作用,只保留一个抓取方向的预测),并将其划分为无法抓取的类。文章所提出的方法可以在没有、单个或多个对象可见的更现实的情况下预测抓取候选对象。文章收集了一个新的多对象抓取数据集,用每幅图像的误报率作为传统性能指标进行评估。
-
本文的主要贡献有三个方面:
(1)一个深度网络架构,在没有、单个或多个对象在视图中的情况下预测多个抓取候选对象。与 baseline 方法相比,基于分类的方法得到了改进。
(2)收集多对象、多抓取数据集,并进行手动注释。文章展示了该体系结构的泛化能力及其在多抓取数据集上的预测性能,即每幅图像的错误抓取候选对象与抓取未命中率之间的关系。
(3)使用7自由度机械手和RGB-D相机进行的实验量化了系统抓取放置在随机位置和方向上的各种家用物体的能力。与已发表作品的比较表明,该方法是有效的,实现了实时对象拾取的合理平衡,成功率为89%,从图像到预测再到计划的时间小于0.25秒。 -
研究意义: 早先的深度学习算法往往需要很强的先验知识,并大多在单图中只存在单个物品和单个抓取目标,而这与实际情况不同。现实中许多物品具有多个抓取选项,并且场景可能包含多个对象。
-
另一个研究方向: 从视觉输入直接映射到机器人运动,实现抓取。为了直接规划抓取,采用基于强化学习(RL)的经验抓取规划研究,在真实实验中从机器人获取样本,但此方法培训时间长达数周,可扩展性受到局限,且其对环境的泛化性仍然未知。
该2D顶下矩形框描述了夹持器的位置(x,y)、方向θ和开口距离 h ,描述长度的附加参数 w 完成边界框抓取配置。表述为:g={x, y, θ, w, h}T
网络结构上,本文选择了ResNet-50作为模型的骨干网络,并基于RPN(Region Proposal Network,受区域建议网络)方法对锚框进行分类,讲抓取的建议网络的损失函数定义为(与Faster-RCNN一样,具体描述见RPN的链接文章):
gp_cls:分类的ground truth
gp_reg:回归的ground truth
多目标抓取预测器结构:
- 在深度网络的区域建议阶段之后,最后一个阶段的目标是为候选人确定抓取配置。最后一个阶段将前一阶段的预测区域建议分类为抓取配置参数θ的区域。同时,最后一个阶段也细化了建议边界框到无方向抓取边界框(x,y, w, h)。
- 为了有效地处理区域提案,将一个ROI池层集成到ResNet-50中,以便它可以共享ResNet的卷积层。与以前的图层共享要素地图可避免在感兴趣区域内重新计算要素。AnROI池层处理已识别的GRAP方案的所有特征,然后将这些特征反馈给两个兄弟完全连接的层,用于方向参数分类和边界框回归(x、y、w、h)。ROI池层从ResNet-50的最后一个卷积层(第41层)接收其输入。
- ρl记录softmax层之后L的概率,βl记录相应的预测抓取边界框。β∗为正确的边界框,定义要执行的抓取配置预测的损失函数:
在改进的ResNet-50模型结构下,抓取检测和抓取参数估计的端到端训练采用了总损失:
总结:
文章提出了一种新的抓取检测系统,用于预测RGB-D图像中新对象的抓取候选对象。与以前的工作相比,文章的体系结构能够预测多个候选抓取,而不是单个结果,这表明有希望帮助后续抓取规划过程。文章将回归作为分类方法,将方向回归转换为分类任务。CNN的高分类性能有助于改善抓取检测结果。文章在 Cornell grasping dataset 上评估了他们的系统,并使用通用性能指标和方法与最先进的系统进行比较,以证明他们设计的有效性。文章还针对多目标多抓取场景在自收集的多目标数据集上进行了实验。对于每幅图像1次错误抓取的情况,可达到可接受的抓取检测率。物理抓取实验表明,当基于找到的正确候选抓取进行物理抓取时,性能损失很小(8.3%)。通过将多抓取输出与特定于对象的抓取优先级进行融合,结果可能会得到改善,这将留给未来的工作。