机械臂论文笔记（五）【2020抓取检测】机器人目标抓取区域实时检测方法卢智亮

最新推荐文章于 2024-03-09 14:53:58 发布

CSPhD-winston-杨帆

最新推荐文章于 2024-03-09 14:53:58 发布

阅读量4.2k

点赞数 4

文章标签：机器学习深度学习计算机视觉人工智能

本文链接：https://blog.csdn.net/WhiffeYF/article/details/111091320

版权

论文下载

摘要

摘要：针对目前机器人目标抓取区域检测方法无法兼顾检测准确率和实时性的问题，提出一种基于 SE-Retina Grasp神经网络模型的机器人目标抓取区域实时检测方法。该方法首先以一阶目标检测模型RetinaNet为基础提取抓取框位置及抓取角度；针对抓取检测任务采用 SENet结构确定重要的特征通道；结合平衡特征金字塔设计思想，充分融合高低层的特征信息，以加强小抓取框的检测性能；在Cornell数据集上进行实验验证，结果表明该方法在取得更高检测准确率的同时，提高了抓取检测的效率，达到实时检测的要求。
关键词：抓取区域检测；SENet结构；平衡特征金字塔；实时检测

Abstract：Aiming at the problem that the current robot target grasping area detection method cannot take into account the detection accuracy and real-time performance, a real-time detection method of robot target grasping area based on SE RetinaGrasp neural network model is proposed. Firstly, based on the one-stage target detection model RetinaNet, the position of the grasping rectangles and the grasping angle are extracted. Secondly, the SENet structure is used to determine the important feature channel in the grabbing detection task. Then, combined with the balanced feature pyramid design idea, the fusion is fully integrated. The feature information of the upper and lower layers is used to enhance the detection performance of the small grasping rectangles. Finally, the experimental verification is performed on the Cornell dataset. The results show that the method improves the detection accuracy while improving the detection accuracy, efficiency to meet real-time detection requirements.

1 引言

在家庭和工业场景下，抓取物体是机器人进行人机协作任务的关键步骤。人类可以准确且稳定地执行抓取形状不规则以及任意姿态的物体。然而对于机器人而言，准确地抓取各式各样、任意姿态的物体依旧是一种挑战。机器人若要抓取目标物体，需要预先检测该物体的抓取区域，不适当的抓取区域将导致机器人无法稳定地抓取物体。因此，如何实时且准确地检测目标抓取区域，是机器人领域中一个重要研究方向。

近年来，国内外学者对机器人抓取区域检测的研究已有不错的成果。Lenz 等[1]率先采用深度学习的方法提取 RGB-D 多模态特征，基于滑动窗口检测框架同时使用支持向量机（Support Vector Machine，SVM）作为分类器，预测输入图像中的一小块图像是否存在合适的抓取位置。与Jiang等[2]使用传统机器学习方法相比，该方法不需要人为针对特定物体设计视觉特征，而是以自主学习的方式提取抓取区域的特征。在 Cornell 数据集[3]上，上述方法达到 73.9%的准确率。然而采用滑动窗口的方法会导致搜索抓取区域耗费时间长且计算量大。杜学丹等[4]在检测抓取位置前，先使用Faster R-CNN二阶目标检测算法[5]预测被抓物体的大致区域，缩小搜索范围以减少搜索时间，但该方法并未从本质上减少检测时间且计算量仍旧偏大，无法达到实时检测的要求。

Redmon等[6]不再基于滑动窗口框架搜索抓取框，而是利用 AlexNet 网络[7]强大的特征提取能力，直接在整个图像上回归抓取框参数。将输入的图像划分成N × N 个网格单元，每个网格单元预测一个抓取配置参数及适合抓取的概率，取其中概率最高的作为预测结果。在相同数据集上达到 88.0%的准确率，平均检测时间为76 ms。Kumra等[8]也采用全局抓取预测的方法，使用网络结构更复杂的ResNet-50[9]提取多模态特征，准确率相应提高 1.21%。以上两种方法借助性能强大的特征提取网络力求尽可能提高检测速度和检测准确率，但是直接回归抓取框参数容易导致预测的抓取框趋向于物体的中心，对于如盘子等抓取部位为物体边缘的情况，预测的效果并不理想。

Chu等[10]提出旋转抓取框的方法，将方向预测视为抓取角度分类问题，借鉴Faster R-CNN二阶目标检测算法的思想，首先判断由 GPN（Grasp Proposal Network）推荐的多个抓取候选区域能否用于抓取目标物体，然后判断剩余的抓取候选区域角度所属类别。该方法使用三种基础面积以及三种不同长宽比的锚框（Anchor）搜索抓取候选区域，达到 96%的准确率，平均检测时间为120 ms。该方法虽然大幅度减少文献[1]和[4]中算法的检测时间，但依旧无法满足动态环境或动态物体下实时抓取检测的要求，并且仅利用特征提取网络中最后一层的特征图进行预测，倾向于检测较大的抓取框，对小抓取框检测性能不足，检测精确性有待提高。

综上国内外学者的抓取检测算法已达到不错的效果，但是仍然存在以下两个问题：第一，高准确率下检测抓取框时间过长，不满足机器人抓取检测的实时性要求；第二，容易忽略目标物中可用于抓取的小部位信息，检测出来的抓取框偏大、精确度不足。

针对以上问题，本文提出一种基于嵌入通道注意力结构 SENet[11]的一阶抓取检测网络（Squeeze and Excitation Networks-RetinaNet used for Grasp，SE-RetinaGrasp）模型的机器人抓取区域实时检测方法。该方法采用快速的一阶目标检测模型 RetinaNet[12]作为基本结构，在其特征提取网络中嵌入通道注意力模块SENet以提升重要特征通道的权重，确保检测精度；而且为了解决原 RetinaNet模型特征融合中仅关注相邻层特征信息的问题，结合平衡特征金字塔[13]（Balance Feature Pyramid，BFP）思想，充分融合高低层的特征信息，加强检测小抓取框的能力。

2 抓取框在图像空间的表达方式

给定包含目标物的图像 I ，检测该目标物的最优抓取框 G ，需要先明确抓取框在图像空间的表达方式。本文针对末端执行器为平行夹爪的情况，采用文献[1]提出的抓取框表达方法表示机器人抓取的具体位置，如图1所示，公式表示为：
在这里插入图片描述
其中，(x,y) 为抓取框的中心点；h 、w 分别表示机器人平行夹爪的高度、平行夹爪张开的距离大小；θ 为沿 w方向与图像 x 轴正方向之间的夹角。过大的抓取框容易导致抓取中心点的偏移和预测的 w 远大于夹爪实际可张开的大小，抓取框的精确性直接影响机器人能否稳定地抓取目标物。

3 SE-RetinaGrasp模型

机器人目标抓取区域实时检测算法流程框图如图2 所示。首先，获取包含目标物的 RGB 场景图像；其次对该图像进行数据预处理操作后，作为抓取检测网络模型的输入；最后模型生成可用于抓取目标物的抓取框，机械臂利用抓取框的位置姿态信息，完成抓取目标物的任务。
在这里插入图片描述

本文提出的 SE-RetinaGrasp 模型如图 3 所示。图（a）表示特征提取网络，在深度残差网络ResNet-50中嵌入SENet模块，对抓取检测任务起积极作用的特征通道加强权重；图（b）表示平衡金字塔结构，进一步融合特征金字塔结构FPN（Feature Pyramid Networks）[14]中高低层的特征信息；图（c）表示两个 FCN（Fully Convolutional Networks）[15]子网络，分别用于抓取框的定位以及抓取角度的分类

在这里插入图片描述

3.1 RetinaNet一阶目标检测模型

一阶目标检测模型RetinaNet是由文献[12]提出，用以验证提出的 Focal Loss 函数对解决训练过程中正负样本类别失衡问题的效果。考虑到目标物仅占输入图像中的一部分，为解决一阶目标检测模型中密集采样候选机制导致的正负样本失衡的问题，本文采用 Focal Loss 函数作为分类损失函数、光滑 L1 函数处理抓取框参数的回归问题。

其中，Focal Loss函数是一种改进的交叉熵（Cross Entropy，CE）损失函数，通过在原有的交叉熵损失函数中乘上使易检测目标对模型训练贡献削弱的指数式，成功减少目标检测损失值容易被大批量负样本左右的现象。Focal Loss函数定义如下：
在这里插入图片描述

假设有 $N$ 个样本，总共有 $T$ 种分类， $y$ 为真实标签， $p_{i,t}$ 为第 $i$ 个样本被预测为第 $t$ 类目标的概率大小；平衡参数 α 用以调整正负样本对总分类损失的贡献； $1 - y_{i,t})^γ$ 为Focal Loss函数添加的指数式系数，用以降低易分类样本的权重，将更多注意力放在难分类样本的训练上。其中，α 、γ 为超参数，不参与模型的训练过程。

RetinaNet 检测模型主要由 ResNet-50 提取特征网络、特征金字塔 FPN 结构以及两个 FCN 子网络组成。RetinaNet检测模型，如图4所示。
在这里插入图片描述

C1、C2、C3、C4、C5 分别为ResNet50网络中采用不同个数残差块（Residual）提取的不同分辨率大小特征图。根据低层特征语义信息弱，目标位置清晰；高层特征语义信息强，目标位置模糊的特点，FPN 结构通过自底向上连接、自顶向下连接以及横向连接，对不同层的特征信息进行融合。与原FPN结构不同的是：

（1）RetinaNet 模型仅利用 C3、C4、C5 特征图，避免在高分辨率 C2 特征图中生成 Anchor，减少模型检测时间。

（2）对 C5 特征图进行卷积核为 3×3，步长为 2 的卷积运算得到 P6 网络结构；对 P6 使用 Relu 激活函数增加非线性后再进行相同的卷积运算得到 P7 结构，通过在 P6、P7 生成较大面积的候选区域增强模型检测大物体的性能。

与目标检测任务不同的是，抓取检测任务是检测可用于抓取目标物的区域位置，并非检测目标物自身的位置。针对目标物抓取区域面积较小的特点，为使RetinaNet模型更好地应用于抓取检测任务中，本文仅在P3、P4、P5 三个层次生成抓取候选区域，采用 ${8^2 ,16^2 ,32^2}$ 基础大小的候选窗口，加入 ${2^0 , 2^{1/3} ,2^{2/3} }$ 三种不同的尺度和{1∶2，1∶1，2∶1}三种不同的长宽比，搜索各种尺寸大小的抓取候选框。

3.2 SENet结构

从文献[10]的实验发现，将特征提取网络 Vgg16[16]替换为 ResNet-50仅提高 0.5%的准确率，证明当网络达到一定深度时，继续加深网络层数并不能对准确率有较大的提升。本文从考虑特征通道之间的关系出发，在特征提取网络 ResNet-50中的每一个残差块后嵌入 SENet模块，增强抓取检测任务中关键通道的注意力，以提升检测准确度。SENet结构，如图5所示。
在这里插入图片描述
SENet模块主要采用挤压（Squeeze）、激励（Excitation）以及特征重标定（Scale）三个操作完成特征通道自适应校准。

首先使用全局平均池化压缩每一个特征图，将 C 个特征图转换成 1 × 1 × C 的实数数列，使每一个实数具有全局感受野。然后本文通过两个卷积层完成降维与升维的操作，第一个卷积层将特征维度降低到原来的 C/r后通过Relu激活函数增加非线性；第二个卷积层恢复原来的特征维度，经过Sigmoid函数得到归一化的权重，最后通过乘法逐通道加权到原来的特征通道上，对原始特征进行重标定。挤压、激励以及特征重标定公式如下所示：
在这里插入图片描述

3.3 平衡特征金字塔

针对原RetinaNet模型中FPN结构仅融合相邻层次的特征信息，导致高低层特征信息利用不平衡的现象。为进一步加强检测小抓取框的效果，充分利用不同分辨率下的特征信息，本文受文献[13]中平衡特征金字塔结构的启发，对原 RetinaNet 模型中的特征金字塔结构进行改进。平衡特征金字塔结构如图 6 所示。提取 P3、 P4、P5 三个层次的特征图，对 P3、P5 分别采用最大池化操作、上采样操作，使 P3、P5 的特征图分辨率与 P4特征图保持一致，三者对应元素相加取平均，得到平衡特征图 P′ ，公式如下：
在这里插入图片描述
其中， $P_l$ 表示第 $l$ 层特征；本文中 $l_{min}$ 、 $l_{max}$ 代表最低层数、最高层，分别为3、5；N 代表累加的层数量。对平衡特征图 $P^′$ 进行卷积核为 3 × 3，步长为 1 的卷积运算得到进一步提炼的特征图 $P^r$ ，使特征信息更具有判别性。最后调整提炼后的特征图 $P^r$ 分辨率大小分别与 $P 3 、 P 4 、 P 5$ 层次的特征图分辨率大小一致，与原层次的特征对应元素相加，分别得到增强原层次特征表征能力的 $P3^′ 、P4^′ 、P5^′$ ，特征图，从而增强模型捕捉细节信息的能力，有助于检测小抓取框。
在这里插入图片描述