Grid R-CNN 翻译

最新推荐文章于 2024-05-25 09:47:13 发布

hb_ma

最新推荐文章于 2024-05-25 09:47:13 发布

阅读量921

点赞数

分类专栏：图像处理计算机视觉深度学习

深度学习同时被 3 个专栏收录

43 篇文章 1 订阅

订阅专栏

图像处理

38 篇文章 0 订阅

订阅专栏

计算机视觉

37 篇文章 0 订阅

订阅专栏

Grid RCNN时候商汤的最新力作

摘要

本文提出了一种新的目标检测框架Grid R-CNN，该框架采用网格引导的定位机制进行精确的目标检测。与传统的基于回归的方法不同，网格R-CNN对空间信息进行了显式捕获，具有全卷积架构的位置敏感特性。为了减少特定点预测不准确的影响，我们设计了一个多点监督公式来编码更多的线索，而不是仅仅使用两个独立的点。为了充分利用网格中各点之间的相关性，提出了一种两阶段信息融合策略来融合相邻网格点的特征映射。网格引导的定位方法很容易扩展到不同的最先进的检测框架。网格R-CNN实现了高质量的目标定位，实验表明，与使用Res50骨干和FPN架构的速度更快的R-CNN相比，在COCO基准上，网格R-CNN在IoU=0.8和IoU=0.9时的AP增益分别为4.1%和10.0%

1.介绍

目标检测任务可以分解为目标分类和定位。近年来，提出了许多基于深度卷积神经网络(CNN)的检测框架，并取得了最先进的结果[1,2,3,4,5,6]。虽然这些方法在许多不同方面提高了检测性能，但它们的包围盒定位模块是相似的。典型的包围盒定位模块是一个回归分支，它被设计为几个完全连接的层，并采用高级feature map来预测候选盒(proposal or)的偏移量。（译者注。其实这样说，过于片面）

本文介绍了一种新的目标检测框架Grid R-CNN，将传统的回归公式替换为网格点引导的定位机制。并将显式空间表示有效地用于高质量的定位。与feature map通过全连通层折叠成矢量的回归方法不同，Grid R-CNN将对象包围盒区域划分为网格，使用全卷积网络(FCN)[7]预测网格点的位置。由于全卷积体系的位置敏感特性，网格R-CNN保持了显式的空间信息，可以在像素级上获得网格点的位置。如图1.b所示，当已知指定位置的网格点个数时，确定对应的包围框。在网格点的引导下，网格R-CNN比缺乏显式空间信息引导的回归方法更能准确地确定物体的边界框。

由于一个包围框有四个自由度，两个独立的点(例如左上角和右下角)就足以定位一个特定的对象。然而，由于这些点的位置与局部特征并不直接对应，因此预测并不容易。例如，图1中猫的右上角点位于物体体外，图像中猫的邻域区域只包含背景，它可能与附近像素具有非常相似的局部特征。为了解决这一问题，我们设计了一个多点监控方案。通过在网格中定义目标点，我们可以获得更多的线索来减少某些点预测不准确的影响。

此外，为了充分利用网格中各点之间的相关性，我们提出了一种信息融合的方法。具体地说，我们为每个网格点设计单独的一组feature map。对于一个网格点，收集相邻网格点的特征映射并融合成一个完整的特征映射。利用集成的特征映射对相应的网格点进行位置预测。结合空间相关网格点的互补信息，使预测更加准确.

我们展示了网格R-CNN框架在具有挑战性的COCO基准[10]的目标检测上的有效性。我们的方法比传统的基于最先进的回归方法有显著的优势。例如,我们超越快R-CNN[3]的骨干ResNet-50[8]和红外系统[4]建筑2.2% AP。进一步比较不同的借据阈值条件表明,我们的方法具有压倒性的力量在高质量的对象定位,美联社获得借据= 4.1% 10.0%和0.8 AP增益借据= 0.9。

我们工作的主要贡献如下:

1. 我们提出了一种新的定位框架，称为Grid R-CNN，它通过充分卷积网络有效地保存空间信息，替代了传统的回归网络。据我们所知，Grid R-CNN是第一个提出的基于区域(两阶段)的检测框架，通过预测像素级的网格点来定位目标。

2. 我们设计了一种多点监控形式来预测网格中的点，以减少一些不准确点的影响。我们进一步提出了一种地物图级信息融合机制，使空间相关的网格点能够获得合并的地物，从而可以很好地校准它们的位置。

3.我们进行了大量的实验，证明了网格R-CNN框架在不同的检测框架和网络架构中具有广泛的适用性，并且具有一致的增益。网格R-CNN在更严格的本地化标准(如IoU阈值= 0.75)中表现更好。因此，我们相信网格引导的定位机制是基于回归的定位方法的更好选择。

2.相关工作（省略）

值得注意的是，我们的方法与CornerNet。CornerNet是一种单阶段自底向上的方法，这意味着它直接从整个图像生成关键点，而不需要定义实例。因此，corner的关键步骤是识别哪些关键点属于同一个实例，并对它们进行正确分组。与此相反，我们的方法是自顶向下的两阶段检测器，它在第一阶段定义实例。我们关注的是如何更准确地定位包围框的关键点。此外，我们还设计了网格点特征融合模块来利用该特征.

3.Grid RCNN

Grid R-CNN框架的概述如图2所示。基于区域建议，从CNN主干网获得的feature map中分别提取每个RoI的特征。然后利用RoI特征对相应的提案进行分类和本地化。与之前的工作，如faster R-CNN相比，我们使用网格引导机制进行定位，而不是偏移回归。网格预测分支采用全卷积网络[7]。它输出一个良好的空间布局(概率热图)，从中我们可以定位与对象对齐的边界框的网格点。与最后采用特征映射层次信息融合的方法确定了精确的目标边界框。

前半部分与Faster R-CNN相同，在得到目标候选区域和ROI特征后，分类部分进行目标分类，而定位部分接全卷积网络，其监督信息来自根据目标位置计算得到的网格监督信息。

流程图中作者特别标出了特征融合模块（feature fusion module），其意在使用网格中相邻网格点的位置相关性，融合特征使得定位更加精确。

以下针对其中关键步骤进行详细说明。

3.1 网格引导定位

将目标区域划为网格，目标的定位即转化为网格点的定位。

训练时，ROI特征（14*14大小）通过8个3*3空洞卷积，再通过两个反卷积把尺寸扩大（56*56），再通过一个卷积生成与网格点相关的 heatmaps（9 个点就是 9 张图，后文实验也使用了4个点的情况）。监督信息是每一个点所处位置的交叉十字形状的5个点的位置。最后再接sigmoid函数，在heapmaps上得到概率图。

推断时，将heapmaps极值的位置映射回原图，即得到了网格点的位置。

读到这里，读者可能会有一个疑问，即计算得到的网格点组成的形状是方方正正的，而Heapmaps极值得到的网格点未必组合在一起是方方正正的，不好确定目标区域。

作者的方法是对原本应该具有相同x或者y坐标的网格点的坐标进行平均。

到此，即得到了目标位置。

3.2 网格点特征融合

很显然，网格点之间具有内在的联系，相邻网格点之间可以相互校正位置提高定位精度。

为此，作者设计了网格点特征融合的机制。

首先，在计算网格点heapmaps时，每个网格点使用不同的滤波器组，防止它们之间共用特征以至相互影响。

然后在每个网格点的Heapmap出来后，将相邻网格点的Heapmaps经过卷积滤波与其相加，形成新的heapmap。

作者将距离特定网格点最近的相邻网格点（1个单位网格长度）组成的网格点集合的特征融合称为一阶特征融合，次近的相邻网格点（2个单位网格长度）组成的网格点集合的特征融合称为二阶特征融合。下图中（a）（b）分别展示了此融合过程。

3.3 扩展区域映射

这一步主要是为了应对在实际使用中，RPN 给出的 proposal并不总是将完整物体包含在内。如下图：

图中白色的实线框表示 RPN 给出的候选框，它没有完全包含所有的网格点。

而作者指出，简单的扩大候选框的大小，不会带来提升，甚至降低对小物体检测的精度（后面有实验验证）。

作者认为heatmap的感受野其实是很大的，并不限于候选框内，所以就干脆直接将heatmap对应的区域看成候选框覆盖的区域两倍大（如图中虚线围起来的区域）。

这么做的好处是，只需简单修改网格引导定位中的位置映射公式。即

4.实验

作者首先研究了算法中网格点数对精度的影响。如下图：

相比回归的方法，Grid R-CNN精度更高，而且随着点数增加精度也在提高。

比较AP0.5和AP0.75发现，精度提升主要来自高IoU阈值的情况。

其次，作者实验了网格点特征融合策略对性能的影响。如下图：

可见该文提出的特征融合策略是有效的，而且二阶特征融合更加有效。

然后，作者实验了扩展区域映射对精度的影响。如下图：

可见，直接扩大候选框区域的方法伤害了精度，而本文提出的扩展区域映射(extended region mapping)的方法则使精度有较大的提高（1.2个AP）。

作者又在主流的目标检测数据库上与state-of-the-art进行了比较。

下图展示了在Pascal VOC数据集上，相比R-FCN、FPN，使用相同骨干网的情况下，精度取得了极大的提升！

hb_ma

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Grid R-CNN 翻译

Grid RCNN时候商汤的最新力作摘要本文提出了一种新的目标检测框架Grid R-CNN，该框架采用网格引导的定位机制进行精确的目标检测。与传统的基于回归的方法不同，网格R-CNN对空间信息进行了显式捕获，具有全卷积架构的位置敏感特性。为了减少特定点预测不准确的影响，我们设计了一个多点监督公式来编码更多的线索，而不是仅仅使用两个独立的点。为了充分利用网格中各点之间的相关性，提出了一种两阶...
复制链接

扫一扫

专栏目录