Grid R-CNN 翻译

Grid RCNN时候商汤的最新力作

摘要

本文提出了一种新的目标检测框架Grid R-CNN,该框架采用网格引导的定位机制进行精确的目标检测。与传统的基于回归的方法不同,网格R-CNN对空间信息进行了显式捕获,具有全卷积架构的位置敏感特性。为了减少特定点预测不准确的影响,我们设计了一个多点监督公式来编码更多的线索,而不是仅仅使用两个独立的点。为了充分利用网格中各点之间的相关性,提出了一种两阶段信息融合策略来融合相邻网格点的特征映射。网格引导的定位方法很容易扩展到不同的最先进的检测框架。网格R-CNN实现了高质量的目标定位,实验表明,与使用Res50骨干和FPN架构的速度更快的R-CNN相比,在COCO基准上,网格R-CNN在IoU=0.8和IoU=0.9时的AP增益分别为4.1%和10.0%

1.介绍

目标检测任务可以分解为目标分类和定位。近年来,提出了许多基于深度卷积神经网络(CNN)的检测框架,并取得了最先进的结果[1,2,3,4,5,6]。虽然这些方法在许多不同方面提高了检测性能,但它们的包围盒定位模块是相似的。典型的包围盒定位模块是一个回归分支,它被设计为几个完全连接的层,并采用高级feature map来预测候选盒(proposal or)的偏移量。(译者注。其实这样说,过于片面)

本文介绍了一种新的目标检测框架Grid R-CNN,将传统的回归公式替换为网格点引导的定位机制。并将显式空间表示有效地用于高质量的定位。与feature map通过全连通层折叠成矢量的回归方法不同,Grid R-CNN将对象包围盒区域划分为网格,使用全卷积网络(FCN)[7]预测网格点的位置。由于全卷积体系的位置敏感特性,网格R-CNN保持了显式的空间信息,可以在像素级上获得网格点的位置。如图1.b所示,当已知指定位置的网格点个数时,确定对应的包围框。在网格点的引导下,网格R-CNN比缺乏显式空间信息引导的回归方法更能准确地确定物体的边界框。

由于一个包围框有四个自由度,两个独立的点(例如左上角和右下角)就足以定位一个特定的对象。然而,由于这些点的位置与局部特征并不直接对应,因此预测并不容易。例如,图1中猫的右上角点位于物体体外,图像中猫的邻域区域只包含背景,它可能与附近像素具有非常相似的局部特征。为了解决这一问题,我们设计了一个多点监控方案。通过在网格中定义目标点,我们可以获得更多的线索来减少某些点预测不准确的影响。

此外,为了充分利用网格中各点之间的相关性,我们提出了一种信息融合的方法。具体地说,我们为每个网格点设计单独的一组feature map。对于一个网格点,收集相邻网格点的特征映射并融合成一个完整的特征映射。利用集成的特征映射对相应的网格点进行位置预测。结合空间相关网格点的互补信息,使预测更加准确.

我们展示了网格R-CNN框架在具有挑战性的COCO基准[10]的目标检测上的有效性。我们的方法比传统的基于最先进的回归方法有显著的优势。例如,我们超越快R-CNN[3]的骨干ResNet-50[8]和红外系统[4]建筑2.2% AP。进一步比较不同的借据阈值条件表明,我们的方法具有压倒性的力量在高质量的对象定位,美联社获得借据= 4.1% 10.0%和0.8 AP增益借据= 0.9。

我们工作的主要贡献如下:

1. 我们提出了一种新的定位框架,称为Grid R-CNN,它通过充分卷积网络有效地保存空间信息,替代了传统的回归网络。据我们所知,Grid R-CNN是第一个提出的基于区域(两阶段)的检测框架,通过预测像素级的网格点来定位目标。

2. 我们设计了一种多点监控形式来预测网格中的点,以减少一些不准确点的影响。我们进一步提出了一种地物图级信息融合机制,使空间相关的网格点能够获得合并的地物,从而可以很好地校准它们的位置。

3.我们进行了大量的实验,证明了网格R-CNN框架在不同的检测框架和网络架构中具有广泛的适用性,并且具有一致的增益。网格R-CNN在更严格的本地化标准(如IoU阈值= 0.75)中表现更好。因此,我们相信网格引导的定位机制是基于回归的定位方法的更好选择。

2.相关工作(省略)

值得注意的是,我们的方法与CornerNet。CornerNet是一种单阶段自底向上的方法,这意味着它直接从整个图像生成关键点,而不需要定义实例。因此,corner的关键步骤是识别哪些关键点属于同一个实例,并对它们进行正确分组。与此相反,我们的方法是自顶向下的两阶段检测器,它在第一阶段定义实例。我们关注的是如何更准确地定位包围框的关键点。此外,我们还设计了网格点特征融合模块来利用该特征.

3.Grid RCNN

Grid R-CNN框架的概述如图2所示。基于区域建议,从CNN主干网获得的feature map中分别提取每个RoI的特征。然后利用RoI特征对相应的提案进行分类和本地化。与之前的工作,如faster R-CNN相比,我们使用网格引导机制进行定位,而不是偏移回归。网格预测分支采用全卷积网络[7]。它输出一个良好的空间布局(概率热图),从中我们可以定位与对象对齐的边界框的网格点。与最后采用特征映射层次信息融合的方法确定了精确的目标边界框。

前半部分与Faster R-CNN相同,在得到目标候选区域和ROI特征后,分类部分进行目标分类,而定位部分接全卷积网络,其监督信息来自根据目标位置计算得到的网格监督信息。

流程图中作者特别标出了特征融合模块(feature fusion module),其意在使用网格中相邻网格点的位置相关性,融合特征使得定位更加精确。

以下针对其中关键步骤进行详细说明。

3.1 网格引导定位

将目标区域划为网格,目标的定位即转化为网格点的定位。

训练时,ROI特征(14*14大小)通过8个3*3空洞卷积,再通过两个反卷积把尺寸扩大(56*56),再通过一个卷积生成与网格点相关的 heatmaps(9 个点就是 9 张图,后文实验也使用了4个点的情况)。监督信息是每一个点所处位置的交叉十字形状的5个点的位置。最后再接sigmoid函数,在heapmaps上得到概率图。

推断时,将heapmaps极值的位置映射回原图,即得到了网格点的位置。

读到这里,读者可能会有一个疑问,即计算得到的网格点组成的形状是方方正正的,而Heapmaps极值得到的网格点未必组合在一起是方方正正的,不好确定目标区域。

作者的方法是对原本应该具有相同x或者y坐标的网格点的坐标进行平均。

到此,即得到了目标位置。

3.2 网格点特征融合

 

很显然,网格点之间具有内在的联系,相邻网格点之间可以相互校正位置提高定位精度。

为此,作者设计了网格点特征融合的机制。

首先,在计算网格点heapmaps时,每个网格点使用不同的滤波器组,防止它们之间共用特征以至相互影响。

然后在每个网格点的Heapmap出来后,将相邻网格点的Heapmaps经过卷积滤波与其相加,形成新的heapmap。

作者将距离特定网格点最近的相邻网格点(1个单位网格长度)组成的网格点集合的特征融合称为一阶特征融合,次近的相邻网格点(2个单位网格长度)组成的网格点集合的特征融合称为二阶特征融合。下图中(a)(b)分别展示了此融合过程。 

3.3 扩展区域映射

这一步主要是为了应对在实际使用中,RPN 给出的 proposal并不总是将完整物体包含在内。如下图:

图中白色的实线框表示 RPN 给出的候选框,它没有完全包含所有的网格点。

而作者指出,简单的扩大候选框的大小,不会带来提升,甚至降低对小物体检测的精度(后面有实验验证)。

作者认为heatmap的感受野其实是很大的,并不限于候选框内,所以就干脆直接将heatmap对应的区域看成候选框覆盖的区域两倍大(如图中虚线围起来的区域)。

这么做的好处是,只需简单修改网格引导定位中的位置映射公式。即

 

4.实验

作者首先研究了算法中网格点数对精度的影响。如下图:

 

相比回归的方法,Grid R-CNN精度更高,而且随着点数增加精度也在提高。

比较AP0.5和AP0.75发现,精度提升主要来自高IoU阈值的情况。

其次,作者实验了网格点特征融合策略对性能的影响。如下图:

可见该文提出的特征融合策略是有效的,而且二阶特征融合更加有效。

然后,作者实验了扩展区域映射对精度的影响。如下图:

 

可见,直接扩大候选框区域的方法伤害了精度,而本文提出的扩展区域映射(extended region mapping)的方法则使精度有较大的提高(1.2个AP)。

作者又在主流的目标检测数据库上与state-of-the-art进行了比较。

下图展示了在Pascal VOC数据集上,相比R-FCN、FPN,使用相同骨干网的情况下,精度取得了极大的提升!

 

 

 

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值