Grid rcnn

 Grid rcnn

Abstract: the grid rcnn captures the spatial information explicitly and enjoys the position sensitive property of fully convolutional architecture. Instead of using only two independent points.we design a multi-point supervision formulation to encode more clues in order to reduce the impact of inaccurate prediction of specific points.

We proposed a two-stage information fusion strategy to fuse feature maps of neighbor grid points.

1. Introduction

The introduction regression formulation is replaced by a grid point localization machanism.

Explicit spatial representations are efficiently utlized for high quality localization.

相对比regression approach,特征图在送到fc变成一位vector受到破坏,Grid rcnn将目标边界区域分解成grid格子和使用fcn去预测格子点的位置。由于全卷积位置敏感的属性,grid rcnn维持了明确的空间信息和格子点位置在像素级别上。

相比较回归方法,fcn对于空间信息的利用产生bounding box的位置

Bbox有四个自由度,两个点就行,左上和右下,我们设计了multi-point supervision formulation,9宫格。

此外,为了充分利用方格中点的关联,我们提议使用一种信息融合的手段。We design individual group of feature maps of the neigbor grid points are collected and fused into an intergrated feature map.

1.使用了一个新颖的框架,和传统的使用fc进行回归网络损失了空间信息是有区别的,我们实验,Grid rcnn是第一次提议的基于区域的目标探测框架,

2.使用多点监督学习去预测方块,我们提议特征图级别信息融合机制

3.

 

2. Related works

工作是基于two-stage RCNN的

 RCNN, fast Rcnn, faster rcnn, sppnet, RPN, R-fcn, FPN, mask r-cnn

Cornernet,预测两个关键点,

3. Grid R-cnn

With the grid points,we finally determine the accurate object bounding box by a feature map level information fusion approach.

3.1 Grid guided localization

Features of each proposal are extracted by RoIAlign [5] operation with a fixed spatial size of 14 × 14, followed by eight 3×3 dilated(for large receptive field) convolutional layers. After that, two 2× deconvolution layers are adopted to achieve a resolution of 56×56. The grid prediction branch outputs N × N heatmaps with 56 × 56 resolution, and a pixel-wise sigmoid function is applied on each heatmap to obtain the probability map.

During inference, on each heatmap we select the pixel with highest confidence and calculate the corresponding location on the original image as the grid point.

3.2 Grid Points feature fusion

空间点之间的融合,因为包含很多空间信息在里面。

要充分利用所有的feature map上的grid带来的有用信息。(A further idea is to extract the local features corresponding to the grid points on each feature map for a fusion operation. However this also discards potential effective information in different feature maps.

We use N*N group of filters to extract the features for them intermediate supervision of their corresponding grid points

e adopt a simple sum operation for the fusion in implementation and the information fusion is formulated

3.3 Extened Region Mapping

选择一个大一点的区域可能会获取一个比较完整的对应于ground truth的位置信息。一个比较自然的想法就是扩大提议的区域。但是会引进大量的背景信息,实验表明扩大proposals并没有带来精度上的增长反而损坏了小目标的探测。

While we re-define the representation area of the output heatmap as a twice larger corresponding region in the image  直接扩两倍

3.4 Implementation details

Network configuration:

Optimization: SGD,0.9 MOMENTUM,0.0001 weight decay

 

4. Experiments

 

主要是对faster rcnn框架中定位框回归支路的更改,将以往通过回归方式实现proposal位置修正的方法,更改为通过全卷积网络来实现目标定位框的精确修正。知识全卷积网络对位置更加敏感,更能实现精确定位。

(1) Grid Guided localization

RPN 得到的 proposal RoI Align resampling 一下后,通过一些空洞卷积扩大感受野(eight 3×3 dilated convolutional layers),然后通过两个反卷积把尺寸扩大,再通过一个卷积生成与 multi-point 相关的 heat maps9 个点就是 9 张图)。我们为每一个点提供一个交叉十字形状的 ground truth 5 pixels(这是标签设计,每个点对应一个5像素的label)

在检测中则选取每个heatmap最大值点作为相应网格点。

在heatmap中的最大值黄色点映射回proposal紫色点,最终结果是上图,返回多个点在一个result上。

 

(2) Grid points feature fusion

但是这样只利用一个heatmap来生成相应的网格点,还存在问题,假如某个网格点在背景区域,那么该区域获得的信息是不足以精确定位目标物体边界的,如下图中左上角的蓝色点,对于这样的网格点就需要融合周围的网格点对应的heatmap来对其进行校正。

以左上角的网格点为例,其对应的heatmapFi,和左上角单位距离的点称为源点,源点构成的集合设为Si,假设某个源点对应的heatmapFj,对Fj进行连续3次的卷积运算,卷积核大小为5×5,得到Fj',然后将源点集合中所有源点对应的heatmap进行上述运算之后与Fi相加得到融合之后的Fi',上述只是采用了单位距离的网格点,称为一阶融合,对所有点进行完一阶融合之后,再进行二阶融合,也即对目标点距离为两倍单位距离的点进行融合,如上图的右图所示。经过这样融合后的heatmap,再通过(1)部分的方法生成对应的边界框。从而提高边界框的定位精度。

九个点九张heatmap,每个heatmap产生一个边界点,那么一张heatmap产生一个level的点认为是不够好的,所以有一阶融合和二阶融合。

 

(3) Extended Region Mapping

通过上述流程还不足以实现精确的对目标定位,因为有一些proposal覆盖区域比较小,其和groundtruth重合度较小,这使得在网给点的生成中难以对其进行有效的监督训练,如下图中初始生成的proposal即白色框和groundtruth标注框只有两个点重合。

很自然的可以想到能否通过直接扩大proposal来实现较大的重合呢?答案是否定的,如果增大proposal,那么单个proposal中会包含进较多的背景信息,同样不利于后续精确定位的进行。在这里作者通过改变heatmap和输入图像上点的映射关系来克服该问题,即还是利用同样大小的proposal来产生后续的heatmap,并选择出heatmap上相应的点,但是将该点映射回输入图像时,利用改进后的映射关系

观察上式可知是在原来的映射关系上添加了修正项,即当heatmap中选定的grid point左侧时,映射回输入图像会向左侧移动,在右侧时会向右侧移动,对于y坐标是同样的映射关系。通过映射的修正,即可将相应的heatmap的映射区域加以扩展,如上图中的虚线白框,这样既解决了proposalgroundtruth重合过少难以训练问题,又避免了扩大proposal带来的背景混入的问题。

  

  

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值