Grid RCNN 商汤11月份提出的论文。
论文下载地址:https://arxiv.org/abs/1811.12030
论文代码复现:
论文创新点:
1. 使用了全卷积网络来代替目标检测里面的全连接层。
2. 加入了融合机制使得标注框更加的精确。
算法整体流程:
算法的整体流程经过RPN找到候选区域,然后通过感兴趣区域得到特征图。将特征图传到 全卷积网络层里面 输出最终的结果。
论文主要分为三部分:
一、网格引导定位
这个是算法的具体的网络结构。感兴趣区域得到的特征图经过8个3*3的膨胀卷积和2个2*2的反卷积,在经过sigmoid函数得到9(论文中n为3)个56*56的特征图。这个增加的网络训练方法就是 9个特征图有9个监督map。每个监督map有五个点(每条线的中位点和中心点)作为标签。采用二值交叉作为优化。
网格点映射:
公式1.特征图上的点映射回原图像。
上图是9个点映射回原图的样子,它们的位置都不在同一条线上。就采用下图公式2,取不同线上面的三个点的平均值作为预测结果。
二、网格特征融合
一阶融合:
上图(a)是一阶融合。上图(a)是一阶融合。求左上角的点融合结果,就将左上角的点邻近1个单位的所有的点通过3个5*5的卷积得到新的特征图。将得到的特征图和左上角的点相加得到一阶融合的结果。
二阶融合:
上图(b)是二阶融合。求左上角的点融合结果,就将左上角的点邻近2个单位的所有的点通过3个5*5的卷积得到新的特征图。将得到的特征图和左上角的点相加得到二阶融合的结果。
三、扩展区域映射
白色的实线是我们的候选区域,我们的候选区域没有完全包含绿色标注框的所有的点。这会导致我们映射之后的9个点不能完全包含目标区域。如果我们单纯增加候选区域的面积的话会造成加入太多的背景,效果反而会差。作者的想法是不改变候选区域,只改变映射之后的原图的大小,如图虚线白色区域。大小公式如下:
四、结果
作者提出的算法在COCO里面是最好的。
发现IOU越大,Grid-Rcnn比Faster-Rcnn效果越好。