论文地址:Feature Pyramid Networks for Object Detection
这是凯明大神所在的facebook AI组17年的一篇目标检测的论文
(a)就是对于输入图像进行多尺度的缩放,对每个尺度的原图像进行特征提取,然后对于每个尺度特征都进行predict,这种方式多适用于传统的手工特征(engineered features),由于CNN的位移不变性等特点,带来了以下的结构
(b)就是对于输入图像进行金字塔式特征提取,最终只使用金字塔塔尖的高维特征进行predict,
(c)就是对于输入图像进行金字塔式特征提取,对于特征金字塔中的每层特征都进行predict,SSD就是这种方式,对于小目标检测很有效果
(d)就是本文提出的网络结构,类似于U-Net的结构,对输入图像进行金字塔式特征提取,然后再将金字塔塔尖的高维特征进行上采样,与下一层特征进行skip connection,从而得到一个倒金字塔,最终使用倒金字塔的每层特征进行predict
上采样方式采用nearest neighbor upsampling,skip-connection使用同层down-up金字塔特征的1*1卷积结果,与上采样的结果进行element-wise add,在使用3*3卷积进行处理,以减少上采样的影响,每层特征图的channel=256
目标检测
在up-down金字塔上每层使用RPN+Fast/Faster R-CNN进行目标检测
实例分割
在DeepMask/SharpMask上进行实例分割