我们在做目标检测和超分辨率重建等问题的时候,我们一般是对同一个尺寸的图片进行网络训练。我们希望我们的网络能够适应更多尺寸的图片,我们传统的做法使用图像金字塔,但是这种做法从侧面提升了计算的复杂度,我们希望可以改善这个问题,所以本文就提出了一种在特征图金字塔的方法,我们称这种网络结构叫做FPN。
SSD的做法,在不同尺度的feature map 上做检测, 按理说它该在计算好的不同scale的feature map上做检测,但是它放弃了前面的low-level的featrue map, 而是从conv4_3开始用而且在后面加了一些conv, 生成更多高层语义的feature map在上面检测(个人猜想是因为这些low-level的featrue map一是太大了很大地拖慢ssd最追求的速度,而是这些low-level语义信息太差了,效果没多大提升).
如何即利用conv net本省的这种已经计算过的不同scale 的feature, 又想让low-level的高分辨率的feature具有很强的语义,所以自然的想法就是把high-level的低分辨率的feature map 融合过来.
方法:
做法比较简单, down-top, top-down, lateral conn(侧路连接)如下图所示,以resnet101为例
1. down-top 就是每个residual block(c1 去掉了, 太大太耗内存了), scale缩小2,c2,