目标检测--Feature Pyramid Networks for Object Detection

最新推荐文章于 2025-10-25 14:51:11 发布

原创最新推荐文章于 2025-10-25 14:51:11 发布 · 1.4w 阅读

14 ·

CC 4.0 BY-SA版权

目标检测同时被 2 个专栏收录

59 篇文章

订阅专栏

CVPR2017

46 篇文章

订阅专栏

本文介绍CVPR2017论文《Feature Pyramid Networks for Object Detection》。该文提出一种改进的目标检测方法，通过融合多尺度特征图提高小目标检测性能。采用特征金字塔网络（FPN），在不同层级特征图上独立进行目标预测。

CVPR2017
Feature Pyramid Networks for Object Detection
https://arxiv.org/abs/1612.03144
Code will be made publicly available

本文是对 Faster R-CNN 在目标检测问题上的进一步完善。Faster R-CNN 有两个步骤， Region Proposal Network, RPN以及 Fast R-CNN，在这两个步骤我们都利用更多的卷积特征图信息来提升RPN和 Fast R-CNN的效果。具体是怎么利用的了？主要是参考 Fully Convolutional Networks for Semantic Segmentation 的思想，对 coarse outputs 进行放大，分别用对应尺寸的卷积特征图对 outputs 进行微调，得到更好的结果。

这里写图片描述

上图主要对比了一下针对多尺度问题各种解决思路。
（a）有图像金字塔生产对应的特征图，在这些特征图上处理预测
（b）对单尺度图像使用 ConvNets 计算卷积特征，最后在最后一层卷积特征图上进行预测，该特征具有一定的 scale invariance, 但是如果有其他不同尺寸的卷积特征图效果会更好。
（c）使用多个卷积特征图进行预测，Single Shot Detector (SSD) 就是这么干的。但是SSD 使用的卷积特征图只是自己后来加入的网络层，前面的卷积特征图没有使用，而这些卷积特征图对于检测小目标至关重要。
（d）我们提出的 Feature Pyramid Network (FPN) 很好的利用了各个卷积特征图，逐步微调。

这里写图片描述
通过skip connections 利用各个卷积特征图的思想以前就有了，那么我们和前人有什么不同了? 那就是我们在output 以及后续放大的 output 上独立检测目标。 predictions made independently at all levels

我们是怎么将不同卷积特征图联系起来的？
这里写图片描述

对于一个 coarser-resolution 特征图，我们通过 upsampling 放大两倍，然后将它与对应尺寸的卷积特征图通过 element-wise addition 得到新的特征图。注意这里的对应尺寸的卷积特征图是通过 1×1 convolutional layer 来降低channel dimensions 得到的。因为每个尺寸有很多个 channel 的卷积特征图。

本文主体思路基本就这样了。剩下就是一些实验细节对比
这里写图片描述