FPN论文笔记

最新推荐文章于 2023-12-26 17:09:02 发布

HXACA_XMUT

最新推荐文章于 2023-12-26 17:09:02 发布

阅读量202

点赞数

分类专栏：论文笔记

本文链接：https://blog.csdn.net/l718531794/article/details/84874803

版权

论文笔记专栏收录该内容

14 篇文章 0 订阅

订阅专栏

论文背景及大致思路
a. FAIR，康奈尔大学出品，将传统图像领域常用的金字塔结构引入网络结构，加入横向连接，并根据预测目标大小，在不同的特征层进行预测。充分利用浅层的位置信息和高层的语义信息，将FPN和Faster R-CNN结合后，在COCO数据集上得到了很好的效果。
和其他的结构的异同

a. 可以看到CNN的过程就是一个天然的金字塔结构了。由于池化等操作，随着层数的加深，感受野的增大，虽然语义信息得到了加强，但是位置信息逐渐地丢失，这就影响了物体检测时的定位准确度。而且会造成小物体无法检测到。
b. SSD首先想到了在多个尺度上分别检测，但是SSD没有上采样的过程，就无法将底层的语义信息应用到高分辨率层，所以对小物体的检测虽有提升，但仍然不是那么的优秀。
c. U-Net等结构则也采用了双向结构，横连的结构，但是没有在各个特征层独立的做检测。
FPN
a. 整体结构分为了三个部分：bottom-up，top-down，lateral connection。
b. Bottom-up：这里就是一个普通的前向传播网络，选择每一阶段最后一层作为保留层，主干网络选择ResNet，将2，3，4，5阶段的结果记作{C2,C3,C4,C5},考虑到大小，第一层卷积结果不用。
c. Top-down && lateral connection：这两个部分一起介绍。前者就是不断地上采样，得到和前面保留的若干曾相同分辨率的特征层，后者就是将对应的部分进行特征融合。我们对C5进行一次1 * 1的卷积，调整其通道数，得到了P5。然后上采样，并和对应的层进行融合。这里存在横向连接时都会用1 * 1的卷积调整通道数，减少参数。融合后进行一次3 * 3的卷积，减少上采样的混叠效应。得到了对应的{P2,P3,P4,P5}。输出的这些层通道数都为256。
FPN for RPN and Faster R-CNN
a. 前面提到了将FPN应用于Faster R-CNN。主要就是在于RPN后不再只是在最后一层提取ROI了，而是根据W，H，选择合适的特征层，公式如下：

其中，k0 = 4,这样就能使得越大的物体在越深的层提取，越小的物体，在越浅的层提取。锚框在各个层都是固定的，{32，64，128，256，512}，比例分别为{1：2，1：1，2：1}，也就是每层三种，一共15种。