FPN模型及论文梳理

最新推荐文章于 2024-03-28 12:48:13 发布

东流去a

最新推荐文章于 2024-03-28 12:48:13 发布

阅读量1.2k

点赞数 2

本文链接：https://blog.csdn.net/m0_52441398/article/details/113448145

版权

FPN论文梳理

文章目录

1. 前言

在计算机视觉中，识别不同尺度的物体是一个挑战。FPN主要解决的是目标检测中的多尺度问题（特征提取的一种方法），通过简单的网络连接改变，在基本不增加原有模型计算量的情况下，大幅度提升了小物体检测的性能。

2. FPN模型（主网络采用ResNet）

算法大致结构：
一个自底向上的路线，一个自上向下的路线，横向连接。此方法将该架构看做一个特征金字塔，自底向上的特征图和自上向下的特征图经过1×1的卷积融合，融合之后的特征图经过3×3的卷积，生成最终的特征图，用该特征图在每个层次上独立地进行预测。

3×3卷积：减少上采样的锯齿效应

由于金字塔的所有层都像传统的特征化图像金字塔一样使用共享的分类器/回归器(classifiers/regressors)，所以我们将所有的特征图的维度设置为固定值（通道数，用d表示）。在本文中我们设置d=256，因此所有新增的的卷积层都有256个channel输出。在这些新增的层中没有引入非线性的操作，根据经验判断没有这些非线性操作影响很小。

在这里插入图片描述

2.1 自底向上

自底向上的过程就是神经网络普通的前向传播过程，缩放步长为2。特征图经过卷积核计算，通常会越变越小，但会得到更抽象，语义更强的高层特征图。

2.2 自上向下

自上而下的路径通过对更高的金字塔层次的特征图(这些特征图虽然空间上粗糙,但是有更强的语义表达)进行上采样（为了简单起见，使用最近邻上采样）来模拟产生更高分辨率的特征，通常是2倍上采样。最终所有级别都有丰富的语义。

最近邻上采样（最近邻插值）：令变换后像素的灰度值等于距它最近的输入像素的灰度值。

在这里插入图片描述

2.3 横向连接（lateral）

横向连接采用1×1的卷积核进行连接（减少特征图的数量，尺度不变），将上采样的结果和自底向上生成的相同大小的特征图融合。（自下而上的特征图具有较低层次的语义，但由于其子采样次数较少，因此其激活函数能够更精确地定位目标位置）

3. FPN在各种网络中的实验效果

3.1 FPN for RPN

加入FPN的RPN网络的有效性如下表。这些结果都是基于ResNet-50的。评价标准采用AR（Average Recall），AR右上角的100或1K表示每张图像有100或1000个anchor，AR的右下角s，m，l表示COCO数据集中目标（object）的大小分别是小，中，大。feature列的大括号{}表示每层独立预测。

从（a）（b）（c）的对比可以看出FRN的作用确实很明显。另外（a）和（b）的对比可以看出高层特征并非比低一层的特征有效。
（d）bottom-up pyramid 表示只有横向连接，而没有自顶向下的过程，也就是仅仅对自底向上的每一层结果做一个1×1的横向连接和3×3的卷积得到最终的结果，从feature列可以看出预测还是分层独立的。作者推测（d）的结果并不好的原因在于在自底向上的不同层之间的语义差距（semantic gaps）比较大。

（e）top-down pyramid w/o lateral 表示有自顶向下的过程，但是没有横向连接，即向下过程没有融合原来的特征。这样效果也不好的原因在于目标的位置特征在经过多次降采样和上采样过程后变得更加不准确。

（f）采用finest level层做预测，即经过多次特征上采样和融合到最后一步生成的特征用于预测，主要是证明金字塔分层独立预测的表达能力。显然finest level的效果不如FPN好，原因在于RPN网络是一个窗口大小固定的滑动窗口检测器，因此在金字塔的不同层滑动可以增加其对尺度变化的鲁棒性（健壮性）。另外（f）有更多的anchor，说明增加anchor的数量并不能有效提高准确率。

3.2 FPN for Fast R-CNN（使用固定的候选框）

另一方面将FPN用于Fast R-CNN的检测部分。为了更好地研究FPN对基于区域的检测器的影响，我们使用一组固定的候选框(a fixed set of proposals)对Fast R-CNN进行消融实验。我们选择冻结RPN在FPN上计算出的候选框(上表C)，因为它在检测器识别小物体上具有良好的性能。

除了（a）以外，分类层和卷积层之前添加了2个1024维的全连接层。
实验结果如下表。

在这里插入图片描述

（a）（b）（c）的对比证明在基于区域的目标卷积问题中，特征金字塔比单尺度特征更有效。（c）（f）的差距很小，作者认为原因是ROI pooling对于region的尺度并不敏感。因此并不能一概认为（f）这种特征融合的方式不好，个人认为要针对具体问题来看待，像上面在RPN网络中，可能（f）这种方式不大好，但是在Fast RCNN中就没那么明显。

3.3 FPN for Faster R-CNN

在这里插入图片描述

3.4 近几年在COCO比赛上排名靠前的算法的对比

在这里插入图片描述

注意到本文算法在小物体检测上的提升是比较明显的。

4. 总结

作者提出的FPN（Feature Pyramid Network）算法同时利用低层特征高分辨率和高层特征的高语义信息，通过融合这些不同层的特征达到预测的效果。并且预测是在每个融合后的特征层上单独进行的，效果很好。

东流去a

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
FPN模型及论文梳理

FPN论文梳理文章目录1. 前言2. FPN模型（主网络采用ResNet）2.1 自底向上2.2 自上向下2.3 横向连接（lateral）3. FPN在各种网络中的实验效果3.1 FPN for RPN3.2 FPN for Fast R-CNN（使用固定的候选框）3.3 FPN for Faster R-CNN3.4 近几年在COCO比赛上排名靠前的算法的对比4. 总结1. 前言在计算机视觉中，识别不同尺度的物体是一个挑战。FPN主要解决的是目标检测中的多尺度问题（特征提取的一种方法），通过简单的
复制链接

扫一扫