论文复现——CE-FPN: Enhancing Channel Information for Object Detection

RooKiChen

已于 2022-07-18 07:50:49 修改

阅读量4.7k

点赞数 9

分类专栏：论文复现文章标签：计算机视觉人工智能深度学习神经网络

于 2022-04-18 19:42:44 首次发布

本文为博主原创文章，未经博主允许不得转载

本文链接：https://blog.csdn.net/RooKichenn/article/details/124254518

版权

论文复现专栏收录该内容

5 篇文章 11 订阅

订阅专栏

最近想自己对FPN结构进行一些改进，读了不少有关FPN的论文，有些论文开源了，但是有些最新的论文没有开源，后面打算把最近复现的论文都总结一下，发个论文复现系列的文章。
有些论文具体实现细节没有说清楚，所以我是按照自己的理解来复现的，如果有不同的方法欢迎在评论区讨论。

CEFPN论文链接：https://arxiv.org/abs/2103.10643
CEFPN复现代码：https://github.com/RooKichenn/CEFPN

一、CEFPN结构

话不多说，先上图：
在这里插入图片描述
CEFPN中用了不少前辈们的思想，整体框架借鉴了LibraRCNN（https://arxiv.org/abs/1904.02701v1），我认为最大创新就是CEFPN的网络结构，其他模块都是借鉴前辈们的思想，没什么特别大的创新，但是提供了一个改进的思路：去掉F5和P5层，融合P4，P3，P2。下面就具体分析一下CEFPN的结构。

1.SSF模块

SSF（Sub-pixel Skip Fusion）是借鉴了CVPR2016年一篇关于超分辨率图像论文中提出的亚像素卷积思想，具体是实现细节我在这里就不赘述了，对这篇论文不了解的话可以先去读一下：https://arxiv.org/abs/1609.05158，在CEFPN中，作者采用了残差融合亚像素卷积的方法对C5和C4进行上采样到C4和C3大小，而没有采用传统的线性插值来进行上采样，同时将C4和C3进行1x1的卷积操作，并将这个结果跟亚像素卷积后的进行特征融合，就得到了F4和F3。
在这里插入图片描述

2.SCE模块

在这里插入图片描述

SCE（Sub-pixel Context Enhancement），这个模块的思想也比较简单：将Input Feature分别进行三种处理，最后得到一个通道数为原来的1/8，长宽为原来的2倍的特征图。在论文中，将Input Feature的维度描述为 2h x 2w x 8C，我认为这样描述的原因是第二个分支中，涉及到了长宽减半的操作，也正是在这里，有一个小问题：当Input Feature长宽为 25x25 时，在长宽减半后，长宽为13x13,作者进行了四倍的上采样，得到的特征图为52x52，与第一个分支得到的特征图50x50大小不匹配，而文中作者并没有提到这种情况，所以我在第二个分支输出特征图前又加了一个线性插值的操作，将其缩放到和第一个分支输出的特征图相同大小（如果有复现过的小伙伴可以在评论区说一下你的解决方法，我复现出来的效果并没有作者说的好）。经过SCE模块后得到的特征图和P4,P3,P2进行特征融合，得到特征图I。

3.CAG模块

CAG
在这里插入图片描述
CAM

CAG（Channel Attention Guided）模块借鉴了CBAM中通道注意力机制的思想，与CAM不同的是，在CAG中去掉了一个参数共享的全链接层，直接进行了特征融合。

4.使用线性插值和maxpool得到特征图I

在这里插入图片描述

在得到特征图I的这个部分，跟LibraRCNN中FPN特征特征融合是一模一样的，不了解的可以去细看LibraRCNN论文，在这里就简单说一下作者是怎么做的：将经过SCE模块得到的P5，以及P4，P3，P2进行线性插值和maxpool操作，得到特征图I（I的size跟P4是一样的），再除以4（I = I / 4），这里的4代表融合了几个特征层；之后再经过CAG模块得到一个权重α，再通过线性插值和maxpool得到R5, R4, R3, R2，最后将Ri(i=2,3,4,5)乘以权重α，就得到了最后的预测特征图。

二、训练策略

以ResNet50为例，作者再COCO数据集上训练了12轮，使用了4块16G显存的GPU，每块GPU上2张图片，初始学习率为0.01，并且在第8轮和第11轮下降0.1倍。这里说一下我复现的结果，我只跑了ResNet50，用学校的服务器，四块40G的A100，跟作者参数设置相同，但是map比作者低了接近两个百分点。