图像处理中,融合不同尺度的特征是提高图像效果的重要手段,在卷积中:
✅低层特征:低层特征分辨率更高,包含更多位置、细节信息,但是由于经过的卷积更少,其语义性更低,噪声更多。
✅高层特征:高层特征具有更强的语义信息,但是分辨率很低,对细节的感知能力较差。
如何将两者高效融合,是改善模型的关键。
Feature Pyramid Network(FPN)
✅论文地址:https://arxiv.org/abs/1612.03144
FPN(Feature Pyramid Network)同时利用浅层特征高分辨率和深层特征语义信息,通过融合不同层的特征达到预测的效果。并且预测是在每个融合后的特征层上单独进行的。
FPN将深层特征上采样,与浅层信息逐元素地相加,从而构建了尺寸不同的特征金字塔结构。FPN的结构如下所示:
✅自下而上:最左侧为backbone,默认使用ResNet结构,作用是提取语义信息。C1代表了ResNet的前几个卷积与池化层,而C2至C5分别为不同的ResNet卷积组,这些卷积组包含了多个Bottleneck结构,组内的特征图大小相同,组间大小递减。
✅自上而下:首先对C5进行1×1卷积降低通道数得到P5,然后依次进行上采样得到P4、P3和P2,目的是得到与C4、C3与C2长宽相同的特征,以便进行逐元素相加。这里采用2倍最邻近上采样,即直接对临近元素进行复制,而非线性插值。
✅横向连接(Lateral Connection):目的是将上采样后的高语义特征与浅层的定位细节特征进行融合。高语义特征经过上采样后,其长宽与对应的浅层特征相同,而通道数固定为256,因此需要对浅层特征C2至C4进行1×1卷积使其通道数变为256,然后两者进行逐元素相加得到P4、P3与P2。由于C1的特征图尺寸较大且语义信息不足,因此没有把C1放到横向连接中。
✅卷积融合:在得到相加后的特征后,利用3×3卷积对生成的P2至P4再进行融合,目的是消除上采样过程带来的重叠效应,以生成最终的特征图。
FPN对于不同大小的感兴趣区域,使用不同的特征图。大尺度的感兴趣区域在深层的特征图上进行提取,如P5;小尺度的感兴趣区域在浅层的特征图上进行提取,如P2。
最后:
如果你想要进一步了解更多的相关知识,可以关注下面公众号联系~会不定期发布相关设计内容包括但不限于如下内容:信号处理、通信仿真、算法设计、matlab appdesigner,gui设计、simulink仿真......希望能帮到你!