论文地址:https://arxiv.org/abs/1612.03144
高分辨率的低层特征图虽然有更多细节信息,但是缺少语义信息;低分辨率的高层特征图含有丰富的语义信息,但对小目标的检测效果又较差。FPN通过在原来Botteom-up进行改造,得到既包含细节信息又有丰富的语义信息的特征图,能够有效提高目标检测效果。
图1 FPN结构图
FPN的基本机构如图1所示,可以把它分成两个部分:
1. Bottom-up pathway。左边Bottom-up路径就是输入图片在CovNet前向计算的过程,图1左方feature pyramid每一层的特征图是每个层次最后一个卷积层的输出,从下至上分别记为(C2、C3、C4)。
2. Top-down pathway and lateral connections。图1右边三个特征图由下至上分别记为(P2、P3、P4),其中最顶层的特征图P4是由C4经过一个卷积核大小为1 * 1的卷积而得到(为了使右边的特征图的维度都一样),之后下方的特征图则分别由上层特征图上采样的结果与左边对应特征图经1*1卷积得到的结果相加而得。最后将右边的多个特征图都进行处理,进行目标检测。
FPN在Faster R-CNN的应用主要特现在RPN中:
用5个Top-down的特征图代替原来的1个特征图;
5个特征图共享后续3*3卷积和两个FC的参数;
anchor取消RPN中的设置方式,改为每个特征图对应1个scale,不过每个scale可以对应3个aspect ratio。