地址:Feature Pyramid Networks for Object Detection
时间:2016.12第一次发布,2017.03最终修改
全文概括
本文就是提出了一种架构的思路,即 top-down路径与 横向连接(U-Net那种反卷积的高级语义特征与相对应尺寸的 down-top 低级语义特征的叠加)的结构,这是为了解决目标检测中小物体难以检测的问题。
结构介绍
上图 a) 特征图片金字塔 是传统识别技术用的比较多的一种处理多尺度物体的方法,如 DPM;b) 卷积网络 用单一尺度图片作为输入,但尺度更具有健壮性(但为了更高的准确率,仍使用a)的金字塔 ); c) SSD网络结构图 利用卷积网络自带的“多尺寸”;d) 特征金字塔网络 使用 top-down 路径及 横向传播。
b) 与 a) 的结合,耗时太大,不同scale的图片都要重新处理。
图片金字塔不是唯一产生多尺度的手段,在深层的ConvNet中,每一次下采样都产一个新的“尺度”,不同尺度有不同的语义特征。
本文的目标时创建一个在所有尺度上都具有强大语义特征的特征金字塔。top-down路径产生更大的分辨率,但拥有更高的语义特征(在down-top路径,即正常的网络前向传播的过程,高分辨率代表着低语义特征)。同时,通过横向连接,增强语义(高分辨率的低语义特征带来定位信息)
分类和回归,对于所有的尺寸都是公用的,这里的输出channel为 256 256 256。
图3展示FPN的结构细节图,FPN德 横向连接图使用的是最近邻上采样(为了简单), 1 ∗ 1 1*1 1∗1卷积用于减少通道维度;结构后使用 3 ∗ 3 3*3 3∗3卷积,用于减少上采样与 low level feature map的混叠效应。