FPN特征金字塔学习

FPN——特征金字塔

FPN是针对目标检测处理多尺度变换问题时的不足提出的,网络难以处理物体大小差异明显的检测问题,容易遗漏小物体。

传统的方法是利用图像金字塔的方式进行多尺度变化增强,但是会导致计算量大幅增加。

Abstract

本文利用深度卷积网络固有的多尺度金字塔层次结构来构造具有边际额外成本的特征金字塔。开发了一个带有横向连接的自顶向下体系结构,用于在所有尺度上构建高级语义特征地图。

Introduction

识别不同尺度的物体是目标检测的一大挑战。
在这里插入图片描述

(a)建立在图像金字塔上的特征金字塔(简称特征图像金字塔)是标准解决方案的基础。特征图像金字塔每层是尺度不变的,物体的尺度变化通过改变层级实现,即该模型可以通过扫描模型位置和所处金字塔层级来检测大范围对象。

该方法的优点在于对每一层进行特征化,从而产生了一种多尺度特征表示,所有层级的特征图都具有较强的语义信息,包括高分辨率的层。

缺点则在于推理时间大大增加,内存占用巨大,导致无法应用在端到端的深度神经网络训练上。

(b)利用单个高层特征图进行预测,这是常见的目标检测网络采用的方法,比如Faster R-CNN。

(c)重新利用ConvNet计算的金字塔特征层次结构,如SSD。但是SSD没有解决低层特征图语义信息不够和底层特征图分辨率不高的问题,为了避免使用低层特征图,放弃了重用已经计算的层,而是从网络的高层开始构建金字塔。因此,SSD错过了重用底层高分辨率的特征图,而这些对于探测小型物体十分重要。

(d)FPN,也就是本论文的目标是创建一个在所有尺度上具有强烈语义的特征金字塔时,自然地利用ConvNet特征层次结构的金字塔形状。

为了实现这一目标,作者基于一种通过自上而下路径和横向连接结合低分辨率、语义强特征和高分辨率、语义弱特征的架构。

Related Work

手工工程特征和早期神经网络
传统的,比如SIFT和HOG特征都是在整个图像金字塔上密集提取特征。

深度卷积网络目标探测器
OverFeat将ConvNet作为滑动窗口检测器应用于图像金字塔。RCNN采用了一种基于区域建议测策略,每个预测都经过尺度归一化后再基于ConvNet分类。而Fast RCNN和Faster RCNN都采用了从单一尺度计算特征的方法,因为它们认为这样可以在精度与速度之间获得一个平衡。然而多尺度检测的表现肯定还是要更好的,尤其对于小物体。

多层的方法
FCN将每个类别在多个尺度上的部分得分相加来计算语义分割。Hypercolumns使用类似的方法来分割对象实例,其他的一些方法(HyperNet、ParseNet、ION)在计算预测前,将多层特征连接起来,相当于对转换后的特征进行求和。
最近一些方法利用横向/跳跃连接,将跨分辨率和语义级别的低级特征映射关联起来,包括用于分割的U-Net和SharpMask,用于人脸检测的重组网络,以及用于关键点估计的叠层沙漏网络。
Ghiasi等人提出了一种用于FCNs逐步细化分割的拉普拉斯金字塔表示。虽然这些方法采用了金字塔形状的结构,但不同于特征图像金字塔。特征图像金字塔在所有层上都是独立进行预测的。

FPN

在这里插入图片描述
FPN以任意大小的单尺度图像作为输入,并以全卷积的方式按比例输出多个层次的特征映射。这个过程独立于骨干卷积架构。FPN包含一个自底向上的路径,一个自顶向下的路径,以及横向连接。

(1)Bottom-up pathway

Bottom-up pathway是骨干卷积网络的前馈计算的一部分,以2的缩放步长计算由多个尺度的特征图组成的特征层次。

FPN中举得例子是ResNet,ResNet每个卷积阶段都包含多个卷积层,输出图像尺寸都一致,FPN采用每个卷积阶段的最后一个residual block的输出作为特征图。很好理解,因为每个阶段的最后的卷积层的输出具有该阶段最强的特征。

最终,对于ResNet,FPN采集了conv2、conv3、conv4、conv5的输出作为特征图集,记为{C2,C3,C4,C5},相对输入图像具有{4,8,16,32}的像素步长。conv1由于占用内存过大,没有被包含到金字塔中。

(2)Top-down Pathway and lateral connections

Top-down Pathway的作用是将抽象的、强语义、分辨率低的高层特征图进行上采样(upsampling),再通过横向连接将上采样的结果与Bottom-up pathway的相同大小的结果进行融合。

简单地理解,Bottom-up pathway是将卷积操作过程中尺寸由大到小的特征图像利用起来,而Top-down pathway是将具有大尺度特征的高层特征图放大,然后通过横向连接,与下层特征图进行融合,获得一张既包含高层大尺度特征、又包含下层细节信息的特征图,直到生成最终的分辨率图。最后,FPN还对合并的特征图进行了一次 3 × 3 3\times 3 3×3的卷积操作,为了减少上采样的混叠效应,最终得到映射集{P2,P3,P4,P5}。

由于金字塔的所有层次都像传统的特征化图像金字塔一样使用共享分类器/回归器,因此可以在所有特征图中固定特征维数(即通道数d),FPN设置d=256。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值