目标检测总结:FPN

Feature Pyramid Networks for Object Detection ——特征金字塔


特征金字塔,是识别不同尺度目标的基本方法。

在这里插入图片描述
如上图所示:(a)使用图像金字塔构建特征金字塔,速度慢,(b)只使用单一尺度特征进行更快的检测,(c)利用卷积的featuremap构建金字塔特征层次结构,是一个特征化的金字塔,上一篇介绍的SSD即为这种方法,(d)本文提出的FPN的模式。
特征金字塔的构建比较困难,占用大量的资源,无法进行端对端的训练,因此之前的FasterRCNN没有使用特征化的金字塔。SSD使用了图(c)所示特征化金字塔,但其缺点在于没有利用低级的特征,低级的特征对于检测小尺度的目标很有意义。

思路:

在这里插入图片描述
把低分辨率、高语义信息的高层特征和高分辨率、低语义信息的低层特征进行自上而下的侧边连接,使得所有尺度下的特征都有丰富的语义信息。
自下而上的路径:自下而上的路径其实就是卷积层的前向传播,通常有许多层产生相同大小的映射,我们认为这些层位于相同的阶段,为每一个阶段定义一个金字塔层。具体地,比如Resnet,我们把每个残差块的最后一层的输出定义为(C2,C3,C4,C5),并且可以知道,其单步步长为(4,8,16,32)个pixels。
自顶向下的路径和路径连接:自顶向下的路径是通过上采样,将顶层拥有更高级语义信息的特征映射到底层拥有低级语义信息但分辨率更高的低层特征。这些特征随后通过来自自下而上的特征经由横向连接来进行增强。每个横向连接合并来自自下而上路径和自上而下路径的具有相同空间大小的特征映射。自下而上的特征映射具有较低级别的语义,但其激活可以更精确地定位,因为它被下采样的次数更少。
在这里插入图片描述
上图体现了横向连接的方式,整个过程需要迭代,知道生成最佳分辨率的映射,为了开始迭代,我们只需在C5上添加1×1的卷积层来生成最粗糙分辨率映射。最后,我们再每个合并的映射上添加1个3×3的卷积生成最终的特征映射,这是为了减少上采样的混叠效应。最终生成(P2,P3,P4,P5),对应于(C2,C3,C4,C5),分别具有相同的空间大小。
另外,所有的特征映射中的特征维度都是固定的,256维。这是因为所有的金字塔层一样使用共享卷积器。

具体应用:

我们在不同层级分配单尺度的锚点。具体的定义为(32,64,128,256,512)个像素点,同时,每个层级上使用多个长宽比(1,2,0.5)。所以在金字塔上总共有15个尺寸的anchor。
训练过程中,正例为与gtbox的IOU>0.7的anchor,负例为<0.3的anchor,注意实际gtbox的尺度与层级并没有明确的对应,完全按照iou来划分。

FPN结合Fast RCNN

在这里插入图片描述
通过上式,将不同大小的anchor分配到不同的层级。K0是224×224的大小的目标级别。以此类推。可以将anchor分配到(C2,C3,C4,C5)。然后将预测器用于所有层级的ROI中,预测期中所有的参数是共享的。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值