深度网络(一):FPN(特征金字塔)的直觉、构架和表现简介

原文标题:特征金字塔网络FPN的直觉与架构

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

编者按:深度学习知名博主Jonathan Hui简要介绍了FPN(特征金字塔网络)的直觉、架构和表现。个人理解,本质上是用高层强语义特征增强底层浅语义层,进而提取到更强表现力的特征。本质上是一种加强主干网络CNN特征表达的方法。

检测不同尺度的目标(尤其是其中的小目标)很有挑战性。我们可以使用同一图像的不同尺度版本来检测目标(下图左部)。然而,处理多尺度图像很费时,内存需求过高,难以同时进行端到端训练。因此,我们可能只在推理阶段使用这种方法,以尽可能提高精确度,特别是在竞赛之类不顾及速度的场景中。我们也可以创建特征金字塔来检测目标(下图右部)。然而接近图像的、由低层结构组成的特征映射在精确目标预测上效果不佳。

来源:FPN论文

特征金字塔网络(Feature Pyramid Network, FPN)是为这一金字塔概念设计的特征提取器,设计时考虑到了精确性和速度。它代替了Faster R-CNN之类的检测模型的特征提取器,生成多层特征映射(多尺度特征映射),信息的质量比普通的用于特征检测的特征金字塔更好。

数据流

来源:FPN论文

FPN由自底向上和自顶向下两个路径组成。自底向上的路径是通常的提取特征的卷积网络。自底向上,空间分辨率递减,检测更多高层结构,网络层的语义值相应增加。

FPN特征提取(修改自FPN论文中的图片)

SSD基于多个特征映射进行检测。然而,低层并不用于目标检测——这些层的分辨率很高,但语义值不够高,因此,为了避免显著的速度下降,目标检测时不使用这些层。因为SSD检测时仅适用高层,所以在小目标上的表现要差很多。

修改自FPN论文中的图片

而FPN提供了自顶向下的路径,基于语义较丰富的层构建分辨率较高的层。

修改自FPN论文中的图片

尽管重建的层语义足够丰富,但经过这些下采样和上采样过程,目标的位置不再准确了。因此FPN在重建层和相应的特征映射间增加了横向连接,以帮助检测器更好地预测位置。这些横向连接同时起到了跳跃连接(skip connection)的作用(类似残差网络的做法)。

修改自FPN论文中的图片

自底向上路径

自底向上路径由很多卷积模块组成,每个模块包含许多卷积层。自底向上的过程中,空间维度逐模块减半(步长翻倍)。每个卷积模块的输出将在自顶向下的路径中使用。

自顶向下路径

上图中,FPN使用一个1x1的卷积过滤器将C5(最上面的卷积模块)的频道深度降至256维,得到M5。接着应用一个3x3的卷积得到P5,P5正是用于目标预测的第一个特征映射。

沿着自顶向下的路径往下,FPN对之前的层应用最近邻上采样(x2)。同时,FPN对自底向上通路中的相应特征映射应用1x1卷积。接着应用分素相加。最后同样应用3x3卷积得到目标检测的特征映射。这一过滤器减轻了上采样的混叠效应。

这一过程在P2后停止,因为C1的空间维度太高了。如果不停,依法炮制得到P1的话,会大大拖慢进程。

FPN搭配RPN

FPN自身并不是目标检测器,而是一个配合目标检测器使用的特征检测器。例如,使用FPN提取多层特征映射后将其传给RPN(基于卷积和锚的目标检测器)检测目标。RPN在特征映射上应用3x3卷积,之后在为分类预测和包围盒回归分别应用1x1卷积。这些3x3和1x1卷积层称为RPN头(head)。其他特征映射应用同样的RPN头。

FPN搭配Fast R-CNN和Faster R-CNN

首先简短地概览下Fast R-CNN和Faster R-CNN的数据流。它基于特征映射层创建ROI(感兴趣区域)。然后使用ROI和特征映射层创建特征片,以传给ROI池化。

FPN生成了特征映射金字塔后,应用RPN(见上一节)生成ROI。根据ROI的尺寸,选择最合适的尺度上的特征映射以提取特征片。

基于ROI尺寸选择特征映射的具体公式为:

其中,w和h为ROI的宽度和高度,k0 = 4,k对应FPN中的Pk层。

所以,如果k = 3,我们将选择P3作为特征映射,应用ROI池化,并将结果传给Fast R-CNN/Faster R-CNN头(两者的头一致),以完成预测。

分割

类似Mask R-CNN,FPN也是一个优良的图像分割提取掩码。下图中,应用5x5的滑窗于特征映射,以生成14x14分割。之后,合并不同尺度的掩码以形成最终的掩码预测。

来源:FPN论文

结果

FPN搭配RPN,提升AR(average recall,平均召回)至56.3,相比RPN基线提升了8. 在小目标上的提升更是达到了12.9.

来源:FPN论文

基于FPN的Faster R-CNN的推理时间为0.148秒/张(单Nvidia M40 GPU,ResNet-50),单尺度ResNet-50基线的速度是0.32秒/张。

来源:FPN论文

FPN和当前最先进的检测器实力相当。事实上,FPN击败了COCO 2016和2015挑战的赢家。

来源:FPN论文

经验总结

下面是从试验数据中总结出的一些经验。

(1)在单个高分辨率特征映射层上增加更多锚不足以提升精确度。

(2)自顶向下路径重建了富含语义信息的分辨率。 但我们需要横向连接,以便将更多准确的目标空间信息加回来。

(3)在COCO数据集上,自顶向下路径和横向连接将精确度提升了8。小目标的提升达到了12.9.

模型实现

用keras写了一个ResNet-FPN,网络层数、参数规模很大,网络复杂度也比较高。

结果图如下所示:

嗯,示意图原图过大,上传不了,粗略截图上传了。

参考:

1.直觉、架构和表现  http://www.elecfans.com/d/724390.html

2. FPN:一种高效的CNN特征提取方法 https://www.jianshu.com/p/5a28ae9b365d

图像的金字塔: import cv2 as cv import numpy as np #降采样:将源图片尺寸缩小一倍,称为源图片尺寸的一半 def pyr_down_demo(image): dst = cv.pyrDown(image) cv.imshow("pyr_down_demo",dst) print(dst.shape) #高斯金字塔 def pyramid_demo(image): temp = image.copy() level = 3 pyramid_image = [] for i in range(3): dst = cv.pyrDown(temp) cv.imshow("pyramid_image"+str(i),dst) pyramid_image.append(dst) temp = dst.copy() return pyramid_image #拉普拉斯金字塔 def lapalian_demo(image): pyramid_images = pyramid_demo(image) level = len(pyramid_images) for i in range(level-1,-1,-1): if(i-1)<0: expand =cv.pyrUp(pyramid_images[i],dstsize= image.shape[:2]) lpls =cv.subtract(image,expand) cv.imshow("lapalian_down_"+str(i),lpls) else: expand = cv.pyrUp(pyramid_images[i],dstsize=pyramid_images[i-1].shape[:2]) lps = cv.subtract(pyramid_images[i-1],expand) cv.imshow("lapalian_down_"+str(i),lps) src =cv.imread("E:/opencv/picture/lena.jpg") pyr_down_demo(src) dst =cv.resize(src,(256,256)) cv.imshow("inital_window",src) cv.imshow("Resize_demo",dst) lapalian_demo(src) pyramid_demo(src) #print(src.shape) cv.waitKey(0) cv.destroyAllWindows() 分析: 图像金字塔是图像中多尺度表达的一种,最主要用于图像的分割,是一种以多分辨率来解释图像的有效但概念简单的结构,简单来说,图像金字塔就是用来进行图像缩放的。 进行图像缩放可以用图像金字塔,也可以使用resize函数进行缩放,后者效果更好。这里只是对图像金字塔做一些简单了解。 两种类型的金字塔: 1, 高斯金字塔:用于下采样。高斯金字塔是最基本的图像塔。原理:首先将原图像作为最底层图像G0(高斯金字塔的第0层),利用高斯核(5*5)对其进行卷积,然后对卷积后的图像进行下采样(去除偶数行和列)得到上一层图像G1,将此图像作为输入,重复卷积和下采样操作得到更上一层图像,反复迭代多次,形成一个金字塔形的图像数据结构,即高斯金字塔。 2, 拉普拉斯金字塔:用于重建图像,也就是预测残差,对图像进行最大程度的还原。比如一幅小图像重建为一幅大图,原理:用高斯金字塔的每一层图像减去其上一层图像上采样并高斯卷积之后的预测图像,得到一系列的差值图像即为LP分解图像。 两种类型的采用: 1) 上采样:就是图片放大(所谓上就是变大),使用PryUp函数。 步骤:先将图像在每个方向放大为原来的两倍,新增的行和列用0填充,再使用先前同样的内核与放大后的图像卷积,获得新增像素的近似值。 2)下采样:就是图片缩小(所谓下嘛,就是变小),使用PryDown函数。下采样将步骤:先对图像进行高斯内核卷积 ,再将所有偶数行和列去除。 总之,上、下采样都存在一个严重的问题,那就是图像变模糊了,因为缩放的过程中发生了信息丢失的问题。要解决这个问题,就得用拉普拉斯金字塔 对于源码分析: 1.高斯金字塔 def pyramid_demo(image): level = 3 pyramid =[] for i in range(level): dst = cv.pyrDown(image) cv.imshow("pyramid_demo"+str(i),dst) pyramid.append(dst) image = dst return pyramid 高斯金字塔实质上就是由大变小,对源图像进行PyrDown(即先高斯模糊,后降采样)得到dst1,然后将dst1作为输入图像再进行PyrDown(即先高斯模糊,后降采样)得到dst2,这个过程循环n次,就会得到n曾金字塔了。源码中n=3. 2.拉普拉斯金字塔 def lapalace_demo(image): pyramid = pyramid_demo(image) levels = len(pyramid) #range(2,-1,-1):计数从2开始,到-1结束(但不包含-1),步长为-1.得到2,1,0 for i in range(levels-1,-1,-1): if i=1时,使用pyrUP指令,输入图像为pyramid[i],输出图像的大小为pyramid[i-1](因为高斯金字塔的pyramid链表前一个元素是后一个元素的两倍),得到结果expand,再用图像相减命令cv.subtract将expand与pyramid[i-1]做差,即可得到残差图像了。 当I<1,即i=0时,此时pyramid[i]是链表中元素最大的了,大小是image图像的一半。我们用pyrUP指令,输入图像为pyramid[i],输出图像的大小为image的尺寸大小,得到残差图像。 最后将各个残差图像显示出来。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值