SPPNet

最新推荐文章于 2022-03-16 22:13:25 发布

小支525

最新推荐文章于 2022-03-16 22:13:25 发布

阅读量305

点赞数

前言：

　　　接着上一篇文章提到的RCNN网络物体检测，这个网络成功的引入了CNN卷积网络来进行特征提取，但是存在一个问题，就是对需要进行特征提取图片大小有严格的限制。当时面对这种问题，rg大神采用的是对分割出的2000多个候选区域，进行切割或者缩放形变处理到固定大小，这样虽然满足了CNN对图片大小的要求，确造成图片的信息缺失或者变形，会降低图片识别的正确率. 如下图所示：
　　　　　

即在R-CNN中，“因为取出的区域大小各自不同，所以需要将每个Region Proposal缩放（warp）成统一的227x227的大小并输入到CNN”。但warp/crop这种预处理，导致的问题要么被拉伸变形、要么物体不全，限制了识别精确度。没太明白？说句人话就是，一张16:9比例的图片你硬是要Resize成1:1的图片，这样会导致图片失真。

PP Net的作者Kaiming He等人逆向思考，既然由于全连接FC层的存在，普通的CNN需要通过固定输入图片的大小来使得全连接层的输入固定。那借鉴卷积层可以适应任何尺寸，为何不能在卷积层的最后加入某种结构，使得后面全连接层得到的输入变成固定的呢？

这个“化腐朽为神奇”的结构就是spatial pyramid pooling layer。

下图便是R-CNN和SPP Net检测流程的比较：

它的特点有两个:

1.结合空间金字塔方法实现CNNs的多尺度输入。

SPP Net的第一个贡献就是在最后一个卷积层后，接入了金字塔池化层，保证传到下一层全连接层的输入固定。

换句话说，在普通的CNN机构中，输入图像的尺寸往往是固定的（比如224*224像素），输出则是一个固定维数的向量。SPP Net在普通的CNN结构中加入了ROI池化层（ROI Pooling），使得网络的输入图像可以是任意尺寸的，输出则不变，同样是一个固定维数的向量。

简言之，CNN原本只能固定输入、固定输出，CNN加上SSP之后，便能任意输入、固定输出。神奇吧？

ROI池化层一般跟在卷积层后面，此时网络的输入可以是任意尺度的，在SPP layer中每一个pooling的filter会根据输入调整大小，而SPP的输出则是固定维数的向量，然后给到全连接FC层。

2.只对原图提取一次卷积特征

在R-CNN中，每个候选框先resize到统一大小，然后分别作为CNN的输入，这样是很低效的。

而SPP Net根据这个缺点做了优化：只对原图进行一次卷积计算，便得到整张图的卷积特征feature map，然后找到每个候选框在feature map上的映射patch，将此patch作为每个候选框的卷积特征输入到SPP layer和之后的层，完成特征提取工作。

如此这般，R-CNN要对每个区域计算卷积，而SPPNet只需要计算一次卷积，从而节省了大量的计算时间，比R-CNN有一百倍左右的提速。

2.只对原图提取一次卷积特征

在R-CNN中，每个候选框先resize到统一大小，然后分别作为CNN的输入，这样是很低效的。而SPP Net根据这个缺点做了优化：只对原图进行一次卷积计算，便得到整张图的卷积特征feature map，然后找到每个候选框在feature map(最后一个就卷积层的输出)上的映射patch，将此patch作为每个候选框的卷积特征输入到SPP layer和之后的层，完成特征提取工作。

如此这般，R-CNN要对每个区域计算卷积，而SPPNet只需要计算一次卷积，从而节省了大量的计算时间，比R-CNN有一百倍左右的提速。

　　正文：

　　何凯明大神在看到RCNN模型，分析了CNN模型的特点后：由卷积部分和全连接两部分构成，而对于卷积部分而言，比如任意图片大小(w,h),任意的卷积核size（a,b），默认步长为１，我们都会得到卷积之后的特征图F(w-a+1,h-b+1)，所以这部分对图片大小没有要求，有要求的地方在全连接层（如下图），全连接层的神经元设定之后是固定的（如图　Input layer 神经元个数），而每一个都对应者一个特征，rg大神在进入CNN前对图片进行warp处理，就是为了卷积之后的特征数，能够和了全连接层的神经元个数相等.

　但是何大神觉得，事情还可以更有趣，他提出将特征数据（特征图）进一步处理，然后拼凑成和神经元个数相同的特征数，这样就可以不用warp图片大小也可以获得相同数量的特征，那么他是咋样处理这特征图的呢？

论文中提到，比如我们有一张图片为例子：

我们对这种图进行卷积处理（我们以zf为例，最后一个卷积之后得到这样的特征图）

这张图显示的是一个60*40*256的特征图,到这儿之后，如果要得到固定的神经元个数，论文中提到的是21，我们就需要将60*40的特征图，我们暂且称这个特征图为feature A,进行处理，怎么处理呢？

我们先贴个图：

如上图所示：

　　　　我们使用三层的金字塔池化层pooling，分别设置图片切分成多少块，论文中设置的分别是(1,4,16),然后按照层次对这个特征图feature A进行分别处理（用代码实现就是for(1,2,3层)），也就是在第一层对这个特征图feature A整个特征图进行池化（池化又分为：最大池化，平均池化，随机池化），论文中使用的是最大池化，得到１个特征。

　　第二层先将这个特征图feature A切分为4个(20,30)的小的特征图，然后使用对应的大小的池化核对其进行池化得到４个特征，

　　第三层先将这个特征图feature A切分为16个(10,15)的小的特征图，然后使用对应大小的池化核对其进行池化得到16个特征.

然后将这１＋４＋１６＝２１个特征输入到全连接层，进行权重计算. 当然了，这个层数是可以随意设定的，以及这个图片划分也是可以随意的，只要效果好同时最后能组合成我们需要的特征个数即可

　这就是sppnet的核心思想，当然在这个模型中，何大神还对RCNN进行了优化，上面介绍的金字塔池化代替warp最重要的一个，但是这个也很重要，是什么呢？

何大神觉得，如果对ss提供的2000多个候选区域都逐一进行卷积处理，势必会耗费大量的时间，所以他觉得，能不能我们先对一整张图进行卷积得到特征图，然后

再将ss算法提供的2000多个候选区域的位置记录下来，通过比例映射到整张图的feature map上提取出候选区域的特征图B,然后将B送入到金字塔池化层中，进行权重计算.

然后经过尝试，这种方法是可行的，于是在RCNN基础上，进行了这两个优化得到了这个新的网络sppnet.

　值得一提的是，sppnet提出的这种金字塔池化来实现任意图片大小进行CNN处理的这种思路，得到了大家的广泛认可，以后的许多模型，或多或少在这方面都是参考了这种思路，就连

rg大神，在后来提出的fast-rcnn上也是收益于这种思想的启发.

小支525

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SPPNet

前言：　　　接着上一篇文章提到的RCNN网络物体检测，这个网络成功的引入了CNN卷积网络来进行特征提取，但是存在一个问题，就是对需要进行特征提取图片大小有严格的限制。当时面对这种问题，rg大神采用的是对分割出的2000多个候选区域，进行切割或者缩放形变处理到固定大小，这样虽然满足了CNN对图片大小的要求，确造成图片的信息缺失或者变形，会降低图片识别的正确率. 如下图所示：　　　　　即在R...
复制链接

扫一扫