目标检测：Fast R-CNN

最新推荐文章于 2024-06-03 08:46:27 发布

那年聪聪

最新推荐文章于 2024-06-03 08:46:27 发布

阅读量407

点赞数

分类专栏：深度学习与神经网络文章标签：目标检测

本文链接：https://blog.csdn.net/duan19920101/article/details/104175222

版权

深度学习与神经网络专栏收录该内容

39 篇文章 12 订阅

订阅专栏

Fast R-CNN = R-CNN + SPP

创新点：在R-CNN中，每个候选框先resize到统一的大小[1]，然后分别作为CNN的输入，计算每个候选框的特征[2]；针对以上两个问题，Fast R-CNN做了相应的优化：1> SPP在CNN的最后一个卷积层和第一个全连接层之间做了一些处理使得全连接层的输入时固定的；2> 直接计算整幅图的特征映射，最后根据候选框的位置在该映射图上（最后一个卷积层的输出）直接抠取对应的特征结果。

一、SPP详解(Spatial Pyramid Pooling 空间金字塔池化)

SPP网络，我不得不要先说，这个方法的思想在Fast RCNN， Faster RCNN上都起了举足轻重的作用。SPP网络主要是解决深度网络固定输入层尺寸的这个限制，也从各个方面说明了不限制输入尺寸带来的好处。

目前深度网络存在的弊端：如果固定网络输入的话，要么选择crop策略，要么选择warp策略，crop就是从一个大图扣出网络输入大小的patch（比如227×227），而warp则是把一个bounding box的内容resize成227×227 。无论是那种策略，都能很明显看出有影响网络训练的不利因素，比如crop就有可能crop出object的一个部分，而无法准确训练出类别，而warp则会改变object的正常宽高比，使得训练效果变差。

深度网络需要固定输入尺寸的原因是因为有全连接层，那如何去做才能使得网络不受输入尺寸的限制呢？Kaiming He 大神就想出，用不同尺度的pooling 来pooling出固定尺度大小的feature map，这样就可以不受全连接层约束任意更改输入尺度了。

下图就是SPP网络的核心思想：

通过对feature map进行相应尺度的pooling，使得能pooling出4×4, 2×2, 1×1的feature map，再将这些feature map concat成列向量与下一层全连接层相连。这样就消除了输入尺度不一致的影响。训练的时候就用常规方法训练，不过由于不受尺度的影响，可以进行多尺度训练，即先resize成几个固定的尺度，然后用SPP网络进行训练，学习。

SPP Net只对原图进行一次卷积得到整张图的feature map,然后找到每个候选框在feature map上映射patch，将此patch作为每个候选框的卷积特征输入到SPP layer和之后的层，节省了大量的计算时间，比R-CNN有100多倍的提速。

SPP如何用在检测上面？

论文中实际上我觉得最关键的地方是提出了一个如何将原图的某个region映射到conv5的一种机制，论文中是如何映射的呢？

首先，我想先说明函数这个东东，当然我不是通过严谨的定义来说明。什么是y=f(x)，我认为只要输入x，有一组固定的操作f，然后产生一个对应的y，这样子就算是函数。根据输入有一个一一对应的输出，这就是函数。这样理解的话，卷积也是函数，pooling也是函数。实际上我想强调的是一一对应这样的关系。大家都知道，现在默许的无论是卷积还是pooling（无stride），都会加相应的pad，来使得卷积后的尺寸与卷积前相同，当然这种做法还有个好处就是使得边缘不会只被卷积一次就消失了～这样子的话，实际上原图与卷积后的图就是一一对应的关系。原图的每一个点（包括边缘）都可以卷积得到一个新的点，这就是一一对应了。如下图所示：

绿色部分是图片，紫色部分是卷积核。

如上图可以看出，蓝色的区域是原图区域，而红色的区域是padding区域，紫色的是卷积核。卷积后得到的区域与原区域是一一对应的。而卷积或pooling增加stride的话就相当与原图先进行卷积或池化，再进行sampling，这还是能一一对应的，就这样原图的某个区域就可以通过除以网络的所有stride来映射到conv5后去区域。大家如果直接按照函数的一一对应关系去理解，很容易理解为什么原图的区域除以所有的stride就是映射到conv5的区域。这样子就可以在原图上的一些操作放在conv5上进行，这样可以减小任务复杂度。不过，我并不是太认可这种映射机制，这种映射只能是点到点的关系，不过我觉得从原图的某个区域R映射到conv5的区域r,应该r对R敏感，换句话说，应该r感受野应该与R有交集。这样子的话，示意图如下：

其中蓝色的为conv的神经元感受野，红色的是原图的某个感兴趣区域，而黑色框我才认为是要映射到conv5的区域。

使用SPP进行检测，先用提候选proposals方法（selective search）选出候选框，不过不像RCNN把每个候选区域给深度网络提特征，而是整张图提一次特征，再把候选框映射到conv5上，因为候选框的大小尺度不同，映射到conv5后仍不同，所以需要再通过SPP层提取到相同维度的特征，再进行分类和回归，后面的思路和方法与RCNN一致。实际上这样子做的话就比原先的快很多了，因为之前RCNN也提出了这个原因就是深度网络所需要的感受野是非常大的，这样子的话需要每次将感兴趣区域放大到网络的尺度才能卷积到conv5层。这样计算量就会很大，而SPP只需要计算一次特征，剩下的只需要在conv5层上操作就可以了。当然即使是这么完美的算法，也是有它的瑕疵的，可能Kaiming He大神太投入 SPP的功效了，使得整个流程框架并没有变得更加完美。首先在训练方面，SPP没有发挥出它的优势，依旧用了传统的训练方法，这使得计算量依旧很大，而且分类和bounding box的回归问题也可以联合学习，使得整体框架更加完美。这些Kaiming He都给忽略了，这样也就有了第二篇神作 Fast RCNN。

二、Bounding-box Regression

能不能把输入的box坐标也放到深度神经网络里然后进行一些优化呢？rbg大神于是又说了"yes"。在Fast-RCNN中，有两个输出层：