目标检测--SPP-Net

最新推荐文章于 2022-09-18 11:16:01 发布

ChrisLzg

最新推荐文章于 2022-09-18 11:16:01 发布

阅读量334

点赞数 1

分类专栏：深度学习文章标签：深度学习 SPP 目标检测

本文链接：https://blog.csdn.net/lzg13663472636/article/details/84828456

版权

2 篇文章 0 订阅

订阅专栏

在这里插入图片描述

在用selective search方法对原图进行提取了2000个Proposal，在卷积之前要对每个Proposal进行Wrap或Crop，降低了检测的精确度。
对于每一个原图的Proposal都要进行一次卷积，也就是每张图2000次，计算量太大。

SPP-Net相对R-CNN的改进点

特征图上的对应的特征区域的维度不满足全连接层的输入要求？

作者使用Spatial Pyramid Pooling解决了该问题，也就是在卷积层和全连接层之间增加一个Spatial Pyramid Pooling Layer。如上图所示，假设原图输入是224x224，对于conv5出来后的输出是13x13x256的，可以理解成有256个这样的Filter，每个Filter对应一张13x13的feature Map。如果像上图那样将feature Map分成1x1（金字塔底座），2x2（金字塔中间），4x4（金字塔顶座）三张子图，分别做Max Pooling后，出来的特征就是（16+4+1）x256 维度。即使原图的输入不是224x224，出来的特征依然是（16+4+1）x256维度。这样就实现了不管图像尺寸如何池化n的输出永远是（16+4+1）x256 维度。
如何从一个region proposal 映射到feature map的位置？
要搞定这个问题，需要首先清楚感受野等概念和计算方法。下面从感受野、感受野上面的坐标映射及原始图像的ROI如何映射三方面阐述。
感受野
- 概念
  在卷积神经网络中，感受野的定义是卷积神经网络每一层输出的特征图（Feature Map）上的像素点在原始图像上映射的区域大小。
- 计算方法

output field size = ( input field size - kernel size + 2*padding ) / stride + 1

其中output field size 是卷积层的输出，input field size 是卷积层的输入，也是上一层的感受野，所以，

input field size = （output field size - 1）* stride - 2*padding + kernel size

感受野上的坐标映射
- 计算公式
  对于Convolution/Pooling Layer:
  
  对于Neuronlayer（ReLU/Sigmoid/…）:
  
  其中p_i为第i层的感受野的坐标，s_i为Stride的大小，k_i为感受野的大小。
- 例子
  上面是计算任意一个Layer输入输出的坐标映射关系，如果是计算任意Feature Map之间的关系，只需要用简单的组合就可以得到，下图是一个简单的例子:
- 简化
  何凯明在SPP-NET中使用的是简化版本，将2小节公式中的Padding都设为 k_i/2 向下取整，然后简化为：
原始图像的ROI如何映射（简化版）
SPP-NET是把原始ROI的左上角和右下角映射到Feature Map上的两个对应点。有了Feature Map上的两队角点就确定了对应的Feature Map 区域（下图中橙色）。

左上角取,右下角的点取,。其中S为坐标映射的简化计算版本，即所有步长的乘积。

SPP也需要训练CNN提取特征，然后训练SVM分类这些特征。需要巨大的存储空间，并且分开训练也很复杂。

关注

专栏目录