RCNN（二）SPP-NET：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

最新推荐文章于 2024-08-22 11:56:04 发布

置顶

浅小思

最新推荐文章于 2024-08-22 11:56:04 发布

阅读量1.1k

点赞数 2

分类专栏：深度学习 RCNN 目标检测文章标签：模式识别神经网络 cnn

本文链接：https://blog.csdn.net/u011587569/article/details/52126710

版权

SPP-NET通过空间金字塔池化解决了CNN在目标检测中的耗时问题，允许网络接受任意大小的输入。通过在卷积层和全连接层之间插入SPP层，将特征转换为固定长度向量，提高了目标检测速度24-64倍。SPP-NET可以应用于多种CNN模型，并且改进了RCNN的效率。

摘要由CSDN通过智能技术生成

SPP-NET:基于空间金字塔池化深层卷积神经网络的视觉模式识别

还记得RCNN一文中提到的缺点之一吗，CNN需要为每一个region proposal进行一次卷积特征提取，尤为耗时。SPP-NET就可以很好的解决这个问题啦，您请往下看。

CNN网络一般需要一个固定大小的图片输入，因此我们需要将图片转换成指定大小，而这样会改变图像的分辨率，比例而影响效果。而卷积-池化层是不需要固定输入的，输出会等比例缩放而已。需要固定大小输入的是全连接层，文章提出一种SPP-NET，通过将空间金字塔池化加入到全连接层的前面产生一个固定的输出，从而允许CNN接受任意大小的输入。这种方法也解决了RCNN对于每一个区域候选都重复进行卷积特征提取造成的耗时问题，从而30-170倍的提升了目标检测的效率。

摘要和引言

近年来，CNN方法大规模提高计算机视觉的准确度，但是我们看到，通常的CNN模型需要一个固定大小的输入，如：227*227。这时我们需要将我们的训练图片进行一定的处理以符合这个固定输入，但是这样也带来了很多的问题。诸如，破坏了图像的比列，尺度，内容。这引发我们思考，为什么卷积神经网络需要这样的固定输入。我们知道CNN主要包含卷积层以及全连接层。卷积层用以提取图像的深层特征，这些特征不仅是物体的某一部分的语义激活，也反应了这些特征在图像中的具体位置。
卷积特征
但是我们的卷积层可以接受任意比例和大小的输入，因为卷积层只是一个滑窗提取特征的过程。CNN需要固定的输入主要是由于全连接层的需要。因此本