SPPnet学习笔记_spp结构五次卷积-CSDN博客

本文链接：https://blog.csdn.net/Killer_kali/article/details/123312761

SPPnet-object detection

文章目录

SPPnet-object detection

本文主要针对SPPnet在目标检测领域的应用进行讲解，对于文本分类方面的词袋模型等知识不做过多讲解，所以说部分内容有所删减。

一.概述

SPPnet全称Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition，翻译过来就是：深度卷积神经网络中的用于视觉识别的空间金字塔池化。于2015年被大佬何凯明的团队提出。

目前的深度学习神经网络需要固定的输入，那么对于我们目标检测需要检测的bbox，bbox就相当于子图，那么在这个过程中bbox子图会随着整张图片一起变形，可能会降低识别精度（可以使用的信息减少了）。

SPPnet的提出就是为了解决该项问题，并且通过实验也验证了SPPnet对于不用大小/比例的图片，效果都很不错。

二.提出理由

概述里面我们已经讲到了：SPPnet提出就为了让CNN在保证近乎相同预测效果的前提下可以处理不同大小的图片。

当时，人们对于固定输入图片大小的方式主要有crop和warp这两种方式，也就是剪裁、翘曲。对于剪裁，可能无法将整个标注对象给剪裁进去；对于翘曲，可能导致不希望的几何失真（图像被过渡拉伸或者通过其他方式而变得看起来不正常）。

那么为什么CNN一定要固定输入输出大小呢？因为对于CNN，其主要有两部分——卷积层和全连接层。卷积层完成特征提取，其中包括卷积和池化等结构，但完成下采样的主要结构也就是完成图片尺寸压缩、维度升高的主要是卷积、池化；全连接层完成特征向量的分类，进行一个矩阵运算。

对于卷积层，输入任何大小的图片都可以输出一个张量，但是对于全连接层，对于图像分类，全连接层需要完成的是一个classifier的功能，那么input_feature和output_feature都是确定的，也就是输入、输出的特征向量的长度都是固定的。因此，对于卷积神经网络，真正需要固定图像大小的部分其实是全连接层。

本文介绍的SPPnet主要就是在RCNN的基础上增加了SPP层。

SPP层汇集特征并生成固定的长度特征图输出，然后再汇入全连接层。换句话说，就是在网路结构的更深层次（卷积层和全连接层交界处）执行信息的结合，以避免了在开始就需要剪裁、变形。

SPP(Spatial pyramid pooling)也被人们熟知为：SPM(Spatial pyramid matching，是词袋模型的一种扩展)，他将图像划分为从更精细到更粗糙的级别，并汇总其中的局部特征。

三.拥有空间金字塔池化的深度网络

1.卷积层和特征图

当时流行的是“7层结构”，即5层卷积层，2层全连接层。

在这里插入图片描述

这张论文中的图片可视化了网络前向传播过程中的部分输出特征图，说明了一些filter可以被一些特定的语义信息给激活。比如说图中的出粗车和座椅激活了过滤器。

2.映射

在SPPnet中，原始图片一方面需要输入CNN（期间有SPP层）得到feature map，一方面通过选择性搜索得到候选区域。你现在有两个东西，但是输入全连接层进行分类和回归需要的单个特征向量，那么你就需要对得到的先验框，进行一个操作：原图先验框 -> 特征图上的先验框，这就是一个映射。

在这里插入图片描述

其实这个过程不难，类似于目标定位中讲过的对bbox的reshap，因为原图到特征图的变换就类似于一次resize，resize的尺度就是——CNN中卷积层所有的下采样倍数的倒数，比如说对于”7层模型“，有5个卷积层，有5次下采样那么需要将图片缩小32倍，记为S，那么图中的(x,y)=(s*x’,s*y):
$左上角的点:x'=[\frac{x}{s}]+1 \\ 右下角的点:x'=[\frac{x'}{s}]-1$