目录
4.SPP-NET FOR OBJECT DETECTION
论文全称:《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》
论文地址:https://arxiv.org/pdf/1406.4729.pdf
论文一作是kaiming He,怎么到处都是你,真的强的不像话呀。
1.论文的综述
当下卷积神经网络的弊端是输入必须是fixed size统一大小,然而这么做是很不科学的,为了把图片送进我们训练好的网络我们必须crop或者warp,具体看下图。crop的坏处是使图像不完整,warp的坏处是使图像产生了几何畸变。这两种情况都会降低分类的准确率,并且统一的输入大小不符合现实生活中的实际情况,因为很多物体没有固定的长宽比,而照片也没有固定的像素。
所以作者就思考一种解决办法,他们分析其实传统卷积网络无非就是卷积部分加上全连接部分,卷积分部提取图像特征其实并非一定要统一的size,只是后面的全连接需要统一大小的feature,所以作者在卷积层和全连接层之间加入一个Spatial Pyramid Pooling空间金字塔池化,它的作用是使得大小不一致的feature变成固定大小的feature,来匹配全连接层。下面是传统方法和本论文方法的区别图:
那么SPPNet有什么特性使它特别适合CNN呢?
- SPP能够生成固定长度的输出,而不考虑输入大小,而在以前的深度网络中使用的滑动窗口池化却不能;
- SPP使用multi-level spatial bins多级空间箱,而e sliding window pooling滑动窗口池化只使用单个窗口大小。多级池已被证明是鲁棒的对象变形。
- 由于输入尺度的灵活性,SPP可以在可变尺度下提取特征。(这里第三点有点疑惑,论文里面这说的不明白)
无论是在testing还是training,可变输入都是允许的