论文原文:《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》
本篇论文是由何恺明大神于2015年发表在TPAMI上的。
1.研究背景
卷积神经网络的输入需要一个固定的尺寸,对于一些图像来说缩放或者裁剪会改变长宽比以及识别的准确率。基于此原因,论文提出了空间金字塔池化,并且提出了SSP-Net的构架。使用SPP-net,我们只从整个图像计算特征图,然后将特征集中在任意区域(子图像)中以生成用于训练检测器的固定长度表示。
由于卷积神经网络的输入为固定尺寸的图片,这就限制了输入图片的比例以及规模。当神经网络用于任意大小的图片时,当前的大多数方法是将输入图像固定到要求的size,通常需要做crop(裁剪)和wrap(铺展)操作。如下图所示:
然而裁剪时可能不包括整个对象,铺展时有可能会发生严重形变。因此会影响识别的准确率。
至于卷积神经网络为什么需要固定尺寸的大小?一个CNN通常包括:卷积层,池化层(论文里掉了),全连接层。由于卷积层采用的是滑动窗口操作,并且输出的feature map能够表示空间特征如图2所示。对于卷积层而言,是不需要固定输入图像尺寸的,而且还可以产生各种尺寸的特征图,由于全连接层的定义,导致神经网络需要输入固定的尺寸。