ECCV2014
Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
解决的问题: there is a technical issue in the training and testing of the CNNs: the prevalent CNNs require afixedinput image size (e.g., 224*224), which limits both the aspect ratio and the scale of the input image
其实就是CNN的输入尺寸限制问题 ,那么CNN为什么需要固定输入图像的尺寸了?CNN有两部分组成:卷积层和全链接层。卷积层对于图像是没有尺寸限制要求的,全链接层需要固定输入向量的维数,(全链接层输入向量的维数对应全链接层的神经元个数,所以如果输入向量的维数不固定,那么全链接的权值参数个数也是不固定的,这样网络就是变化的。而在卷积层,我们需要学习的是11*11的kernal filter 参数个数是固定的)。这里我们在卷积层后面,全链接层之前加入一层 SPP,用于解决CNN输入固定尺寸的限制问题。
由于之前的大部分CNN模型的输入图像都是固定大小的(大小,长宽比),比如NIPS2012的大小为224X224,而不同大小的输入图像需要通过crop或者warp来生成一个固定大小的图像输入到网络中。这样子就存在问题,1.尺度的选择具有主观性,对于不同的目标,其最适合的尺寸大小可能不一样,2.对于不同的尺寸大小的图像和长宽比的图像,强制变换到固定的大小会损失信息;3.crop的图像可能不包含完整的图像,warp的图像可能导致几何形变。所以说固定输入到网络的图像的大小可能会