SPP-Net 是怎么让 CNN 实现输入任意尺寸图像的？

最新推荐文章于 2023-10-18 19:04:57 发布

快乐成长吧

最新推荐文章于 2023-10-18 19:04:57 发布

阅读量2.7k

点赞数 2

分类专栏：深度学习相关

本文链接：https://blog.csdn.net/qq_37791134/article/details/82563666

版权

ECCV2014
Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

解决的问题： there is a technical issue in the training and testing of the CNNs: the prevalent CNNs require afixedinput image size (e.g., 224*224), which limits both the aspect ratio and the scale of the input image
其实就是CNN的输入尺寸限制问题，那么CNN为什么需要固定输入图像的尺寸了？CNN有两部分组成：卷积层和全链接层。卷积层对于图像是没有尺寸限制要求的，全链接层需要固定输入向量的维数，（全链接层输入向量的维数对应全链接层的神经元个数，所以如果输入向量的维数不固定，那么全链接的权值参数个数也是不固定的，这样网络就是变化的。而在卷积层，我们需要学习的是11*11的kernal filter 参数个数是固定的）。这里我们在卷积层后面，全链接层之前加入一层 SPP，用于解决CNN输入固定尺寸的限制问题。

由于之前的大部分CNN模型的输入图像都是固定大小的（大小，长宽比），比如NIPS2012的大小为224X224，而不同大小的输入图像需要通过crop或者warp来生成一个固定大小的图像输入到网络中。这样子就存在问题，1.尺度的选择具有主观性，对于不同的目标，其最适合的尺寸大小可能不一样，2.对于不同的尺寸大小的图像和长宽比的图像，强制变换到固定的大小会损失信息；3.crop的图像可能不包含完整的图像，warp的图像可能导致几何形变。所以说固定输入到网络的图像的大小可能会