这篇文章的主要解决的是当输入的图片的尺寸不是既定的 224×224 224 × 224 , 采用各种对图片放缩的时候会影响网络的学习. 比如下图, 只裁剪了一部分, 或者放缩的时候发生了几何的形变:
那么为什么会要求输入的大小相同呢, 很大一个原因就是最高层的FC的输入的尺寸必须要相同. 文章就是从这里下手的.
Spatial pyramid pooling: 指的是对于卷积学得的N个feature maps进行多次池化操作, 并且池化核的大小逐渐增大, 这会导致着池化的输出逐渐减小,(像金字塔形状一样) 将这些池化后的输出合并起来, 作为FC的输入, 以此来解决FC要求的输入必须要一致的问题.
SPP层原理如下所所示,假定CNN层得到的特征图大小为 a×a a × a (比如 13×13 13 × 13 ,随输入图片大小而变化),设定的金字塔尺度为