Spatial Pyramid Pooling in Deep Convolutional
Networks for Visual Recognition
一、 概要
1、 背景:深度网络(CNNs)与大数据引起计算机视觉领域的快速变革,大幅提升了图像分类与目标识别等的水平。
2、 问题:CNN要求输入图片尺寸固定,对尺寸不统一的输入图片需做剪裁或变形,导致内容损失或失真,且不适用于目标尺寸变化情况。
3、 问题分析:CNN分为卷积层与全连接层两部分,卷积层通过滑窗操作,输出表现激活空间分布的特征图,并不要求固定图片尺寸,且可生成任意尺寸的特征图;CNN之所以要固定尺寸的输入,是因为全连接层需要固定尺寸的输入。
4、 提出:SPPnet,引入空间金字塔池化(SPP)层,解除网络中的固定尺寸约束,在最后一层卷积层上加一层SPP层,池化特征,生成固定长度的输出。
5、 SPP相对于CNN的几个显著性能:
(1) 不管输入尺寸如何,SPP能生成固定长度输出,而池化不能。
(2) SPP使用多级空间箱,而滑动窗口池化仅使用单一窗口尺寸。
(3) SPP能池化可变尺寸的特征。
6、 多尺度训练:用可变尺寸图片训练可增加标度不变形并降低过拟合。用共享参数的多重网络近似接受可变输入尺寸的单一网络。每代用一给定输入尺寸训练网络。
7、 SPPnet用于目标检测:RCNN由于应用深度卷积网络到每张图片成千的变形过的区域的原始像素上,特征计算太过耗时。SPPnet仅在整张图片上运行一次卷积网络,再由SPP在特征图上提取特征。从而加速24-102倍。
二、SPP层
分类器或全连接层需要的定长向量可用词袋(BoW)法生成。它能通过在局部空间箱中池化保存空间信息。空间箱(spatial bins)尺寸与图片成比例,数量固定。