Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition(2015.4)

在这里插入图片描述


论文链接
源代码

Abstract

现有的深度卷积神经网络(cnn)需要固定大小的输入图像(例如224×224),这种“人为的”要求,可能会降低任意大小/比例的图像或子图像的识别精度。我们为网络配备了另一种池化策略,即“空间金字塔池化”,以消除上述要求。新的网络结构被称为SPP-net,无论图像大小/比例如何,都可以生成固定长度的表示,金字塔池对物体变形也具有鲁棒性。有了这些优点,SPP-net应该在总体上改进所有基于cnn的图像分类方法
在ImageNet 2012数据集上,我们证明了SPP-net提高了各种CNN架构的准确性,尽管它们的设计不同
在Pascal VOC 2007和Caltech101数据集上,SPP-net使用单一的全图像表示实现了最先进的分类结果,无需微调
SPP-net在目标检测方面的能力也很显著。使用SPP-net,我们只从整个图像中计算一次特征映射,然后将任意区域(子图像)的特征池生成固定长度的表示用于训练检测器
该方法避免了重复计算卷积特征。在处理测试图像时,我们的方法比R-CNN方法快24-102倍,同时在Pascal VOC 2007上实现更好或相当的精度

Introduction

在cnn的训练和测试中存在一个技术问题:流行的cnn需要固定的输入图像大小(例如224×224),这限制了输入图像的长宽比和大小
当应用于任意大小的图像时,目前的方法大多是通过剪切[3],[4]或通过扭曲[13],[7](RCNN)来将输入图像拟合到固定的大小,如图1(顶部)所示。但是裁剪的区域可能不包含整个对象,而warp的内容可能导致不必要的几何扭曲,由于内容丢失或失真,识别精度可能会受到损害。此外,当对象的尺度变化时,预定义的尺度可能不适合,固定输入大小忽略了涉及尺度的问题

一个CNN主要由两部分组成:卷积层和随后的全连接层

事实上,卷积层不需要固定的图像大小,可以生成任何大小的特征图。另一方面,根据它们的定义,完全连接的层需要有固定大小/长度的输入,因此,固定大小的约束只来自于完全连接的层,它们存在于网络的较深阶段

在本文中,我们引入空间金字塔池(SPP)层来消除网络的固定大小约束。具体来说,我们在最后一个卷积层的顶部添加了一个SPP层,SPP层汇集特征并生成固定长度的输出,然后将其输入到全连接层(或其他分类器)中。换句话说,我们在网络层次的更深阶段(在卷积层和全连接层之间)执行一些信息“聚合”,以避免在开始时需要裁剪或warping

我们注意到SPP对于深度cnn有几个显著的特性:
1)SPP能够产生固定长度的输出,而不管输入大小如何,而以前的深度网络中使用的滑动窗口池[3]不能;
2) SPP使用多级空间箱,而滑动窗口池化仅使用单一窗口大小。多层次池化已被证明对物体变形具有鲁棒性[15];
3)由于输入尺度的灵活性,SPP可以将在可变尺度下提取的特征集合在一起。

在本文中,我们证明了我们可以只在整个图像上运行一次卷积层(不管窗口的数量),然后通过SPP-net在特征映射上提取特征。这种方法比R-CNN的速度提高了100倍以上

DEEP NETWORKS WITH SPATIAL PYRAMID POOLING

Convolutional Layers and Feature Maps

The Spatial Pyramid Pooling Layer


为了对任意大小的图像采用深度网络,我们将最后一个池化层(例如,pool5,在最后一个卷积层之后)替换为空间金字塔池化层

Training the Network

理论上,无论输入图像大小如何,上述网络结构都可以用标准的反向传播[1]进行训练。但在实践中,GPU实现(如cuda-convnet[3]和Caffe[35])最好运行在固定输入图像上。接下来,我们描述了我们的训练解决方案,该解决方案利用了这些GPU实现,同时仍然保留了空间金字塔池行为

Single-size training

我们的单尺度训练的主要目的是实现多级池化行为,实验表明,这是提高精度的原因之一

Multi-size training

我们的多尺度训练的主要目的是模拟不同的输入尺寸,同时仍然利用现有的优化的固定大小实现

SPP-NET FOR IMAGE CLASSIFICATION







SPP-NET FOR OBJECT DETECTION

我们只从整个图像中提取一次特征映射(可能在多个尺度上),然后,我们在特征映射的每个候选窗口上应用空间金字塔池,以池化该窗口的固定长度表示(见图5)



Conclusion

SPP是一种灵活的解决方案,可以处理不同的比例、大小和纵横比
提出了一种具有空间金字塔池化层的深度网络训练方案,所得的SPP-net在分类/检测任务中显示出突出的准确性,并大大加快了基于DNN的检测速度
我们的研究还表明,计算机视觉中许多久经考验的技术/见解仍然可以在基于深度网络的识别中发挥重要作用

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值