SPPNet论文翻译-空间金字塔池化Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

最新推荐文章于 2024-09-16 12:41:31 发布

mengduanhonglou

最新推荐文章于 2024-09-16 12:41:31 发布

阅读量4.5k

点赞数 3

分类专栏：人工智能文章标签：深度学习神经网络物体检测

本文链接：https://blog.csdn.net/mengduanhonglou/article/details/78470682

版权

SPPNet（空间金字塔池化网络）是一种深度卷积网络，用于视觉识别任务，如图像分类和物体检测。该网络引入了空间金字塔池化层，允许固定大小的特征输入到全连接层，即使输入图像尺寸不同。实验表明，SPP-NET在ImageNet 2012分类、VOC 2007分类和Caltech101上提高了准确性，并且在物体检测任务中表现出色。

摘要由CSDN通过智能技术生成

首发地址

原文：SPPNet论文翻译
译者：邓范鑫

我对物体检测的一篇重要著作SPPNet的论文的主要部分进行了翻译工作。SPPNet的初衷非常明晰，就是希望网络对输入的尺寸更加灵活，分析到卷积网络对尺寸并没有要求，固定尺寸的要求完全来源于全连接层部分，因而借助空间金字塔池化的方法来衔接两者，SPPNet在检测领域的重要贡献是避免了R-CNN的变形、重复计算等问题，在效果不衰减的情况下，大幅提高了识别速度。

用于视觉识别的深度卷积网络空间金字塔池化方法

Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun

摘要

当前深度卷积神经网络（CNNs）都需要输入的图像尺寸固定（比如224×224）。这种人为的需要导致面对任意尺寸和比例的图像或子图像时降低识别的精度。本文中，我们给网络配上一个叫做“空间金字塔池化”(spatial pyramid pooling,)的池化策略以消除上述限制。这个我们称之为SPP-net的网络结构能够产生固定大小的表示（representation）而不关心输入图像的尺寸或比例。金字塔池化对物体的形变十分鲁棒。由于诸多优点，SPP-net可以普遍帮助改进各类基于CNN的图像分类方法。在ImageNet2012数据集上，SPP-net将各种CNN架构的精度都大幅提升，尽管这些架构有着各自不同的设计。在PASCAL VOC 2007和Caltech101数据集上，SPP-net使用单一全图像表示在没有调优的情况下都达到了最好成绩。SPP-net在物体检测上也表现突出。使用SPP-net，只需要从整张图片计算一次特征图（feature map），然后对任意尺寸的区域（子图像）进行特征池化以产生一个固定尺寸的表示用于训练检测器。这个方法避免了反复计算卷积特征。在处理测试图像时，我们的方法在VOC2007数据集上，达到相同或更好的性能情况下，比R-CNN方法快24-102倍。在ImageNet大规模视觉识别任务挑战（ILSVRC）2014上，我们的方法在物体检测上排名第2，在物体分类上排名第3，参赛的总共有38个组。本文也介绍了为了这个比赛所作的一些改进。

1. 简介

我们看到计算机视觉领域正在经历飞速的变化，这一切得益于深度卷积神经网络（CNNs）[1]和大规模的训练数据的出现[2]。近来深度网络对图像分类 [3][4][5][6]，物体检测 [7][8][5]和其他识别任务 [9][10][11][12]，甚至很多非识别类任务上都表现出了明显的性能提升。

然而，这些技术再训练和测试时都有一个问题，这些流行的CNNs都需要输入的图像尺寸是固定的（比如224×224），这限制了输入图像的长宽比和缩放尺度。当遇到任意尺寸的图像是，都是先将图像适应成固定尺寸，方法包括裁剪[3][4]和变形[13][7]，如图1（上）所示。但裁剪会导致信息的丢失，变形会导致位置信息的扭曲，就会影响识别的精度。另外，一个预先定义好的尺寸在物体是缩放可变的时候就不适用了。

那么为什么CNNs需要一个固定的输入尺寸呢？CNN主要由两部分组成，卷积部分和其后的全连接部分。卷积部分通过滑窗进行计算，并输出代表激活的空间排布的特征图（feature map）（图2）。事实上，卷积并不需要固定的图像尺寸，他可以产生任意尺寸的特征图。而另一方面，根据定义，全连接层则需要固定的尺寸输入。因此固定尺寸的问题来源于全连接层，也是网络的最后阶段。本文引入一种空间金字塔池化( spatial pyramid pooling，SPP)层以移除对网络固定尺寸的限制。尤其是，将SPP层放在最后一个卷积层之后。SPP层对特征进行池化，并产生固定长度的输出，这个输出再喂给全连接层（或其他分类器）。换句话说，在网络层次的较后阶段（也就是卷积层和全连接层之间）进行某种信息“汇总”，可以避免在最开始的时候就进行裁剪或变形。图1（下）展示了引入SPP层之后的网络结构变化。我们称这种新型的网络结构为SPP-net。

空间金字塔池化[14][15]（普遍称谓：空间金字塔匹配spatial pyramid matching, SPM[15]），是一种词袋(Bag-of-Words, BoW)模型的扩展。池袋模型是计算机视觉领域最成功的方法之一。它将图像切分成粗糙到精细各种级别，然后整合其中的局部特征。在CNN之前，SPP一直是各大分类比赛[17][18][19]和检测比赛（比如[20]）的冠军系统中的核心组件。对深度CNNs而言，SPP有几个突出的优点：1）SPP能在输入尺寸任意的情况下产生固定大小的输出，而以前的深度网络[3]中的滑窗池化(sliding window pooling)则不能；2）SPP使用了多级别的空间箱(bin)，而滑窗池化则只用了一个窗口尺寸。多级池化对于物体的变形十分鲁棒[15]；3）由于其对输入的灵活性，SPP可以池化从各种尺度抽取出来的特征。通过实验，我们将展示影响深度网络最终识别精度的所有这些因素。

SPP-net不仅仅让测试阶段允许任意尺寸的输入能够产生表示(representations)，也允许训练阶段的图像可以有各种尺寸和缩放尺度。使用各种尺寸的图像进行训练可以提高缩放不变性，以及减少过拟合。我们开发了一个简单的多尺度训练方法。为了实现一个单一的能够接受各种输入尺寸的网络，我们先使用分别训练固定输入尺寸的多个网络，这些网络之间共享权重（Parameters），然后再一起来代表这个单一网络（译者注：具体代表方式没有说清楚，看后面怎么说吧）。每个epoch，我们针对一个给定的输入尺寸进行网络训练，然后在下一个epoch再切换到另一个尺寸。实验表明，这种多尺度训练和传统的单一尺度训练一样可以瘦脸，并且能达到更好的测试精度。

SPP的优点是与各类CNN设计是正交的。通过在ImageNet2012数据集上进行一系列可控的实验，我们发现SPP对[3][4][5]这些不同的CNN架构都有提升。这些架构有不同的特征数量、尺寸、滑动距离（strides）、深度或其他的设计。所以我们有理由推测SPP可以帮助提升更多复杂的（更大、更深）的卷积架构。SPP-net也做到了 Caltech101 [21]和Pascal VOC 2007 [22]上的最好结果，而只使用了一个全图像表示，且没有调优。