Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition（2015.4）

怎么全是重名

于 2023-10-23 16:03:47 发布

阅读量100

点赞数 1

分类专栏：论文笔记 # R-CNN 文章标签：深度学习人工智能神经网络

本文链接：https://blog.csdn.net/qihshe/article/details/133984557

版权

论文笔记同时被 2 个专栏收录

84 篇文章 2 订阅

订阅专栏

R-CNN

8 篇文章 0 订阅

订阅专栏

在这里插入图片描述

文章目录

Abstract
Introduction
DEEP NETWORKS WITH SPATIAL PYRAMID POOLING
SPP-NET FOR IMAGE CLASSIFICATION
SPP-NET FOR OBJECT DETECTION
Conclusion

论文链接
源代码

Abstract

现有的深度卷积神经网络(cnn)需要固定大小的输入图像(例如224×224)，这种“人为的”要求，可能会降低任意大小/比例的图像或子图像的识别精度。我们为网络配备了另一种池化策略，即“空间金字塔池化”，以消除上述要求。新的网络结构被称为SPP-net，无论图像大小/比例如何，都可以生成固定长度的表示，金字塔池对物体变形也具有鲁棒性。有了这些优点，SPP-net应该在总体上改进所有基于cnn的图像分类方法
在ImageNet 2012数据集上，我们证明了SPP-net提高了各种CNN架构的准确性，尽管它们的设计不同
在Pascal VOC 2007和Caltech101数据集上，SPP-net使用单一的全图像表示实现了最先进的分类结果，无需微调
SPP-net在目标检测方面的能力也很显著。使用SPP-net，我们只从整个图像中计算一次特征映射，然后将任意区域(子图像)的特征池生成固定长度的表示用于训练检测器
该方法避免了重复计算卷积特征。在处理测试图像时，我们的方法比R-CNN方法快24-102倍，同时在Pascal VOC 2007上实现更好或相当的精度

Introduction

在cnn的训练和测试中存在一个技术问题：流行的cnn需要固定的输入图像大小(例如224×224)，这限制了输入图像的长宽比和大小。
当应用于任意大小的图像时，目前的方法大多是通过剪切[3]，[4]或通过扭曲[13]，[7]（RCNN）来将输入图像拟合到固定的大小，如图1(顶部)所示。但是裁剪的区域可能不包含整个对象，而warp的内容可能导致不必要的几何扭曲，由于内容丢失或失真，识别精度可能会受到损害。此外，当对象的尺度变化时，预定义的尺度可能不适合，固定输入大小忽略了涉及尺度的问题

一个CNN主要由两部分组成:卷积层和随后的全连接层

事实上，卷积层不需要固定的图像大小，可以生成任何大小的特征图。另一方面，根据它们的定义，完全连接的层需要有固定大小/长度的输入，因此，固定大小的约束只来自于完全连接的层，它们存在于网络的较深阶段

在本文中，我们引入空间金字塔池(SPP)层来消除网络的固定大小约束。具体来说，我们在最后一个卷积层的顶部添加了一个SPP层，SPP层汇集特征并生成固定长度的输出，然后将其输入到全连接层(或其他分类器)中。换句话说，我们在网络层次的更深阶段(在卷积层和全连接层之间)执行一些信息“聚合”，以避免在开始时需要裁剪或warping

我们注意到SPP对于深度cnn有几个显著的特性:
1)SPP能够产生固定长度的输出，而不管输入大小如何，而以前的深度网络中使用的滑动窗口池[3]不能;
2) SPP使用多级空间箱，而滑动窗口池化仅使用单一窗口大小。多层次池化已被证明对物体变形具有鲁棒性[15];
3)由于输入尺度的灵活性，SPP可以将在可变尺度下提取的特征集合在一起。

在本文中，我们证明了我们可以只在整个图像上运行一次卷积层(不管窗口的数量)，然后通过SPP-net在特征映射上提取特征。这种方法比R-CNN的速度提高了100倍以上

DEEP NETWORKS WITH SPATIAL PYRAMID POOLING

Convolutional Layers and Feature Maps

The Spatial Pyramid Pooling Layer

为了对任意大小的图像采用深度网络，我们将最后一个池化层(例如，pool5，在最后一个卷积层之后)替换为空间金字塔池化层

Training the Network

理论上，无论输入图像大小如何，上述网络结构都可以用标准的反向传播[1]进行训练。但在实践中，GPU实现(如cuda-convnet[3]和Caffe[35])最好运行在固定输入图像上。接下来，我们描述了我们的训练解决方案，该解决方案利用了这些GPU实现，同时仍然保留了空间金字塔池行为

Single-size training

我们的单尺度训练的主要目的是实现多级池化行为，实验表明，这是提高精度的原因之一

Multi-size training

我们的多尺度训练的主要目的是模拟不同的输入尺寸，同时仍然利用现有的优化的固定大小实现

SPP-NET FOR IMAGE CLASSIFICATION

SPP-NET FOR OBJECT DETECTION

我们只从整个图像中提取一次特征映射(可能在多个尺度上)，然后，我们在特征映射的每个候选窗口上应用空间金字塔池，以池化该窗口的固定长度表示(见图5)

Conclusion

SPP是一种灵活的解决方案，可以处理不同的比例、大小和纵横比
提出了一种具有空间金字塔池化层的深度网络训练方案，所得的SPP-net在分类/检测任务中显示出突出的准确性，并大大加快了基于DNN的检测速度
我们的研究还表明，计算机视觉中许多久经考验的技术/见解仍然可以在基于深度网络的识别中发挥重要作用

怎么全是重名

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition（2015.4）

现有的深度卷积神经网络(cnn)需要固定大小的输入图像(例如224×224)，这种“人为的”要求，可能会降低任意大小/比例的图像或子图像的识别精度。我们为网络配备了另一种池化策略，即“空间金字塔池化”，以消除上述要求。新的网络结构被称为SPP-net，无论图像大小/比例如何，都可以生成固定长度的表示，金字塔池对物体变形也具有鲁棒性。有了这些优点，SPP-net应该在总体上改进所有基于cnn的图像分类方法。
复制链接

扫一扫

专栏目录