《空间金字塔池化》论文笔记

最新推荐文章于 2024-03-04 20:11:03 发布

gzj_1101

最新推荐文章于 2024-03-04 20:11:03 发布

阅读量3.5k

点赞数 2

分类专栏：论文笔记 deep learning 文章标签： SSP resize

本文链接：https://blog.csdn.net/gzj_1101/article/details/79795591

版权

本文详细解读何恺明2015年发表的《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》论文，探讨了为解决卷积神经网络输入尺寸固定问题提出的SPP-Net架构。SPP层能在不改变识别准确率的情况下，对任意大小的图片进行固定尺寸的特征提取。该方法通过空间金字塔将图像划分并应用不同尺寸的池化，以生成固定长度的特征表示，提高了模型的灵活性和准确性。

摘要由CSDN通过智能技术生成

论文原文：《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》

本篇论文是由何恺明大神于2015年发表在TPAMI上的。

1.研究背景

卷积神经网络的输入需要一个固定的尺寸，对于一些图像来说缩放或者裁剪会改变长宽比以及识别的准确率。基于此原因，论文提出了空间金字塔池化，并且提出了SSP-Net的构架。使用SPP-net，我们只从整个图像计算特征图，然后将特征集中在任意区域（子图像）中以生成用于训练检测器的固定长度表示。

由于卷积神经网络的输入为固定尺寸的图片，这就限制了输入图片的比例以及规模。当神经网络用于任意大小的图片时，当前的大多数方法是将输入图像固定到要求的size，通常需要做crop(裁剪)和wrap(铺展)操作。如下图所示：

这里写图片描述

然而裁剪时可能不包括整个对象，铺展时有可能会发生严重形变。因此会影响识别的准确率。

至于卷积神经网络为什么需要固定尺寸的大小？一个CNN通常包括：卷积层，池化层(论文里掉了)，全连接层。由于卷积层采用的是滑动窗口操作，并且输出的feature map能够表示空间特征如图2所示。对于卷积层而言，是不需要固定输入图像尺寸的，而且还可以产生各种尺寸的特征图，由于全连接层的定义，导致神经网络需要输入固定的尺寸。

最低0.47元/天解锁文章

gzj_1101

关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
《空间金字塔池化》论文笔记

1.研究背景2.算法优点3.算法原理论文原文：《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》本篇论文是由何恺明大神于2015年发表在TPAMI上的。1.研究背景卷积神经网络的输入需要一个固定的尺寸，对于一些图像来说缩放或者裁剪会改变长宽比以及识别的准...
复制链接

扫一扫

专栏目录