《空间金字塔池化》论文笔记

本文详细解读何恺明2015年发表的《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》论文,探讨了为解决卷积神经网络输入尺寸固定问题提出的SPP-Net架构。SPP层能在不改变识别准确率的情况下,对任意大小的图片进行固定尺寸的特征提取。该方法通过空间金字塔将图像划分并应用不同尺寸的池化,以生成固定长度的特征表示,提高了模型的灵活性和准确性。
摘要由CSDN通过智能技术生成

论文原文:《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》

本篇论文是由何恺明大神于2015年发表在TPAMI上的。

1.研究背景

卷积神经网络的输入需要一个固定的尺寸,对于一些图像来说缩放或者裁剪会改变长宽比以及识别的准确率。基于此原因,论文提出了空间金字塔池化,并且提出了SSP-Net的构架。使用SPP-net,我们只从整个图像计算特征图,然后将特征集中在任意区域(子图像)中以生成用于训练检测器的固定长度表示。

由于卷积神经网络的输入为固定尺寸的图片,这就限制了输入图片的比例以及规模。当神经网络用于任意大小的图片时,当前的大多数方法是将输入图像固定到要求的size,通常需要做crop(裁剪)和wrap(铺展)操作。如下图所示:

这里写图片描述

然而裁剪时可能不包括整个对象,铺展时有可能会发生严重形变。因此会影响识别的准确率。

至于卷积神经网络为什么需要固定尺寸的大小?一个CNN通常包括:卷积层,池化层(论文里掉了),全连接层。由于卷积层采用的是滑动窗口操作,并且输出的feature map能够表示空间特征如图2所示。对于卷积层而言,是不需要固定输入图像尺寸的,而且还可以产生各种尺寸的特征图,由于全连接层的定义,导致神经网络需要输入固定的尺寸。

  • 2
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值