空间金字塔池化(Spatial Pyramid Pooling, SPP)原理及代码实现(Pytorch)

最新推荐文章于 2024-09-18 18:06:28 发布

Viraha_

最新推荐文章于 2024-09-18 18:06:28 发布

阅读量2.6k

点赞数 3

文章标签：卷积 python 算法

本文链接：https://blog.csdn.net/Viraha_/article/details/115028716

版权

空间金字塔池化(Spatial Pyramid Pooling, SPP)原理及代码实现(Pytorch)

在这里插入图片描述

卷积神经网络(CNN)由卷积层和全连接层组成，其中卷积层对于输入数据的大小并没有要求，唯一对数据大小有要求的则是第一个全连接层，因此基本上所有的CNN都要求输入数据固定大小，例如著名的VGG模型则要求输入数据大小是 (224*224) 。

固定输入数据大小有两个问题：
1.很多场景所得到数据并不是固定大小的，例如街景文字基本上其高宽比是不固定的。
2.可能你会说可以对图片进行切割，但是切割的话很可能会丢失到重要信息。
综上，SPP的提出就是为了解决CNN输入图像大小必须固定的问题，从而可以使得输入图像高宽比和大小任意。

1、SPP原理

在这里插入图片描述
上图是原文中给出的示意图，需要从下往上看:
首先是输入层(input image),其大小可以是任意的进行卷积运算，到最后一个卷积层(图中是conv5)输出得到该层的特征映射(feature maps)，其大小也是任意的。
下面进入SPP层
我们先看最左边有16个蓝色小格子的图，它的意思是将从conv5得到的特征映射分成16份，另外16X256中的256表示的是channel，即SPP对每一层都分成16份(不一定是等比分，原因看后面的内容就能理解了)。
中间的4个绿色小格子和右边1个紫色大格子也同理，即将特征映射分别分成4X256和1X256份。
那么将特征映射分成若干等分是做什么用的呢？我们看SPP的名字就是到了，是做池化操作，一般选择MAX Pooling，即对每一份进行最大池化。
我们看上图，通过SPP层，特征映射被转化成了16X256+4X256+1X256 = 21X256的矩阵，在送入全连接时可以扩展成一维矩阵，即1X10752，所以第一个全连接层的参数就可以设置成10752了，这样也就解决了输入数据大小任意的问题了。
注意上面划分成多少份是可以自己是情况设置的，例如我们也可以设置成3X3等，但一般建议还是按照论文中说的的进行划分。

2、SPP公式

在这里插入图片描述

3、代码实现


```python
#coding=utf-8

import math
import torch
import torch

最低0.47元/天解锁文章