spatial pyramid pooling(spp)

最新推荐文章于 2023-04-20 10:05:54 发布

换个名字就很好

最新推荐文章于 2023-04-20 10:05:54 发布

阅读量1.7k

点赞数

CC 4.0 BY-SA版权

分类专栏：计算机视觉文章标签：计算机视觉

本文链接：https://blog.csdn.net/AliceH1226/article/details/122078764

计算机视觉专栏收录该内容

20 篇文章

订阅专栏

本文探讨了在网络中使用SPP（Spatial Pyramid Pooling）的优势，包括其能够处理任意尺寸的输入图片并保持识别精度，通过多级空间bin提高对物体形变的鲁棒性，并增强了尺度不变性，减少了过拟合的风险。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

没有spp的网络的缺点

1，现有的dcnn需要固定尺寸的图片作为输入，这样对图片的宽高比和尺寸大小作出了限制。
2，如果图片尺寸是任意的，在输入之前需要做裁剪或图像扭曲(crop or warp(resize))来适应网络的固定尺寸输入。剪切后的图片可能不能包含整个物体。扭曲后的内容可能会导致几何变形。识别准确率会因为物体内容缺失或变形而减低。

使用spp的好处

1，spp能生成一个固定长度的输出，不管输入图片大小是否相同。
2，spp使用多级spatial bins，而sliding window pooling只使用单一window size，实验证明前者对物体形变更鲁棒。
3，spp能对由不同尺寸的输入提取的feature进行池化。

用不同尺寸图片进行训练能增强scale-invariance和减少过拟合

spp放在哪里

最后一层池化层用spp代替

spp长什么样

spp

3level_pyramid_pooling

例子：
feature map: a*a 13*13 any
bin: n*n 3*3 人为固定
window size: a/n(上取整) 5 由any和固定决定
stride:a/n(下取整) 4 由any和固定决定
spp的输出是k/*M维的向量，k是最后conv层的filter数，M是bin的数目。spp输出的固定维度向量作为input输入到全连接层。