Spatial Pyramid Pooling（空间金字塔池化）-变尺度CNN训练

最新推荐文章于 2024-08-22 11:56:04 发布

沈子恒

最新推荐文章于 2024-08-22 11:56:04 发布

阅读量2.6w

点赞数 12

分类专栏：神经网络|深度学习|matlab 图像处理 | 目标跟踪 | OpenCV 计算机视觉的数学基础

本文链接：https://blog.csdn.net/shenziheng1/article/details/82504615

版权

SPPNet通过空间金字塔池化层解决深度学习中固定输入尺寸的问题，提升图像分类和目标检测精度。该方法允许任意尺寸的输入，通过多尺度池化产生固定长度的Descriptor，减少了形变误差。SPPNet在目标检测任务中尤为有效，减少了对region proposal重复提取特征的时间消耗。

摘要由CSDN通过智能技术生成

1. 需求创造好的产品，产品拓宽原始的需求

当前的深度神经网络一般都需要固定的输入图像尺寸（如224*224）. 这种需求很明显是人为的，潜在性的弊端会降低识别精度（为了使图像尺寸相同，一定会涉及到图像的比例/非比例放缩，这就引入了尺度误差和形变误差）。何凯明师兄的这项工作主要是讲多分辨率搜索的思想融入到了现有的深度网络中，从而实现了多尺度网络的训练以及识别，进而提升了图像分类和目标检测的精度（核心思想在于生成固定长度Descriptor）。SPP（Spatial Pyramid Pooling，空间金字塔池化）是一种非常有效的多分辨策略，对目标形变非常鲁邦。

2. 从目标检测RCNN入手

RCNN(Region proposal with Convoluton Neural Network，RCNN)进行目标检测的思路：CNN作为特征提取器，然后进行BoundingBox回归。但是RCNN对于每一个区域候选（Region Proposed）都需要首先将图片放缩（比例/非比例）到固定的尺寸（224*224），然后为每个区域候选提取CNN特征。整个过程是存在一些性能瓶颈：