目标检测-Two Stage-SPP Net

学海一叶

已于 2023-12-26 17:01:10 修改

阅读量1k

点赞数 24

分类专栏：目标检测文章标签：目标检测人工智能计算机视觉深度学习算法

于 2023-12-26 16:04:22 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/long11350/article/details/135205440

版权

目标检测专栏收录该内容

20 篇文章 1 订阅

订阅专栏

SPPNet通过改进RCNN的候选框处理方法，采用先卷积后池化的策略，减少计算量，同时使用空间金字塔池化层避免图像失真。尽管提高了精度和速度，但模型训练复杂，且SPPNet的某些层不支持权重更新。

摘要由CSDN通过智能技术生成

文章目录

前言
一、SPP Net 的网络结构和流程
二、SPP的创新点
总结

前言

SPP Net：Spatial Pyramid Pooling Net（空间金字塔池化网络）

SPP-Net是出自何凯明教授于2015年发表在IEEE上的论文-《Spatial Pyramid Pooling in Deep ConvolutionalNetworks for Visual Recognition》

前文目标检测-Two Stage-RCNN中提到RCNN的主要缺点如下：

2000候选框都需要进行CNN提特征+SVM分类，计算量很大
所有候选框在输入CNN前都裁剪/缩放（crop/warp）成统一大小，会造成变形失真等问题，从而影响精度（见下图）

在这里插入图片描述

SPP Net 针对上述缺点做了改进

提示：以下是本篇文章正文内容，下面内容可供参考

一、SPP Net 的网络结构和流程

使用EdgeBoxes提取2,000个候选窗口（candidate windows）
预训练CNN模型（ZF）+ 微调（fine-tuning） / 从头开始训练模型
调整图像的大小，使min(w,h)=s，并使用CNN网络从整个图像中提取特征图（feature maps）

ps：输入影像大小可以是任意的，因此feature map的大小也是任意的

使用线性模型将候选窗口在原图的位置映射到卷积层特征图，以获取每个候选窗口的特征图（feature maps）
通过空间金字塔池化层（Spatial Pyramid Pooling Layer）将每个候选窗口feature map转化为固定大小

ps：以下图举例来说，SPP以3级空间金字塔（4×4,2×2,1×1）来提取特征，就可以得到16+4+1=21种不同的块(Spatial bins)，对每个块进行池化操作，最终得到固定大小为21×256的输出

实际使用了4级空间金字塔（1×1, 2×2, 3×3, 6×6），这会为每个候选窗口生成12800d（256×50）的表示

将经过SPP Layer层的得到的候选窗口的表示（12800d）输入全连接网络
训练一个SVM分类器，根据全连接网络输出特征进行分类，利用非极大值抑制（NMS）去除冗余候选区
训练一个回归模型，精修正确的候选框位置及大小

在这里插入图片描述

二、SPP的创新点

相比于RCNN先提特征后卷积，SPP Net先卷积后提特征，因此只需要一次卷积，相比于RCNN节省了大量计算时间
使用SPP Layer固定输出大小，改善了warp/crop这种预处理方法可能造成的图像失真从而导致识别精度下降的问题
使用了多尺度训练（224和180）提高了精度

ps：输入的大小可以是任意的，使得网络可用于多尺度训练

总结

尽管相比于RCNN，SPP Net提高了精度和速度，但是仍然是分开训练多个模型，模型训练难度大且繁杂。

尽管比RCNN快10-100倍，但仍然很慢

SPP Net无法更新空间金字塔池化层以下的权重，根本原因是，当每个训练样本来自不同影像时，通过SPP层的反向传播效率很低

关注

24
点赞
踩
23

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄6年

79
原创

898
点赞

1267
收藏

771
粉丝

关注

私信

热门文章

分类专栏

目标检测 20篇
图像分割 2篇
LLM 14篇
强化学习 2篇
机器学习 3篇
C++ 6篇
Kaggle 2篇
图神经网络 2篇
时序预测 3篇
计算机视觉 1篇
Vue3 1篇
Python 2篇
Django 3篇
Linux 8篇
WebGIS 1篇
QGIS 6篇
GEE学习 1篇
C++ GDAL学习之旅 2篇
Git学习 2篇

最新评论

目标检测之序章-类别、必读论文和算法对比（实时更新）
matlab新手: 这个表是不是写错了two和one
大语言模型系列-GPT-3.5(ChatGPT)
征途黯然.: The explanation of 大语言模型系列GPT35ChatGPT in this article is vivid, offering a deeper understanding.
大语言模型系列-GPT-3.5(ChatGPT)
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/618183501。
机器学习系列-机器学习范式
白话机器学习: 内容丰富图文并茂，认真看完收获很大。思路清晰细节满满，支持大佬优质好文。
目标检测-One Stage-YOLOv8
m0_68949064: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，文章思路清晰，图文并茂，详略得当，三连支持，期待博主持续输出好文。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

学海一叶 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。