目标检测-RCNN系列

最新推荐文章于 2025-04-16 09:00:00 发布

linolzhang

最新推荐文章于 2025-04-16 09:00:00 发布

阅读量7.2w

点赞数 92

分类专栏：深度学习深度学习基础文章标签： RCNN YOLO SSD 目标检测

本文链接：https://blog.csdn.net/linolzhang/article/details/54344350

版权

本文详细介绍了目标检测技术的发展，从RCNN开始，经过SPP-Net和Fast-RCNN的改进，再到Faster-RCNN实现端到端的检测，最后讨论了YOLO和SSD的创新之处。RCNN系列算法的核心是结合CNN进行区域建议和目标识别，而YOLO和SSD则提出了更快更精准的检测方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

• RCNN

RCNN（Regions with CNN features）是将CNN方法应用到目标检测问题上的一个里程碑，由年轻有为的RBG大神提出，借助CNN良好的特征提取和分类性能，通过RegionProposal方法实现目标检测问题的转化。

算法可以分为四步：

1）候选区域选择

Region Proposal是一类传统的区域提取方法，可以看作不同宽高的滑动窗口，通过窗口滑动获得潜在的目标图像，关于Proposal大家可以看下SelectiveSearch，一般Candidate选项为2k个即可，这里不再详述；

根据Proposal提取的目标图像进行归一化，作为CNN的标准输入。

2）CNN特征提取

标准CNN过程，根据输入进行卷积/池化等操作，得到固定维度的输出；

3）分类与边界回归

实际包含两个子步骤，一是对上一步的输出向量进行分类（需要根据特征训练分类器）；二是通过边界回归（bounding-box regression) 得到精确的目标区域，由于实际目标会产生多个子区域，旨在对完成分类的前景目标进行精确的定位与合并，避免多个检出。

RCNN存在三个明显的问题：

1）多个候选区域对应的图像需要预先提取，占用较大的磁盘空间；

2）针对传统CNN需要固定尺寸的输入图像，crop/warp（归一化）产生物体截断或拉伸，会导致输入CNN的信息丢失；

3）每一个ProposalRegion都需要进入CNN网络计算，上千个Region存在大量的范围重叠，重复的特征提取带来巨大的计算浪费。

• SPP-Net

智者善于提出疑问，既然CNN的特征提取过程如此耗时（大量的卷积计算），为什么要对每一个候选区域独立计算，而不是提取整体特征，仅在分类之前做一次Region截取呢？智者提出疑问后会立即付诸实践，于是SPP-Net诞生了。