目标检测（Object Detection）——R-CNN

最新推荐文章于 2024-08-20 09:47:34 发布

Lee Chan

最新推荐文章于 2024-08-20 09:47:34 发布

阅读量186

点赞数

分类专栏：目标检测（Object Detection）深度学习（Deep learning）

本文链接：https://blog.csdn.net/Sophia_sHB/article/details/102331806

版权

目标检测（Object Detection）同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

深度学习（Deep learning）

1 篇文章 0 订阅

订阅专栏

所属知识点：Computer Vision：Object Detection
整理和记录计算机视觉实用资源的库：ViolinLee/practical_cv
微信公众号：“RoboticsCV”（微信号：ModernRobotics）。专注深度学习、计算机视觉，总结和分享相关技术，尽量做到在概念、项目、学习资源上都对大家有充分帮助。公众号刚注册，很快会运营，欢迎大家关注！

相关概念：Region Proposals、Selective Search、CNN、Feature Extraction、SVM、NMS、mAP；

1、传统目标检测
特点：以图像分类为基础；
一般流程：（1）生成候选区域（Region Proposals）；（2）提取候选区域特征；（3）图像分类；（4）使用非极大值抑制（NMS）输出结果。

2、R-CNN（Region-CNN）原理
因为组合了 Region proposals 和 CNN，故称作 R-CNN。R-CNN 遵循传统目标检测思路，但在提取特征这一步，将传统特征（例如 SIFT、HOG 特征等）换成 DCNN 提取的特征。
R-CNN 目标检测系统包含的三个模块：（1）生成类别无关的候选区域；（2）提取每个 region 特征的 CNN；（3）与类别相关的 SVM 分类器。
R-CNN 算法框架如下：

   图像输入：候选区域大小是变化的，但通常 CNN 只接受固定尺寸的图像。R-CNN 的做法是将候选区域缩放到统一大小（227 × 227尺寸），再使用 CNN 提取特征。
   候选区域生成、候选区域特征提取：使用 Selective Search 算法从图像中启发式地搜索出可能包含物体的区域。
   候选区域分类：SVM 分类器。
   训练过程：（1）在目标检测数据集上对预训练的 CNN 进行微调，R-CNN 论文使用的 CNN 为在 ImageNet 训练过的 AlexNet。（2）使用 Selective Search 搜索候选区域，再使用微调后的 CNN 提取特征并存储起来，后用于训练 SVM 分类器。注：关于为什么使用 SVM 分类器而不是直接使用 CNN 末端接全连接层的 Softmax 输出，作者在论文附录 B 中有简单提到，感兴趣的同学还可以参考知乎上的提问。
   边框回归：Selective Search 算法生成的 Region Proposals Box 和实际的 Ground-Truth 肯定有差距，通过训练四个回归模型来使他们尽量接近（因为 Bounding Box 有四个参数：x、y、w、h）。

3、RCNN 的进步及缺陷：
   得益于 CNN 优异的特征提取能力，R-CNN 性能相较传统方法有了较大提升。在 VOC 2007 数据集上 mAP 为 58.5%（传统方法最高 mAP 最高为 40% 左右）。
   R-CNN 的主要缺点是巨大的计算量，体现在两个方面：（1）生成候选区域阶段，首先须要通过 Selective Search 获得候选框，后对这些候选区域分别使用 CNN 计算特征。（2）训练阶段，须要先把所有特征保存起来，在通过 SVM 进行训练。