【目标检测系列】三、R-CNN

travellerss

已于 2023-09-17 08:59:43 修改

阅读量23

点赞数

分类专栏： # 目标检测网络文章标签： r语言 cnn 深度学习

于 2022-10-08 16:50:55 首次发布

本文链接：https://blog.csdn.net/qq_30196905/article/details/127211904

版权

8 篇文章 0 订阅

订阅专栏

参考资料

论文：

博客：

R-CNN是首个将 CNN 引入目标检测领域的算法模型，R-CNN 主要是在特征提取阶段使用CNN（AlexNet），其它阶段使用的还是传统目标检测的方法，R-CNN目标检测主要分为四个大的阶段：

注1：在进行特征提取之前，需要先对上一步生成的候选区域进行调整，使其变为227*227，这是因为AlexNet输入是固定的，当然，其实卷积操作的输入可以不固定，全连接层的输入大小才是固定的，这也是后面几个模型会改进的。

注2：调整的方法比较暴力，不管输入是多大

（3）候选区域类别判断：将 $2000\times4096$ 维特征向量送入到21个 （20个类别+1个背景） SVM分类器中，每一个SVM分类器包含4096个参数，所以可以看成两个矩阵相乘，即 $W_1(2000×4096)×W_2(4096×21)=W_3(2000×21)$ ，这样就得到了每一个候选区域是某个类别的概率值。因为一张图片出现有上千个物品的可能性微乎其微，所以必定有大量的候选区域是重叠的，因此需要去除冗余的候选框。作者在此处使用非极大值抑制（NMS）方法来去除冗余候选框，对于每一个类别中IoU大于给定阈值的候选区域。这样就得到了每一个类别得分最高的一些候选区域。
（4）使用回归器对候选框位置调整：对于上一步经过 NMS 筛选后的候选区域，其精度必定不够，所以需要进行进一步的调整。

在这里插入图片描述

在文章中，作者认为 R-CNN 较之前的算法，能够取得30%的改进是基于以下两点：

在这里插入图片描述

R-CNN的不足：

速度慢，因为需要对selective search算法生成2K个候选区域，并对2k个候选区域分别提取特征，而又由于候选区域的重叠问题，所以这中间有着大量的重复计算（这也是后面的改进方向）。
训练步骤繁琐，需要先预训练CNN，然后微调CNN，再训练20个SVM，20个回归器，期间还要涉及用NMS去除候选冗余框。