目标检测R-CNN系列算法总结

最新推荐文章于 2022-11-03 12:29:49 发布

灵喵先生

最新推荐文章于 2022-11-03 12:29:49 发布

阅读量1.5k

点赞数

分类专栏：深度学习文章标签：深度学习 Faster-RCNN

本文链接：https://blog.csdn.net/weixin_43246440/article/details/102672197

版权

深度学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

R-CNN

在这里插入图片描述它主要分为4个模块
1.候选区域（region proposal）提取
2.一个大型的CNN网络用来特征提取
3.使用SVM分类模型进行类别分类
4.使用回归（Regression）模型进行具体定位

具体RCNN的训练流程如下：
1.先使用ImageNet数据集训练一个CNN网络（论文中使用的是AlexNet）
论文中提到，因为实际标签数据太少，远远不够去训练一个大型的CNN网络模型，所以需要先借助ImageNet数据集进行训练CNN网络，也就是预训练过程，然后再在自己的数据集上针对特定任务进行微调

2.使用选择性搜索（selective search）算法提取出2000个候选框
R-CNN算法使用的选择性搜索（selective search）算法提取出了2000个候选框，Selective search综合考虑图像的颜色、纹理、尺寸相似性和空间重合度来划分区域，并将小区域按照相似性合并为大区域。

3.将提取出来的候选框统一resize到 CNN网络所需要的尺寸
因为CNN网络输入的图像尺寸是固定（论文中为224*224），所以需要将不同大小的候选框resize到CNN网络所需要的尺寸
4.使用自己的数据集对CNN网络进行fine-tuning(微调)
5.利用fine-tuning后的CNN网络对候选框进行特征提取
6.训练多个二元SVM分类模型
7.Bounding-box回归来减少候选区域误差

R-CNN作为目标检测算法中的一个里程碑之作，本身也就有许多缺点
1.候选框选择算法严重耗时
2.每张图片2000个候选框中会有很多重复的部分，从而导致后面在使用CNN时有很多重复计算
3.在进行候选区域的特征提取时，为了适应CNN网络的输入，需要对候选区域进行扭曲，缩放等操作，这会导致一些图片特征信息的丢失和变形，从而降低了检测的准确性

Fast R-CNN

Fast R-CNN的网络结构如下图所示。
在这里插入图片描述

任意size图片输入CNN网络，经过若干卷积层与池化层，得到特征图；
在任意size图片上采用selective search算法提取约2k个建议框；
根据原图中建议框到特征图映射关系，在特征图中找到每个建议框对应的特征框【深度和特征图一致】，并在RoI池化层中将每个特征框池化到H×W【VGG-16网络是7×7】的size；
固定H×W【VGG-16网络是7×7】大小的特征框经过全连接层得到固定大小的特征向量；
第4步所得特征向量经由各自的全连接层【由SVD分解实现】，分别得到两个输出向量：一个是softmax的分类得分，一个是Bounding-box窗口回归；
利用窗口得分分别对每一类物体进行非极大值抑制剔除重叠建议框，最终得到每个类别中回归修正后的得分最高的窗口。

Faster-RCNN

在这里插入图片描述 RCNN采用了3个部分：Selective Search + CNN + SVM
Fast-RCNN 将提取特征和分类两者合在了一起，但是proposal仍然还是由SS算法。
这就导致了一个尴尬的处地，提取proposal的时间比后面分类+回归的总时间都长。Faster-RCNN则着重于这点，提出了RPN网络，并引入anchor框。将特征抽取(feature extraction)，proposal提取，bounding box regression(rect refine)，classification都整合在了一个网络中，使得综合性能有较大提高，在检测速度方面尤为明显。

Faster RCNN其实可以分为4个主要内容：

Conv layers。作为一种CNN网络目标检测方法，Faster RCNN首先使用一组基础的conv+relu+pooling层提取image的feature maps。该feature maps被共享用于后续RPN层和全连接层。
Region Proposal Networks。RPN网络用于生成region proposals。该层通过softmax判断anchors属于foreground或者background，再利用bounding box regression修正anchors获得精确的proposals。
Roi Pooling。该层收集输入的feature maps和proposals，综合这些信息后提取proposal feature maps，送入后续全连接层判定目标类别。
Classification。利用proposal feature maps计算proposal的类别，同时再次bounding box
regression获得检测框最终的精确位置。

灵喵先生

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
目标检测R-CNN系列算法总结

目录R-CNNFast R-CNNFaster-RCNNR-CNN它主要分为4个模块1.候选区域（region proposal）提取2.一个大型的CNN网络用来特征提取3.使用SVM分类模型进行类别分类4.使用回归（Regression）模型进行具体定位具体RCNN的训练流程如下：1.先使用ImageNet数据集训练一个CNN网络（论文中使用的是AlexNet）论文中提到，因为...
复制链接

扫一扫