01 R-CNN系列总结

最新推荐文章于 2024-07-28 08:30:59 发布

Mr.Q

最新推荐文章于 2024-07-28 08:30:59 发布

阅读量335

点赞数 1

分类专栏： Deep Learning Object Detection

本文链接：https://blog.csdn.net/jizhidexiaoming/article/details/84568123

版权

20 篇文章 4 订阅

订阅专栏

11 篇文章 0 订阅

订阅专栏

将分类数从1000改为20，加上背景共21类；变成21类的分类任务，进行端对端训练。

提取图像的所有候选框（选择性搜索）

对于每一个区域：缩放区域大小以适合CNN的输入，做一次前向运算（第二步已经完成分类模型的训练），将第五个池化层的输出（就是对候选框提取到的特征）存到硬盘

判断这个候选框里物体的类别，每个类别对应一个SVM二分类器，判断是不是属于这个类别，是就是positive，反之negative
比如下图，就是狗分类的SVM

对于每一个类，训练一个线性回归模型去判定这个框是否框得完美。

类似于下图：

注意：使用选择行搜索，确定候选框；然后把候选框输入到CNN网络，提取候选框的特征；最后把特征输入到SVM中，进行分类。

最后总结一下各大算法的步骤：
RCNN （选框，提特征，分类，定位）

SPPnet (链接)

SPPnet算法过程和R-CNN一样，只是在提特征方式上做了改进：把整张待检测的图片，输入CNN中，进行一次性特征提取，得到feature map，然后对各个候选框对应的特征采用空间金字塔池化SPP，提取出固定长度的特征向量。
回顾R-CNN的特征提取过程：对于每一个候选框，缩放候选框大小以适合CNN的输入，做一次前向运算，将第五个池化层的输出（就是对候选框提取到的特征）存到硬盘

Fast RCNN

输入训练图像；
利用selective search 算法在图像中从上到下提取2000个左右的候选框(Region Proposal)；
将整张图片输入CNN，进行特征提取，得到feature map；
把建议窗口映射到CNN的最后一层卷积feature map上；前四步和SPP-net一样。
通过RoI pooling层（单层sppnet的网络层，即只有一种网格）使每个候选框对应的特征图生成固定尺寸的feature map。而SPPnet采用的空间金字塔池化，生成的是固定尺寸的feature vector；
利用Softmax Loss(分类器) 和Smooth L1 Loss(边框回归器)，对分类概率和边框回归(Bounding box regression)联合训练，去掉了SVM。SPPnet是分步训练的。

Faster RCNN

RPN简介：
　　 • 在feature map上滑动窗口
　　 • 建一个神经网络用于物体分类+框位置的回归
　　 • 滑动窗口的位置提供了物体的大体位置信息
　　 • 框的回归提供了框更精确的位置

关注