再谈R-CNN系列

最新推荐文章于 2024-06-18 14:18:55 发布

-牧野-

最新推荐文章于 2024-06-18 14:18:55 发布

阅读量3.8k

点赞数 1

分类专栏：机器学习文章标签： R-CNN Fast-RCNN Faster-RCNN

本文链接：https://blog.csdn.net/dcrmg/article/details/84372470

版权

机器学习专栏收录该内容

12 篇文章 2 订阅

订阅专栏

R-CNN

R-CNN主要解决了传统检测方法中特征需要人为设定和提取的弊端，改用CNN特征。

1. R-CNN 是把Region proposal（建议候选框）和CNN结合起来。R-CNN：Regions with CNN features。使用CNN提取特征的候选区域。关键一是候选框，关键二是候选框的CNN特征。

2. 每张图片产生2000个建议候选框，初始探测出的候选框大小不同，使用缩放统一到固定大小，送到CNN网络提取特征，再使用线性SVM对CNN特征分类。

3. 训练策略上，基于标签数据太少这个前提，现在数据集上进行有监督预训练，再在小数据集上针对特定问题做调优，以此在训练数据稀少的情况下完成一个大型卷积神经网络的训练任务。

候选框大小归一化到227×227,使用CNN（AlexNet）提取4096维特征向量。 候选框归一化方法：先在候选框周围加上16个像素的padding，再进行各向异性缩放（即不管原始大小，直接拉伸成矩形），各向同性缩放的效果稍差。

每个候选框分别使用每个SVM分类器进行打分分类，再使用非极大值抑制（NMS），合并IOU。

Bounding-box回归： R-CNN训练了一个线性回归模型去优化目标的定位准确度。具体的就是把边框A内的区域通过提取CNN特征（AlexNet pool5，网络的最后一层），在把这些特征（而不是物理的大小和坐标点）送入回归模型中，得到该边框A的平移和缩放系数，再对A进行平移和缩放，优化位置。

R-CNN训练中为什么CNN fine-tuning和SVM对正负样本的定义不一样

CNN fine-tuning时IOU大于0.5即认为是正样本，主要是因为正样本相对负样本（背景）来说很少，同时也为了防止过拟合，所以对正样本判定宽松一些。（CNN网络的分类是N类+1，1类是背景）。

SVM分类时，IOU大于0.7认为是正样本，小于0.3认为是负样本，介于0.7～0.3之间的样本忽略。SVM是最终的分类器，设置比较严格的正样本，恰恰是因为正样本数量少，可是可不是前景物体的区域，大概率上不是前景物体。

另一点是由于SVM本身就是基于最小距离对正负样本划分的，越难分类的物理对SVM的训练越有利，所以定义较为严格的正样本。最重要的是，SVM的特性也适用于小样本，使用比CNN少很多的样本就可以得到较好的分类效果。

同时SVM是二分类器，需要对每个类分分别训练一个SVM分类器。

R-CNN为什么使用SVM分类而不用softmax？

CNN提取的特征本身就比较宽松，不是很准确，使用softmax准确度也不会高，而SVM训练时候采用的是较为严格的样本分类，所以分类准确度更高。

R-CNN是怎么选定候选框的？

R-CNN使用传统的Slective Search（选择性搜索）的方法来产生2000个候选框，主要是运用图像分割技术来进行物体检测。

选择性搜索算法的思路：选择性搜索通过子区域合并的方法提取候选框，首先，对输入图像进行分割算法产生许多小的子区域。其次，根据这些子区域之间相似性(相似性标准主要有颜色、纹理、大小等等)进行区域合并，不断的进行区域迭代合并，最终合并出来的就是候选框。

Fast R-CNN

Fast R-CNN 主要解决了R-CNN 中2000个候选框都要计算CNN特征，计算量大的问题。

Fast R-CNN识别流程：

1. 同R-CNN一样，使用selective search 算法在图像中从上到下提取2000个建议窗口(Region Proposal)
2. 整张图片输入CNN，提取特征
3. 把在第一步中的2000个建议窗口映射到第二步中的特征图上;
4. 通过RoI pooling层使每个建议窗口（可能尺寸不同）生成固定尺寸的feature map；
5. 利用Softmax Loss(探测分类概率) 和Smooth L1 Loss(探测边框回归)对分类概率和边框回归(Bounding box regression)联合训练（检测）。

Fast R-CNN与R-CNN相比改进

1. 不是每个建议窗口都计算一遍特征，而是整体计算一遍，大大减少了计算量。
2. CNN网络要求输入大小一致，R-CNN中是通过异性缩放候选框到统一大小，Fast R-CNN是通过ROI pooling层
3. 将边框回归 bounding box网络合入到CNN网络中，成为一个多任务模型。

Fast R-CNN的训练和测试

什么是ROI Pooling

ROI Pooling是将特征图分割出 H×W 大小的子窗口，这里的H和W是超参数，独立于网络的训练，人为设定（比如设定为7×7），对这 H×W 个子窗口分别进行最大池化操作，得到固定大小（如7×7）的特征图。

所以ROI Pooling的作用就是可以把大小不同的特征图，池化成大小相同的特征图。完成这个不同到相同的操作，主要依靠的是把原特征图分成N个固定大小的子窗口。如果原始特征图较小，有可能n个子窗口有重合。

ROI Pooling如何反向求导训练

普通的最大池化前向传播和反向传播求梯度的示意如下：

反向传播时，最大值所在的位置的梯度为1,其他为0。

ROI Pooling中反向传播求导跟普通的Pooling反传一致，不过如果最大值点有重合，则累加该点的梯度。

最后全连接层为什么要采用SVD分解？

SVD分解是奇异值分解，主要用于降维算法中的特征分解。

SVD分解全连接层是为了数据降维，加速全连接层计算。因为Fast R-CNN中使用选择搜索算法提取的建议框有2000个，每个建议框都要执行一次全连接计算（对建议框分类和回归位置），就要计算2000次，着一块是时间消耗的大头，所以对全连接层做SVD奇异值分解，加速计算。

SVD分解有轻微的准确度下降，但是速度却提升了30%。

Fast-rcnn的loss？

Fast-rcnn有两个loss，Softmax （log） loss+ smooth L1 loss，前者是分类损失，后者是回归损失。

分类损失由真实分类 u 对应的softmax概率决定：

回归损失，比较对应的预测参数 t 和真实平移缩放参数 v的差别：

其中g为SmoothL1SmoothL1误差，函数图像如下：

在(-1, 1)之间为二次函数，其他区域为线性函数。作者这样设置的目的是想让loss对于离群点更加鲁棒，相比于 L2 损失函数，其对离群点，异常值(outlier)不敏感，可控制梯度的量级使训练时不容易跑飞。函数描述如下：

总的loss是两者的加权和，论文中权重为1。

Faster R-CNN

Faster R-CNN主要解决了候选框需要使用选择搜索方法离线计算，耗时长，不端到端的问题，提出了RPN网络。

使用区域提议网络（RPN）替换选择搜索算法来提出候选框。RPN是一种全卷积网络（FCN），可以同时预测出目标边界和是目标的概率。

RPN和特征提取网络的绝大部分特征是共享的（RPN在CNN特征上进行了一些额外的卷积），这在很大程度上减少了计算量，加快了速度。

训练方法上，为了融合RPN网络和特征提取网络，训练方案是两者交替训练，达到统一。

Fast R-CNN是一个单一的，统一的目标检测网络，RPN模块作为这个统一网络的“注意力”

训练流程：

(1)输入测试图像；
(2)将整张图片输入CNN，进行特征提取；
(3)用RPN（在CNN特征基础上做进一步卷积）生成建议窗口(proposals)，每张图片生成300个建议窗口；
(4)把建议窗口映射到CNN的最后一层卷积feature map上；
(5)通过RoI pooling层使每个RoI生成固定尺寸的feature map；
(6)利用Softmax Loss(探测分类概率) 和Smooth L1 Loss(探测边框回归)对分类概率和边框回归(Bounding box regression)联合训练.

区域提议网络RPN细节

RPN在共享卷积层输出的特征图（256或512维）上继续卷积（用一个3×3的滑窗，stride=1，padding=2），得到同样大小同样维度的特征图，在以此特征图上每一个点，映射到原始图像上，以该点为中心，以3个尺度3中比例提出一共9个建议框，也就是9个anchors。

RPN可以给出当前框的位置和它是前景物体的概率。综合所有的建议框，取是物体概率最大的前300个给到最后的全连接层再详细分类和bounding box。

Fast R-CNN中的anchor

anchor是映射到原始图像上的滑动窗口的中心，每一个anchor锚点对应三种长宽比（1:1,1:2,2:1）和三种面积尺度（128×128,256×256,512×512），一个anchor点对应9个窗口。anchor避免了枚举多种比例或长宽比的图像或滤波器，有利于提高运算速度。

R-CNN系列对比

-牧野-

关注

1
点赞
踩
16

收藏

觉得还不错? 一键收藏
1
评论
再谈R-CNN系列

R-CNNR-CNN主要解决了传统检测方法中特征需要人为设定和提取的弊端，改用CNN特征。 1. R-CNN 是把Region proposal（建议候选框）和CNN结合起来。R-CNN：Regions with CNN features。使用CNN提取特征的候选区域。关键一是候选框，关键二是候选框的CNN特征。2. 每张图片产生2000个建议候选框，初始探测出的候选框大小不同，...
复制链接

扫一扫

专栏目录