R-CNN系列小结

最新推荐文章于 2023-10-23 09:48:02 发布

金大大诶

最新推荐文章于 2023-10-23 09:48:02 发布

阅读量292

点赞数

分类专栏： Machine Learning 文章标签：计算机视觉

本文链接：https://blog.csdn.net/json111/article/details/107233934

版权

Machine Learning 专栏收录该内容

24 篇文章 2 订阅

订阅专栏

R-CNN

R-CNN首先对图像采取若干提议区域并标注它们的类别和边界框。然后用卷积神经网络对每个提议区域做前向计算抽取特征。之后用每个提议区域的特征预测类别和边界框。
具体来说，由以下4步构成。

对输入图像使用选择性搜索来选取多个高质量的提议区域。这些提议区域通常是在多个尺度下选取的，并具有不同的形状和大小。每个提议区域将被标注类别和真实边界框。
选取一个预训练的卷积神经网络，并将其在输出层之前截断。将每个提议区域变形为网络需要的输入尺寸，并通过前向计算输出抽取的提议区域特征。
将每个提议区域的特征连同其标注的类别作为一个样本，训练多个支持向量机对目标分类。其中每个SVM用来判断样本是否属于某一个类别。
将每个提议区域的特征连同其标注的边界框作为一个样本，训练线性回归模型来预测真实的边界框。

Fast R-CNN

一个主要改进在于只对整个图像做CNN的前向计算。
主要步骤：

与R-CNN相比，Fast R-CNN用来提取特征的CNN的输入是整个图像，而不是各个提议区域。而且，这个网络通常会参与训练，即更新模型参数。设输入为一张图像，将CNN的输出的形状记为1 * c * h1 * w1。
假设选择性搜索生成n个提议区域。这些形状各异的提议区域在CNN的输出上分别标出形状各异的兴趣区域。这些兴趣区域需要抽取出形状相同的特征（假设高和宽均分别指定为h2和w2）以便于连结后输出。Fast R-CNN引入ROI池化层，将CNN的输出和提议区域作为输入，输出连结后的各个提议区域抽取的特征，形状为 nch2*w2。
通过全连接层将输出形状变换为 n*d，其中超参数d取决于模型设计。
预测类别时，将全连接层输出的形状再变换为n * q并使用softmax回归。预测边界框时，将全连接层的输出形状变换为 n * 4。也就是说，我们为每个提议区域预测类别和边界框。

Faster R-CNN

Fast R-CNN通常在选择性搜索中生成较多的提议区域，以获得较精确的目标检测结果。Faster R-CNN提出将选择性搜索(Selective Search)替换成区域提议网络(Region Proposal Network)，从而减少提议区域的生成数量，并保证目标检测的精度。
与Fast R-CNN相比，只有生成提议区域的方法从Selective Search变成了Region Proposal Network，其他部分保持不变。Region Proposal Network的计算步骤如下：