目标检测涉及的一系列网络总结RCNN FastRCNN FasterRCNN FPN MaskRCN等

最新推荐文章于 2024-08-11 09:35:58 发布

sunflower_sara

最新推荐文章于 2024-08-11 09:35:58 发布

阅读量2.8k

点赞数 2

分类专栏：深度学习

本文链接：https://blog.csdn.net/sunflower_sara/article/details/100182708

版权

深度学习专栏收录该内容

20 篇文章 2 订阅

订阅专栏

一、RCNN - Rich feature hierarchies for accurate object detection and semantic segmentation

Towards Real-Time Object Detection with Region Proposal Networks

RPN与FastRCNN权重共享训练方式：

一、RCNN - Rich feature hierarchies for accurate object detection and semantic segmentation

步骤：

region proposal 使用selective search 选择候选框约2000个
对每个候选框进行CNN特征提取 featuremap的维度固定
linear SVM分类

创新：

region proposal

缺点：

对每个ROI都用网络提取feature map

候选区域算法

候选区域算法用分割不同区域的办法来识别潜在的物体。在分割的时候，我们要合并那些在某些方面（如颜色、纹理）类似的小区域。相比滑窗法在不同位置和大小的穷举，候选区域算法将像素分配到少数的分割区域中。所以最终候选区域算法产生的数量比滑窗法少的多，从而大大减少运行物体识别算法的次数。同时候选区域算法所选定的范围天然兼顾了不同的大小和长宽比。

候选区域算法比较重要的特征就是要有较高的召回率。

selective search

选择性搜索算法使用《Efficient Graph-Based Image Segmentation》论文里的方法产生初始的分割区域作为输入，通过下面的步骤进行合并：

首先将所有分割区域的外框加到候选区域列表中

首先将所有分割区域的外框加到候选区域列表中
基于相似度合并一些区域
将合并后的分割区域作为一个整体，跳到步骤1

通过不停的迭代，候选区域列表中的区域越来越大。可以说，我们通过自底向下的方法创建了越来越大的候选区域。表示效果如下：

相似度

选择性搜索算法如何计算两个区域的像素度的呢？

主要是通过以下四个方面：颜色、纹理、大小和形状交叠

最终的相似度是这四个值取不同的权重相加

https://blog.csdn.net/yuanlulu/article/details/82157071

训练：

R-CNN需要先使用selective search进行region的选择，再finetune一个预训练的模型，再训练SVM分类器，再进行框的回归。

二、FastRCNN

步骤：

1.selective search 提取2000个候选框

2.用一个神经网络对全图进行特征提取

3.ROI pooling 在全图特征上摘取每个ROI区域对应的特征

4.全连接层进行分类与bbox修正

优点：

1.取代RCNN串行的特征提取方式，一个CNN提取全图的特征

2.除了 selective search之外其他的步骤可以合在一起训练

缺点：

selective search依然存在

创新：

ROI Pooling 用一个神经网络对全图进行特征提取

属于max pooling

ROI pooling

具体操作如下：

（1）根据输入image，将ROI映射到feature map对应位置；（[x/16]四舍五入）

（2）将映射后的区域划分为相同大小的sections（sections数量与输出的维度相同）；（四舍五入）

（3）对每个sections进行max pooling操作；

这样我们就可以从不同大小的方框得到固定大小的相应的feature maps。值得一提的是，输出的feature maps的大小不取决于ROI和卷积feature maps大小。ROI pooling 最大的好处就在于极大地提高了处理速度

具体介绍：https://blog.csdn.net/auto1993/article/details/78514071

https://blog.csdn.net/luo841297935/article/details/88699495

（&SPP Net 金字塔层空间特征pooling

与SPPnets不同，SPPnets在一副图像得到对应的特征后，从这张图像的特征上proposal对应的部分，采用空间金字塔池化，对于不同输入大小的proposal都能得到一个固定大小的特征向量。）

训练：

Fast-RCNN将finetune和分类器的训练结合了起来。原因也非常简单，因此Fast R-CNN采用的RoI pooling是可以进行反向传播的，也就是可以求导的

Loss:

多任务loss

分类loss
bbox回归loss 可以表示框位置的四个值为target

三、Faster R-CNN:

Towards Real-Time Object Detection with Region Proposal Networks

步骤：

1.共享的卷积层为全图提取特征得到feature map

2.RPN层生成待测框ROI 类似注意力机制的作用

3.ROI Pooling 在全图的特征图上摘取每个ROI对应的特征

4.FCN 进行分类 FastRCNN的detector层(reg+cls)

创新：

RPN层生成待测框ROI

ROI Pooling

RPN

创新点：

RPN（region proposal networks）用于替代之前的selective search。这个层还可以在GPU上运算来提高速度。
RPN的目的：

有效地进行region proposal，在不同的大小，不同的尺度，不同的比例下
支持反向传播
支持在GPU上运算
能够和Fast R-CNN结合起来运算

属于滑动窗的算法

为了能够进行region proposal，作者使用了一个小的网络，在基础的卷积层输出的特征上进行滑动，这个网络输入大小为n*n，输入后会映射（用的n*n卷积）为一个固定长度的特征向量，然后接两个并联的fc层（用的1*1卷积层代替），这两个fc层，一个为box-regressoin，一个为box-classification。如下图：

输入:图

输出：bbox + objectness score

结构：

CNN(ZF or VGG)

à sliding window (n*n cov + 1*1 cov for fc )

à reg+cls

Anchor

包括在sliding window中

3个方向，3个尺度，共9个

具有平移不变性

本质：

（转载自：https://www.zhihu.com/question/42205480/answer/155759667）

anchor 的本质是什么，本质是 SPP(spatial pyramid pooling) 思想的逆向。而SPP本身是做什么的呢，就是将不同尺寸的输入 resize 成为相同尺寸的输出。所以SPP的逆向就是，将相同尺寸的输出，倒推得到不同尺寸的输入。接下来是 anchor 的窗口尺寸，这个不难理解，三个面积尺寸（1282，2562，512^2），然后在每个面积尺寸下，取三种不同的长宽比例（1:1,1:2,2:1）.这样一来，我们得到了一共9种面积尺寸各异的 anchor 。示意图如下

至于这个 anchor 到底是怎么用的，这个是理解整个问题的关键。
下面是整个 Faster RCNN 结构的示意图：

利用anchor是从第二列这个位置开始进行处理，这个时候，原始图片已经经过一系列卷积层和池化层以及relu，得到了这里的 feature：51x39x256（256是层数）

在这个特征参数的基础上，通过一个3x3的滑动窗口，在这个51x39的区域上进行滑动，stride=1，padding=1，这样一来，滑动得到的就是51x39个3x3的窗口。对于每个3x3的窗口，作者就计算这个滑动窗口的中心点所对应的原始图片的中心点。

RPN训练：

正样本：IoU高

负样本：IoU低

舍弃的样本：无重合的

RPN Loss:

分类：log loss

回归：robust loss（smooth L1）

对两类loss进行归一化+权重平衡

每个anchor对应一个回归项

RPN与FastRCNN权重共享训练方式：

交替训练
近似联合训练
非近似联合训练
4步交替训练法（最终使用的）：

第一步中，我们对RPN进行训练，该网络通过ImageNet预训练模型进行初始化，并针对区域提议任务进行端到端微调。在第二步中，我们使用步骤1 RPN生成的提议，通过Fast R-CNN训练一个单独的检测网络。该检测网络也由ImageNet预训练模型初始化。此时，两个网络不共享conv层。在第三步中，我们使用检测器网络来初始化RPN训练，但是我们修复了共享的conv层，并且只对RPN特有的层进行微调。现在这两个网络共享conv层。最后，保持共享的conv层不变，我们微调快速r-cnn的fc层。因此，两个网络共享相同的conv层并形成一个统一的网络

————————————————

原文链接：https://blog.csdn.net/weixin_39958313/article/details/87096861

https://www.jianshu.com/p/656343761fd5

https://blog.csdn.net/weixin_39958313/article/details/87096861

四、ResNet

待更新

五、FCN

待更新

六、FPN特征金字塔

c5 p5

c4 p4

c3 p3

c2 p2

网络直接在原来的单网络上做修改，每个分辨率的 feature map 引入后一分辨率缩放两倍的 feature map 做 element-wise 相加的操作。

通过这样的连接，每一层预测所用的 feature map 都融合了不同分辨率、不同语义强度的特征，融合的不同分辨率的 feature map 分别做对应分辨率大小的物体检测。

这样保证了每一层都有合适的分辨率以及强语义特征。

同时，此方法只是在原网络基础上加上了额外的跨层连接，在实际应用中几乎不增加额外的时间和计算量

高层：语义信息强，空间粗糙

底层：语义信息若，空间信息强

结构：

一个自底向上的线路，

一个自顶向下的线路，

一个横向连接（lateral connection）。图中放大的区域就是横向连接，

横向连接merge：

1*1的卷积核：用于降维，减少核数，保持与后面的通道数相同，但size不变（主要作用是减少卷积核的个数，也就是减少了feature map的个数，并不改变feature map的尺寸大小）

2 up: 两倍最近邻上采样放大图像

然后二者按element-wise元素宽度相加

每个金字塔层featuremap后都再接head层

再接3*3卷积与已经融合的特征图：消除混叠效应，生成最好的参考特征图

若为resnet则

金字塔：resnet的佟size的stage中取后四层的末层

head结构:

3*3 的卷积滑动窗得到featuremap及两个相邻的 1*1 卷积分别做分类和回归的预测

（3*3卷积减少上采样造成的aliasing effect混叠效应）

并共享权重，共享语义信息

5area*3层金字塔=15anchor/金字塔

混叠效应：

在统计、信号处理和相关领域中，混叠是指取样信号被还原成连续信号时产生彼此交叠而失真的现象。当混叠发生时，原始信号无法从取样信号还原。而混叠可能发生在时域上，称做时间混叠，或是发生在频域上，被称作空间混叠。在视觉影像的模拟数字转换或音乐信号领域，混叠都是相当重要的议题。因为在做模拟-数字转换时若取样频率选取不当将造成高频信号和低频信号混叠在一起，因此无法完美地重建出原始的信号。为了避免此情形发生，取样前必须先做滤波的操作。

在视频信号处理过程中，有两种方法可以消除混叠现象：

直接提高采样频率，但是采样频率不能无限提高；

在采样频率固定的情况下，可通过低通滤波器消除大于尼奎斯特频率的高频信号，从而消除混叠现象；

所以这边使用一个3∗3 3*33∗3卷积核来卷积特征图来产生最后的参考特征图。

————————————————

https://blog.csdn.net/qq_33948796/article/details/89513416

https://blog.csdn.net/baidu_30594023/article/details/82623623