FasterRCNN学习备注

最新推荐文章于 2022-03-28 19:51:21 发布

置顶 liuzheng081

最新推荐文章于 2022-03-28 19:51:21 发布

阅读量488

点赞数

分类专栏：机器学习文章标签：深度学习

本文链接：https://blog.csdn.net/liuzheng081/article/details/105733914

版权

机器学习专栏收录该内容

8 篇文章 10 订阅

订阅专栏

本篇文章是对FasterRCNN学习过程的一个备注，只是说明自己的一些理解，对于之前不清楚的地方进行备注说明。也有学习过其他的文章，有的写的也是很好的

https://www.cnblogs.com/guoyaohua/p/9488119.html?utm_source=debugrun&utm_medium=referral

还有一篇英文的，这个说的很明白了。也可以详细看一下：

http://www.telesens.co/2018/03/11/object-detection-and-classification-using-r-cnns/

这篇文章就是这样，我从中学到了很多。

这里盗个图：

上面的图就是FasterRCNN的一个基本流程。这里简单介绍一下

整个流程主要分为：

1，特征提取。主要是VGG网络的特征提取；

2，RPN网络。这个是FasterRCNN的重要部分；

3，ROI pooling层。

4，全连接网络。做最后的分类和回归。

这里，特征提取部分没有什么可说的，就是一些传统网络的特征提取，论文给出的是VGG16。也可用其他的特征提取网络进行替换。

重点介绍这个RPN网络。

RPN网络，简单说，是输入特征图，输出筛选后的备选框。

RPN网络里面主要做了如下的几个工作：

①,对图片中的所有锚点框进行一个IOU的判断。

锚点框是指，原图片经过特征提取后的特征图上每个点对应原图的一个区域，换句话说，就是原图上每个区域都定义了一个特征点，这个点就是锚点。看下图：

每个锚点能画出的9个框有特定比例的框。别问为什么是9个，论文里面说了，是经验之选。所有锚点框如果画在图片中就是这样：

不是所有框都要。怎吗办呢，就要对这些锚点框进行筛选，首先，要知道的是，在训练的过程中。每个图片都是又标注的，也就是所谓的ground_truth。就是图片中物体在什么地方的一个框。那可以利用IOU（就是锚点框与ground_truth的重叠比例）进行一个前景和背景的标注和筛选，这里可以设置IOU>0.7的是前景，IOU<0.3的是背景。剩下的框我们就不要了。

拿到这些标注后的锚点框干什么？训练啊。要知道，RPN网络也是要训练的。你FasterRCNN训练的过程中是有数据集的，有标注好物体位置的图片。而预测的时候是没有的。这个需要训练RPN网络。来对所有的锚点框进行筛选啊。

②，有了标注好的锚点框了（训练数据）就来对RPN网络进行训练了。有2个方向的训练。一个是训练前景背景的二分类网络；一个是训练边框回归的训练。回归训练实际上就是找到一种映射，使得边框经过映射后，尽量接近ground_truth。

上个图：

最后，经过一系列操作，RPN最终输出了备选框。同时也训练的RPN网络。这里有个注意点是，FasterRCNN在训练过程中是一张图片一张图片训练的，就是batch_size=1，只能是1，就是因为RPN网络这。还有一点就是，前景背景标注后，做训练时，是数据不均衡的，背景数量要多于前景数量，这里需要用到下采样。

RPN网络之后就来到了 ROI pooling层了，这里所要做的还是一个筛选框和对特征的尺寸调整（pooling）

从RPN网络出来后，可能是这样的一个图：