【论文阅读】Fast R-CNN

最新推荐文章于 2024-07-17 10:32:13 发布

MoFMan

最新推荐文章于 2024-07-17 10:32:13 发布

阅读量247

点赞数

分类专栏：论文阅读文章标签：深度学习神经网络

本文链接：https://blog.csdn.net/MoFMan/article/details/107451635

版权

论文阅读专栏收录该内容

8 篇文章 0 订阅

订阅专栏

论文简介：

Fast R-CNN 是作者针对R-CNN的若干缺点进行改进提出的一种目标检测方法，该方法对R-CNN预测阶段的各个分散步骤以及训练阶段的各个分散步骤进行改进、融合，得到比R-CNN更快的目标检测速度以及更统一、更接近端到端的训练模式。

一、Fast R-CNN 简介

Fast R-CNN算法大致分为四个步骤，1、首先将待测试的图像整张输入CNN特征提取网络，得到一个conv feature map，2、proposals提取，使用与R-CNN相同使用Selective Search提取候选框，3、使用RoI Pooling方法将proposal对应的conv feature map中的区域pooling到统一尺寸，4、pooling到统一尺寸的特征向量后接全连接层，再分别接两个输出路径分类器（proposal所属目标类别）+回归器（proposal框位置修正）。

二、Fast R-CNN inference

在给定一幅含有待检测目标的图像时，在R-CNN实际进行推理、进行目标检测的步骤包含,首先使用selective search方法对输入图像进行候选区域提取，进行proposals提取，大概提取2000个候选区域，矩形区域，长宽比任意形状。将待检测图像整张输入CNN特征提取网络，针对每一个单独的proposal，得到网络模型的两路输出，1、分类器输出当前的proposal的21个类别概率值，2、当前proposal的对于20个类别分别的位置框偏移修正量（背景框无ground-truth标注框，无位置修正量）。则一幅图像获得2000x（21+20*4）个输出元素值。接下进行与R-CNN逐类别的非极大值抑制相似思路进行处理。

使用非极大值抑制方法检测出输入图像中的cat，有几个，分别在哪。首先提取出cat类信心分数大于某个阈值的proposals，假设取出200个（这两百个极有可能含有cat），对200个信心分数进行排序，然后取出最大的信心分数所对应的proposals，然后对剩下的199个proposals，计算其每一个与最大信心分数的proposals之间的IoU，剔除掉199个proposals中IoU大于某个阈值的proposals，假设剔除掉9个proposals，然后继续对剩下的190个proposals进行信心分数排序，再取最大信心分数的proposals，再继续剔除proposals等，经过若干轮剔除，往往200个proposals只会留下两三个proposals，此时也即为从图中检测到的cat的个数。此时使用最后的三个proposals的位置框坐标和其所对应的20*4个输出值中对应cat类的位置偏移修正值，获得最终的检测出cat的位置框坐标信息。20个类别逐个类别进行处理，获得针对当前测试图像检测出的目标的信息。

三、Fast R-CNN training

Fast R-CNN 只需要训练一个CNN网络模型，需要注意的点主要有：

RoI Pooling 层的处理为，针对Selective Search提取出的原图中的不同尺寸的proposals，包含位置、宽高信息，根据原图尺寸与conv feature map宽高尺寸之间的映射关系，假设conv feature map宽高尺寸是原图的1/16，则对Selective Search提取出的proposals的坐标乘以1/16得到其所对应的在conv feature map中的矩形特征区域的位置信息。将矩形特征区域按照网络后接的统一尺寸的feature map的信息，假设为7x7，则将矩形特征区域划分为7x7的网格，每一个网格中的区域进行max pooling得到输出值，从而对于不同尺寸的proposals得到相同尺寸的归一化特征层，供后面的全连接层使用。

网络训练时一个mini batch含有两张已标注目标的训练图像，每张图像采样64个proposals，总共128个proposals，与ground-truth标注框的IoU>0.5的为正样本，为相应的20类的正样本及类别标签，与ground-truth标注框的IoU在0.1到0.5之间的proposals为负样本，为背景类，每个proposal含有其网络的输入，proposal的位置坐标（还有共享的整张图像的输入），网络输出所对应的标签值为，该proposal所属的21类的别标签，以及其所属的那个类的位置框修正偏移值标签（该proposal与其所属的标注框的ground-truth位置之间的差的信息），其余19*4个位置偏移标签忽略，其不参与此次Loss计算，不参与训练网络模型参数。注意，此mini batch中25%是正样本，75%为负样本，此mini batch中每一个proposal及其标签就相当于传统监督学习中的一个训练样本对。而不是这里的2张图像相当于传统监督学习中的2个训练样本。

下图为Fast R-CNN的综合损失函数。

MoFMan

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【论文阅读】Fast R-CNN

论文简介：Fast R-CNN 是作者针对R-CNN的若干缺点进行改进提出的一种目标检测方法，该方法对R-CNN预测阶段的各个分散步骤以及训练阶段的各个分散步骤进行改进、融合，得到比R-CNN更快的目标检测速度以及更统一、更接近端到端的训练模式。一、Fast R-CNN 简介Fast R-CNN算法大致分为四个步骤，1、首先将待测试的图像整张输入CNN特征提取网络，得到一个conv feature map，2、proposals提取，使用与R-CNN相同使用Selective Search提取候
复制链接

扫一扫