目标检测学习之《Fast R-CNN》

最新推荐文章于 2023-03-27 19:55:02 发布

MuscleW

最新推荐文章于 2023-03-27 19:55:02 发布

阅读量130

点赞数

分类专栏：深度学习计算机视觉目标检测学习文章标签：目标检测 Fast R-CNN 计算机视觉

本文链接：https://blog.csdn.net/qq_19329785/article/details/94573646

版权

深度学习同时被 3 个专栏收录

26 篇文章 4 订阅

订阅专栏

计算机视觉

18 篇文章 1 订阅

订阅专栏

目标检测学习

7 篇文章 0 订阅

订阅专栏

Fast R-CNN

贡献

相较于R-CNN而言，Fast R-CNN共做出了3大改进

提出了RoI Pooling，避免了对提取的region proposals进行缩放到224x224，然后经过pre-trained CNN进行检测的步骤，加速了整个网络的learning与inference过程，这个是巨大的改进，并且RoIPooling是可导的，因此使得整个网络可以实现end-to-end learning，这个可以认为是Fast R-CNN相对于R-CNN最大的改进之处。
采用了Multi-task loss进行边框回归，这个在R-CNN中也有这方面的实验。
利用了截断的奇异值分解（Truncated SVD for faster detection）加速了网络。
论文链接，代码链接

Idea

整体框图：

如图，首先是读入一张图像，这里有两个分支，一路送入FCN，输出 feature maps，另一路通过selective search提取region proposals（注意，Fast R-CNN论文中并没有明确说明使用selective search提取region proposals，但是Fast R-CNN是基于R-CNN的，姑且默认采用selective search提取region proposals吧。），提取的每个region proposal 都有一个对应的Ground-truth Bounding Box和Ground-truth class label。其中每个region proposals用四元数组进行定义，即(r, c, h, w)，即窗口的左上行列坐标与高和宽。值得注意的是，这里的坐标均是对应原图像的，而不是输出的feature maps。因此，还需要把原图像的坐标系映射到feature maps上。这一点也很简单，比如采用的是pre-trained 网络模型为VGG16的话，RoIPooling替换掉最后一个max pooling层的话，则原图像要经过4个max pooling层，输出的feature maps是原图像的1/16，因此，将原图像对应的四元数组转换到feature maps上就是每个值都除以16，并量化到最接近的整数。那么将region proposal的四元组坐标映射到feature maps上之后接下干什么呢？接下来就是把region proposal窗口框起来的那部分feature maps输入到RoIPooling（R-CNN是将其缩放到224x224，然后送入经过Fine-tuning的网络模型），得到固定大小的输出maps。

那么现在就谈一下RoIPooling层是怎样得到输出的，如下图所示：

在这里插入图片描述

在图中最外层蓝色的框即表示region proposal的四元组坐标映射到feature maps上，然后此框再经过划分网格，这里为2x2，所以最终的输出feature maps大小为2x2。值得注意的是，本应把region proposal的矩形框（window）均匀分成2x2的网格，但是feture map的坐标值均为整数值，不可避免存在一个就近取整的量化，导致有时无法实现均匀分割，（这个问题在Mask R-CNN中提出的RoIAlign层专门解决这个问题）。在Fast R-CNN论文中，在采用VGG16的时候，Conv5_x的输入feature map的spatial size是7x7的，所以在论文中把每个region proposal划分为7x7的网格，那么最终经过RoIPooling输出的feature maps的spatial size为7x7的。RoIPooling跟标准的 max pooling一样，是逐channel的。

下面要讲的就是Multi-task loss了。
由图1或图2可知，网络的最终输出是针对每一个region proposal的。对于每一个region proposal会输出一个类别标签，就是这个region proposal框内框住的目标是属于什么类别，同时对每一个region proposal还进行边框回归，输出一个四元组的坐标，而其对应ground-truth bounding box，在进行边框回归的时候，利用robust L1 loss计算回归损失。这里无需赘言，参见Fast R-CNN论文 “2.3. Fine-tuning for detection”。
下面讲一下Mini-batch sampling。
在进行Fine-tuning的时候，每次读入两张图像，然后在每张图像上均匀选取64个 RoIs，两张图像就是128个RoIs。也就是说，每次迭代的是RoI。这里选取的RoI不是随便选取的，**而是RoI与Ground-truth bounding box的IoU≥0.5作为正样本的++，也就是此时的样本有一个对应的Ground-truth bounding box与Ground-truth class label，其它的就作为背景样本。

最后关于截断的SVD分解，亦无需多言，详见 Fast R-CNN “3.1. Truncated SVD for faster detection”。

参考

[1] https://blog.csdn.net/u011501388/article/details/81031780

MuscleW

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
目标检测学习之《Fast R-CNN》

Fast R-CNN贡献相较于R-CNN而言，Fast R-CNN共做出了3大改进提出了RoI Pooling，避免了对提取的region proposals进行缩放到224x224，然后经过pre-trained CNN进行检测的步骤，加速了整个网络的learning与inference过程，这个是巨大的改进，并且RoIPooling是可导的，因此使得整个网络可以实现end-to-en...
复制链接

扫一扫