目标检测学习之《Fast R-CNN》

Fast R-CNN

贡献

相较于R-CNN而言,Fast R-CNN共做出了3大改进

  • 提出了RoI Pooling,避免了对提取的region proposals进行缩放到224x224,然后经过pre-trained CNN进行检测的步骤,加速了整个网络的learning与inference过程,这个是巨大的改进,并且RoIPooling是可导的,因此使得整个网络可以实现end-to-end learning,这个可以认为是Fast R-CNN相对于R-CNN最大的改进之处。
  • 采用了Multi-task loss进行边框回归,这个在R-CNN中也有这方面的实验。
  • 利用了截断的奇异值分解(Truncated SVD for faster detection)加速了网络。
    论文链接代码链接

Idea

  • 整体框图:
    在这里插入图片描述

如图,首先是读入一张图像,这里有两个分支,一路送入FCN,输出 feature maps,另一路通过selective search提取region proposals(注意,Fast R-CNN论文中并没有明确说明使用selective search提取region proposals,但是Fast R-CNN是基于R-CNN的,姑且默认采用selective search提取region proposals吧。),提取的每个region proposal 都有一个对应的Ground-truth Bounding Box和Ground-truth class label。其中每个region proposals用四元数组进行定义,即(r, c, h, w),即窗口的左上行列坐标与高和宽。值得注意的是,这里的坐标均是对应原图像的,而不是输出的feature maps。因此,还需要把原图像的坐标系映射到feature maps上。这一点也很简单,比如采用的是pre-trained 网络模型为VGG16的话,RoIPooling替换掉最后一个max pooling层的话,则原图像要经过4个max pooling层,输出的feature maps是原图像的1/16,因此,将原图像对应的四元数组转换到feature maps上就是每个值都除以16,并量化到最接近的整数。那么将region proposal的四元组坐标映射到feature maps上之后接下干什么呢?接下来就是把region proposal窗口框起来的那部分feature maps输入到RoIPooling(R-CNN是将其缩放到224x224,然后送入经过Fine-tuning的网络模型),得到固定大小的输出maps。

  • 那么现在就谈一下RoIPooling层是怎样得到输出的,如下图所示:

在这里插入图片描述

在图中最外层蓝色的框即表示region proposal的四元组坐标映射到feature maps上,然后此框再经过划分网格,这里为2x2,所以最终的输出feature maps大小为2x2。值得注意的是,本应把region proposal的矩形框(window)均匀分成2x2的网格,但是feture map的坐标值均为整数值,不可避免存在一个就近取整的量化,导致有时无法实现均匀分割,(这个问题在Mask R-CNN中提出的RoIAlign层专门解决这个问题)。在Fast R-CNN论文中,在采用VGG16的时候,Conv5_x的输入feature map的spatial size是7x7的,所以在论文中把每个region proposal划分为7x7的网格,那么最终经过RoIPooling输出的feature maps的spatial size为7x7的。RoIPooling跟标准的 max pooling一样,是逐channel的

  • 下面要讲的就是Multi-task loss了。
    由图1或图2可知,网络的最终输出是针对每一个region proposal的。对于每一个region proposal会输出一个类别标签,就是这个region proposal框内框住的目标是属于什么类别,同时对每一个region proposal还进行边框回归,输出一个四元组的坐标,而其对应ground-truth bounding box,在进行边框回归的时候,利用robust L1 loss计算回归损失。这里无需赘言,参见Fast R-CNN论文 “2.3. Fine-tuning for detection”。

  • 下面讲一下Mini-batch sampling。
    在进行Fine-tuning的时候,每次读入两张图像,然后在每张图像上均匀选取64个 RoIs,两张图像就是128个RoIs。也就是说,每次迭代的是RoI。这里选取的RoI不是随便选取的,**而是RoI与Ground-truth bounding box的IoU≥0.5作为正样本的++,也就是此时的样本有一个对应的Ground-truth bounding box与Ground-truth class label,其它的就作为背景样本。

最后关于截断的SVD分解,亦无需多言,详见 Fast R-CNN “3.1. Truncated SVD for faster detection”。

参考

[1] https://blog.csdn.net/u011501388/article/details/81031780

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值