Faster RCNN 论文小结

最新推荐文章于 2024-07-27 19:20:14 发布

San_Junipero

最新推荐文章于 2024-07-27 19:20:14 发布

阅读量624

点赞数

分类专栏：深度学习论文日工作总结

本文链接：https://blog.csdn.net/San_Junipero/article/details/81034400

版权

日工作总结同时被 3 个专栏收录

36 篇文章 0 订阅

订阅专栏

深度学习

16 篇文章 0 订阅

订阅专栏

论文

8 篇文章 1 订阅

订阅专栏

背景
名词
过程
- - RPN
  - anchor
训练方法
问题
- - 如何处理多尺度问题
  - 如何处理边界交叉的anchor
结论/技巧

这里写图片描述

背景

原来写好的博客未保存消失了= =。按理解重新写一遍，可能会少内容，以后再补吧…
RCNN系列称为region-based 方法，其准确率非常依赖于region proposal模块。这也是本文改进的重点内容。

名词

top：下一层名
bottom：上一层名
recall：【所谓召回率即候选区域为真的窗口与Ground Truth的比值【IoU大于阈值即为真】】分析实验，发现随着候选区域个数的增加，召回率并没有和mAP成很好的相关性，而是一直不断增加，也就是说更高的召回率并不意味着更高的mAP；
“attention” mechanisms：RPN提示Fast RCNN需要注意的区域。
“image-centric” sampling strategy
ablation experiments:模型简化测试。看看取消掉一些模块后性能有没有影响。根据奥卡姆剃刀法则，简单和复杂的方法能达到一样的效果，那么简单的方法更可靠。从而确定研究模型中所提出的一些结构是否有效而设计的实验。类比生物里的，控制变量法。

过程

RPN

RPN通过添加一些额外的卷积层，同时完成了region bbox回归，和目标score。RPN是一种FCN，全连接网络。
输入：任意尺寸的图片
输出：一组region，及其object score
这里写图片描述
虚线以上得到了feature maps，虚线下面则属于RPN。
对ZF网络而言，将获取51*39*256维的feature maps，通过3*3的卷积核处理（加padding），每次处理，当前window都会生成一个256的低维特征（51*39*256的256）。其将会在稍后被送给两个兄弟全连接层，box回归层和box分类层。
这里写图片描述
RPN这个mini网络是在每个窗口进行的，所以其在feature maps上共享权值。这个结构也自然是由n*n的卷积层实现的，其后的是两个兄弟1*1卷积层。

anchor

需要注意的是，每个window并不一定只有一个proposal。这里将会根据（8,16,32）和（0.5,1,2）的不同大小和比率，尝试预测多个region proposal，这里由k表示，由上k=9。k个proposal不只是原图的region，特征则是feature maps的k个256-d的feature。其输入cls_score得到2k个得分（属于类别的，不属于类别的概率），输入reg得到4k个位置。
所以总共的anchor数大约是 51*39*9个。
这些anchor会经过删减，与原图的ground truth的IoU小于阈值的将不会参与训练。
这时候，剩余的框是IoU能够参加训练的region，但其中仍然有许多重复度较高的region。为了减少冗余，应用NMS算法，NMS算法根据他们得cls_score得分将重复度高的region一一合并。
NMS算法并不会损伤最终的检测精度，反而能大量减少proposal的数量。
然后对剩余的anchor，选取前N个（train：N=2000，test：N=300）anchor，送入后面的Roi层。

训练方法

为了实现训练RPN和FRCN共享卷积层，而不是学习两个分开的网络，有如下训练方法：

轮换训练

先训练RPN，把RPN输出的region作为FRCN的输入，其结果经过FRCN的调整后，再初始化RPN。这个过程是迭代的，也是本篇论文采用的方法。

近似联合训练

这种方法，RPN和FRCN在训练过程中合为一体。每次SGD迭代过程中，RPN计算生成的region，对于下游的FRCN来说，就像是固定的，提前计算好的一样。反向传播的过程和往常类似，前面共享的卷积层，其调整权值的信号同时来自于RPN和FRCN的损失函数。这种方法容易实现，但其忽略了RPN所返回的bbox坐标，这也是网络response的内容，但并不会在反向传播中得到体现，所以本方法被称为近似联合训练。
本方法在代码中得到了实现，其训练时间可以比轮换训练提高50%的效率，而不会损失精度。