Fast R-CNN（2015）论文笔记

qq_40632955

已于 2022-08-09 13:15:30 修改

阅读量313

点赞数

文章标签： cnn 深度学习目标检测

于 2022-08-09 13:15:10 首次发布

本文链接：https://blog.csdn.net/qq_40632955/article/details/126240786

版权

Fast R-CNN

改进了RCNN和SPPNet的缺点（两者的缺点⻅背景/问题）
- 除了region proposal使用selective search，其它参数的训练的训练过程是single-stage
- 训练方案可以更新网络中所有层的参数（而SPPNet无法对卷积层进行finetune）
- 不需要将feature存储在磁盘中
使⽤softmax进行分类，而非SVM
对全连接层使用truncated SVD进行压缩和加速
速度和准确度（mAP）比RCNN和SPPNet⾼
- 速度（VGG16）：
  - 训练：比RCNN快9倍，比SPPNet快3倍
  - 测试：比RCNN快213倍，比SPPNet快10倍；每张图片0.3秒（不包括region proposal的耗时）
- 准确度：SOTA，比RCNN和SPPNet都准确，VOC2012上mAP为66%（RCNN为62%）

创新：
- 首次引入multi-task loss，多阶段训练转为单阶段
- 主要对训练过程和推理速度作为切入点，进行改进和优化。
  - 文中还对模型的各部分推理时间进行统计分析
行文：
- 指出当时主流模型（RCNN、SPPNet）的缺点，对比地提出论文的贡献
- 进行Design evaluation，有
  - 有Does multi-task training help?
  - Scale invariance: to brute force or finesse?
  - Do SVMs outperform softmax?
  - Do we need more training data?
  - Are more proposals always better?
    等可能影响精度的因素都进行了控制变量的分析，

在这里插入图片描述

输⼊：整张图⽚ + ⼀组对应图像的region proposal
backbone输出feature map
RoI pooling（a special case of one-level SPP）：为feature map上每个region proposal⽣成fixed-length feature vector
每个feature vector输⼊到⼀系列FC层中
2个并行分支
- 1个FC层 + softmax：对于每个feature vector，⽤softmax（K个category + 1个“background”）进⾏分类，输出形状如1×(K+1)。N个feature vector的话，输出形状则如N×(K+1)◦
- 1个FC层 + category-specific BBox regressor：对于每个feature vector，为K个category中的每一个都输出4个实数值（offset），输出形状如K*4。N个feature vector的话，输出形状则如N×K*4
NMS：和RCNN⼀样，判断出class之后，独⽴对每个class的所有prediction进⾏筛选

推理时RoI的数量很多，因此FC层计算的耗时将近是整个forwar pass耗时的⼀半，因此使⽤truncated SVD对较⼤的FC层进⾏压缩以实现加速。

使⽤pre-trained network初始化Fast RCNN的3个步骤：

将pre-trained network的最后1个max pooling换成RoI pooling，RoI pooling输出feature map的size（H×W）
将pre-trained network最后1个FC层和softmax替换为Fast RCNN最后的2个并行分支（1个FC层 +softmax，1个FC层 + category-specific BBox regressor）
对pre-trained network进⾏修改，以将1组图片和1组RoI作为输入

由于当每个训练样本（即RoI）来⾃不同image时，SPP层back propagation的效率⾮常低。
Fast RCNN中SGD的mini-batch是分层采样的。⾸先采样N张image，每张Image中采样R/N个RoI，
- 来自相同image的RoI在forward pass和backward pass中共享计算和内存

每个RoI的multi-task loss如上式所⽰， λ 是平衡因⼦，[u ≥ 1] 表示计算 K 个类的回归loss，背景0不计算回归loss，因为没有真实标签（gtb）

分类分支
- 输出 $p$ 概率值（k+1）个，其中0表示背景
- 标签 $u$
回归分支
- 对每个RoI，为每个class $k$ ，输出一组BBox offset ： $t^k=(t^k_{x} ,t^k_{y} ,t^k_{w} ,t^k_{h})$
- 标签：GT BBox offset $v = (v_{x}, v_{y}, v_{w}, v_{h})$
- 使用smooth L1 loss
  - 使用smoothL1，可以避免异常值带来的梯度爆炸