【图像目标检测】Fast-RCNN

本文链接：https://blog.csdn.net/shwan_ma/article/details/77937986

RCNN应该是深度学习在目标检测detection上的开山之作。
然而RCNN需要分成四部分实现：1）Selective Search 提取proposal, 2）CNN提取特征，3）SCM分类，4）box regression。实在是不够优雅，开山之作毕竟是开山之作，有他的时代意义。

本文介绍的Fast-RCNN是RBG大神（Ross B. Girshick）继RCNN之后的又一力作。

Fast-RNN: 表示RCNN这么各玩各的不够优雅，那么为什么不把他们合在一起，同时输出bounding box和label呢？
（实际上Fast-RCNN仍然保留原始proposal的算法（selective Search））

目标检测目前存在的难点：

1) 大量的候选目标位置proposal需要被处理
2）由于候选给的location是比较rough，因此需要进一步的refine

R-CNN目前存在的一些问题：

training is a multi-stage pipeline: 提取proposal，CNN提取特征，SVM分类，box regression
training is expensive in space and time: 由于需要对SVM和回归子进行训练，对任意一个object proposal的特征都需要写进disk中
object detection is slow

R-CNN在对多个候选框进行提取特征时有大量的重复计算，SPP-NET则克服这个问题。SPP-NET采用先CNN得到特征后，在进行提取proposals。然而SPP-Net仍然有notable drawbacks。training仍然是multi-stage pipeline, 仍然需要将特征进行存入硬盘

Fast-RCNN的架构：
这里写图片描述

1）采用多个卷积和max pooling产生一个conv feature map。
2）对feature map进行提取fixed-len的特征向量
3）每个特征向量喂入到FC（fully connected layers）中，branch成两个的output：a）一个产生probability estimate over K类，b ）得到4xk的回归框

Initializing from Pre-trained network:
1) last max pooling layer replaced a ROI pooling layer
2) 最后的FC被替换成两个sibling layer (分类的output + bounding-box regressors）
3) the network is modified to take two data inputs: a list of images and a list of ROIs
这里写图片描述

ROI pooling：

由于Fast-RCNN想得到fixed-length的特征到FClayer中，从而进行classification+regression，区别于SPP-net的多个固定尺寸。RoI pooling layer通过计算不同的划分区，从而得到一个fixed spatial content of HxW。比如整个ROI为hxw，那么对这个ROI进行分割成(h/H x w/W)

引用下别人的解释：

这里写图片描述

训练过程：

FRCNN比SPPNET和RCNN的高明之处： FRCNN区别于之前的训练（RCNN & SPPNet），（一个ROI来源于一个batch，128张images），Fast-RCNN则选择N张图片，R个proposal作为一次训练（实验中选择N=2，R=128）
作者原本担心：这个策略可能slow training convergence because RoIs from same image are corelated. 然而这个担心并没有发送当选择N = 2， R = 128时，甚至收敛速递比RCNN还快。

Multi-task loss：

Fast选择用了一个loss function，将回归和分类直接整合到一起了：
这里写图片描述