3. Fast-R-CNN
基于R-CNN和SPP-Net思想,RBG提出了Fast-R-CNN算法。如果选用VGG16网络进行特征提取,在训练阶段,Fast-R-CNN的速度相比RCNN和SPP-Net可以分别提升9倍和3倍;在测试阶段,Fast-R-CNN的速度相比RCNN和SPP-Net可以分别提升213倍和10倍。
R-CNN和SPP-Net缺点:
1.R-CNN和SPP-Net的训练过程类似,分多个阶段进行,实现过程较复杂。这两种方法首先选用Selective Search方法提取proposals,然后用CNN实现特征提取,最后基于SVMs算法训练分类器,在此基础上还可以进一步学习检测目标的boulding box。
2.R-CNN和SPP-Net的时间成本和空间代价较高。SPP-Net在特征提取阶段只需要对整图做一遍前向CNN计算,然后通过空间映射方式计算得到每一个proposal相应的CNN特征;区别于前者,RCNN在特征提取阶段对每一个proposal均需要做一遍前向CNN计算,考虑到proposal数量较多(~2000个),因此RCNN特征提取的时间成本很高。R-CNN和SPP-Net用于训练SVMs分类器的特征需要提前保存在磁盘,考虑到2000个proposal的CNN特征总量还是比较大,因此造成空间代价较高。
3.R-CNN检测速度很慢。RCNN在特征提取阶段对每一个proposal均需要做一遍前向CNN计算,如果用VGG进行特征提取,处理一幅图像的所有proposal需要47s。
4.特征提取CNN的训练和SVMs分类器的训练在时间上是先后顺序,两者的训练方式独立,因此SVMs的训练Loss无法更新SPP-Layer之前的卷积层参数,因此即使采用更深的CNN网络进行特征提取,也无法保证SVMs分类器的准确率一定能够提升。
Fast-R-CNN亮点:
1.Fast-R-CNN检测效果优于R-CNN和SPP-Net
2.训练方式简单,基于多任务Loss,不需要SVM训练分类器。
3.Fast-R-CNN可以更新所有层的网络参数(采用ROI Layer将不再需要使用SVM分类器,从而可以实现整个网络端到端训练)。
4.不需要将特征缓存到磁盘。
Fast-R-CNN架构:
Fast-R-CNN的架构如下图所示(https://github.com/rbgirshick/fast-rcnn/blob/master/models/VGG16/train.prototxt,可以参考此链接理解网络模型):输入一幅图像和Selective Search方法生成的一系列Proposals,通过一系列卷积层和Pooling层生成feature map,然后用RoI(region of ineterst)层处理最后一个卷积层得到的feature map为每一个proposal生成一个定长的特征向量roi_pool5。RoI层的输出roi_pool5接着输入到全连接层产生最终用于多任务学习的特征并用于计算多任务Loss。全连接输出包括两个分支:1.SoftMax Loss:计算K+1类的分类Loss函数,其中K表示K个目标类别,1表示背景;2.Regression Loss:即K+1的分类结果相应的Proposal的Bounding Box四个角点坐标值。最终将所有结果通过非极大抑制处理产生最终的目标检测和识别结果。
3.1 RoI Pooling Layer
事实上,RoI Pooling Layer是SPP-Layer的简化形式。SPP-Layer是空间金字塔Pooling层,包括不同的尺度;RoI Layer只包含一种尺度,如论文中所述7*7。这样对于RoI Layer的输入(r,c,h,w),RoI Layer首先产生7*7个r*c*(h/7)*(w/7)的Block(块),然后用Max-Pool方式求出每一个Block的最大值,这样RoI Layer的输出是r*c*7*7。
ROIs Pooling顾名思义,是Pooling层的一种,而且是针对RoIs的Pooling,他的特点是输入特征图尺寸不固定,但是输出特征图尺寸固定;
什么是ROI呢?
ROI是Region of Interest的简写,指的是在“特征图上的框”;
1)在Fast RCNN中, RoI是指Selective Search完成后得到的“候选框”在特征图上的映射,如下图所示;
2)在Faster RCNN中,候选框是经过RPN产生的,然后再把各个“候选框”映射到特征图上,得到RoIs。
3.2 预训练网络初始化
RBG复用了VGG训练ImageNet得到的网络模型,即VGG16模型以初始化Fast-R-CNN中RoI Layer以前的所有层。Fast R-CNN的网络结构整体可以总结如下:13个convolution layers + 4个pooling layers+RoI layer+2个fc layer+两个parrel层(即SoftmaxLoss layer和SmoothL1Loss layer)。在Fast R-CNN中,原来VGG16中第5个pooling layer被新的ROI layer替换掉。
3.3 Finetuning for detection
3.3.1 fast r-cnn在网络训练阶段采用了一些trick,每个minibatch是由N幅图片(N=2)中提取得到的R个proposal(R=128)组成的。这种minibatch的构造方式比从128张不同图片中提取1个proposal的构造方式快64倍。虽然minibatch的构造速度加快,但也在一定程度上造成收敛速度减慢。此外,fast-r-cnn摒弃了之前svm训练分类器的方式,而是选用softmax classifer和bounding-box regressors联合训练的方式更新cnn网络所有层参数。注意:在每2张图中选取128个proposals时,需要严格保证至少25%的正样本类(proposals与groundtruth的IoU超过0.5),剩下的可全部视作背景类。在训练网络模型时,不需要任何其他形式的数据扩增操作。
3.3.2 multi-task loss:fast r-cnn包括两个同等水平的sub-layer,分别用于classification和regression。其中,softmax loss对应于classification,smoothL1Loss对应于regression. 两种Loss的权重比例为1:1
3.3.3 SGD hyer-parameters:用于softmax分类任务和bounding-box回归的fc层参数用标准差介于0.01~0.001之间的高斯分布初始化。
3.4 Truncated SVD快速检测
在检测段,RBG使用truncated SVD优化较大的FC层,这样RoI数目较大时检测端速度会得到的加速。
Fast-R-CNN实验结论:
1.multi-task loss训练方式能提高算法准确度
2.multi-scale图像训练fast r-cnn相比较single-scale图像训练相比对mAP的提升幅度很小,但是却增加了很高的时间成本。因此,综合考虑训练时间和mAP,作者建议直接用single尺度的图像训练fast-r-cnn。
3.用于训练的图像越多,训练得到的模型准确率也会越高。
4.SoftmaxLoss训练方式比SVMs训练得到的结果略好一点,因此无法证明SoftmaxLoss在效果上一定比svm强,但是简化了训练流程,无需分步骤训练模型。
5.proposal并不是提取的越多效果越好,太多proposal反而导致mAP下降。