前言
上篇文章介绍了SPP-net,它对R-CNN做了改进。但仍然存在一些缺点:计算速度慢,步骤繁琐(需要多级流水线),需要磁盘缓存特征。
fast-rcnn对此进一步进行改进,有如下优点:
- 比R-CNN和SPPnet具有更高的目标检测精度(mAP)。
- 使用多任务损失实现端到端的训练。
- 训练可以更新所有网络层参数。
- 不需要磁盘空间缓存特征。
fast-rcnn
网络架构如下:
fast R-CNN网络将整个图像和图像的一组候选框(也是通过selective rearch算法生成)作为输入(注意,这里有两个输入)。网络首先使用几个卷积层和最大池化层来处理整个图像,以产生卷积特征图。然后,对于每个候选框,RoI池化层从特征图中提取固定长度的特征向量。每个特征向量被送入一系列全连接层中,最终分支成两个同级输出层进行联合训练 :一个输出总类别数加上1个背景类别的Softmax概率估计,另一个为各类别的每一个类别输出四个实数值。每组4个值表示一个类别的检测框位置的修正。 这里多出两个新的概念:ROI池化层和联合训练
ROI池化层
ROI池化层实际上就是SPP的单层简化版,将大小不同的候选框对应的特征图提取到固定的特征向量。在文章中,VGG16网络使用H=W=7的参数,所以不管ROI pooling之前的feature map大小是多少,ROI pooling后得到的feature map大小都是H*W
联合训练
不同于之前的算法,分类和回归分别训练,导致过程繁琐。fast-rcnn采用联合训练。它指将分类和边框回归联合到一起在CNN阶段训练,主要难点是损失函数的设计。Fast-RCNN中,有两个输出层:
第一个是针对每个ROI区域的分类概率预测
第二个则是针对每个ROI区域坐标的偏移优化
0≤k≤K是多类检测的类别序号。
每个训练ROI都对应着真实类别u和边框回归目标
对于类别u预测边框为
使用多任务损失L来定义ROI上分类和边框回归的损失:
假设对于类别u,在图片中标注的真实坐标和对应的预测值理论上两者越接近越好,相应的边框损失函数为:
总结
fast-rcnn较R-CNN和SPP-net在结构上有了较大的简化,提高了检测速度和检测准确率,采用多任务损失实现端到端的训练、
存在的问题:
仍然先要使用Selective Search提取Region Proposals,没有实现真正意义上的端对端,操作也十分耗时。下节将要介绍faster-rcnn实现完全的端到端训练。