Fast R-CNN 在SPP-Net 上更进一步,它更好地实现了对R-CNN的加速工作,R-CNN的基础上Fast R-CNN主要有以下几个方面的改进。
1)借鉴了 SPP-Net 的思路,提出了简化版的ROI Pooling(没有使用Spatial Pyramid Pooling),同时加入了候选框映射的功能,使得网络能够进行反向传播,解决了SPP的整体网络训练的问题。
2)多任务Loss层:一方面使用了Softmax代替SVM进行多分类,另一方面我们使用SmoothL1Loss取代了Bounding Box 回归。
Fast R-CNN的基本工作流程如下所示。
1)接收一个图像,使用Selective Search选择大约2000个从上到下的类无关候选区域(proposal)。
2)对整张图片进行卷积操作提取特征,得到Feature Map。
3)找到每个候选框在Feature Map 中的映射 patch,将 patch 作为每个候选框的特征输入到 ROI 池化层及后面的层。
4)将提取出的候选框的特征输入到Softmax分类器中进行分类,替换了R-CNN的 SVM 分类。
5)使用SmoothL1 Loss 回归的方法对候选框进一步调整位置。