论文地址:Fast R-CNN
Fast R-CNN是基于R-CNN和SPP的改进,在R-CNN使用了SPP的方法来提取候选框(这篇文章中成为RoI)的fixed-length特征,并且去掉了SVM,最后的分类有两个FC层,一层是softmax进行分类打分,一层是bounding-box regressor进行box位置offset回归,CNN网络结构使用VGG16
The RoI pooling layer
RoI pooling layer使用类似SPP层的方法,进行任意尺寸feature map的特征提取,假设我们从每个RoI要得到H*W(H、W是人为设置的超参数)大小的fixed-length feature,RoI的尺寸为h*w,那么我们将h*w分为H*W个网格(每个grid大小为h/H * w/W),然后对每个网格内进行max pooling最终得到H*W的输出,类似于SPP,但是只有一个pyramid level
所以最终fast R-CNN的算法流程如下:
1、对输入图像使用select search选取2k个RoI
2、将输入图像放到CNN(使用imageNet pre-trained,fine-tuning)中,得到需要的conv层的feature map
3、将选取到的RoI映射到feature map上,使用RoI pooling layer得到fixed-length feature(RoI feature vetor)
4、经过FC层,最后到两个FC上(一个softmax进行分类打分,一个bound-box regressor进行位置回归)