R-CNN
(2013年)论文地址:http://is.ulsan.ac.kr/files/announcement/513/r-cnn-cvpr.pdf
Selective Search生成2000个候选框,拉伸(wrap)为227*227,通过CNN提取特征,最后用SVM分类器进行类别判断。(这边定位框是怎么做的?)
R-CNN是深度学习在目标检测领域的重要一步。
Fast R-CNN
(2015年)论文地址:https://arxiv.org/abs/1504.08083
Selective Search生成2000个候选框,不同于R-CNN,Fast R-CNN中不对每个候选图都进行CNN计算,而是把候选框映射到映射到CNN 的最后一层feature map上。通过RoI pooling层将每个候选框生成固定尺寸的feature map。利用FC和softmax输出类别信息,利用FC和regressor生成bbox位置。
Fast R-CNN的特色是RoI pooling层,(其主要作用是。。。。)
Faster R-CNN
(2015年)论文地址:https://arxiv.org/abs/1506.01497
Selective Search生成候选框只能依靠CPU,无法采用GPU加速,同时2000个候选框有些多,加重了神经网络计算压力。Faster R-CNN中采用RPN(Region Proposal Network)产生300个候选框。
Faster R-CNN=RPN+Fast R-CNN
RCNN系列的发展,可以用以下几句话来概括:
RCNN ,“为什么不用CNN做object detection呢?”“提取很多框,CNN提取特征,SVM分类”
Fast-RCNN ,“为什么不一起输出bounding box和label呢,干嘛输入部分要重复CNN计算?””前面CNN只计算一次,RoI pooling后,FC输出类别和bbox,”
Faster-RCNN ,“为什么还要用selective search呢?”“用RPN计算候选框”