R-CNN
R-CNN的核心思想: 对每张图片选取多个区域,然后每个区域作为一个样本进入一个卷积神经网络来抽取特征。
R-CNN uses selective search to first generate potential object regions in an image and then perform classificaton on the proposed regions. R-CNN requires high computational costs since each region is processed by the CNN network separately.
- 每张图会通过Selective Search提取2000个候选区域
- 每个区域被warped(缩放)到卷积网络要求的输入大小,然后通过卷积网络得到一个输出,作为这个区域的特征
- 使用这些特征来训练多个svm来识别物体,每个svm预测一个区域是不是包含某个物体
- 使用这些区域特征来训练线性回归器来对区域位置进行调整
R-CNN三大不足:
- 每个候选区域都需要通过CNN计算特征,2000个候选区域,过2000次CNN,计算量大;
- Selective Search是传统的特征提取方法,提取的区域质量不够好;
- 特征提取、SVM分类器是分模块独立训练,没有联合起来系统性优化,训练耗时长
Fast R-CNN
核心思想: 简化R-CNN计算复杂度
Fast R-CNN and Faster