RCNN 论文总结
RCNN 模型
图 1.RCNN 预测+训练流程图
RCNN模型主要由三部分构成:用于提取图像特征的CNN模型;用于对特征进行分类的SVM分类器;用于优化bounding box位置信息的回归器。
RCNN的预测:
- 使用 Selective search 方法生成2000个bounding box作为候选区域。
- 使用 CNN对每一个bounding box进行特征提取。
- 使用 SVM对提取到的特征进行分类。
- 针对每一个类别进行NMS筛选选出最终的预测box.
- 使用回归器对box进行位置回归,输出最终的结果。结果包括:预测框的类别;位置,大小。
RCNN训练:
RCNN训练包括三部分:CNN分类模型;SVM分类模型;位置回归模型。
-
CNN分类模型训练:使用分类任务数据集训练CNN模型,训完成后修改CNN模型,取消最后用于分类的全连接层;
-
SVM分类模型训练
- 使用selective search方法提取预测任务图像 region proposal;
- 筛选所有IOU >0.5 的提取框和Ground truth 作为正样本,其余作为负样本;
- 对训练样本进行尺寸变换,能够适应CNN的输入要求,使用CNN模型进行特征提取,提取到的特征用于下一步的训练;
- 分别针对每种类别训练对应的SVM模型,训练过程采用hard negative 方法进行训练;
-
位置回归模型训练
- 使用CNN的 p o o l 5 pool_5 pool5 作为训练输入进行训练。
论文实验
- 可视化特征学习
论文结果
问题讨论
- 使用SVM替代CNN中的全连接层进行分类
- 为什么 CNN fine tune和SVM训练采用不同的样本选择
RCNN相关技术解释
selective search
hard negative
SVR
SIFT , HOG