论文:Rich feature hierarchies for accurate object detection and semantic segmentation
(https://arxiv.org/abs/1311.2524v3)
算法结构:
R-CNN由三部分组成:产生region proposals,CNN提取region proposals的特征向量,SVM分类和bounding box回归
1)region proposals
在selective search前将每个图像resize成固定尺寸(宽500像素)
2) CNN特征提取模型训练:
模型:AlexNet,结构不变,输出4096维特征
初始参数:ILSVRC2012 预训练参数‘
fine-tuning数据集:selective search在目标检测数据PASCAL上产生的候选框与ground-truth的 IoU大于等于0.5为正样本,与ground-truth的IoU小于0.5或者背景为负样本,模型输入候选框resize成227x227图像
训练策略:使用SGD优化,学习率0.001(是预训练学习率的1/10),每个mini-batch的大小是128,由32个正样本和96个负样本组成(正负样本偏差是由于正负样本数量不平衡)
3) 目标分类SVM训练
为每个类别训练1个线性svm二分类器。
数据:与ground-truth的IoU大于0.3为正,小于0.3为负 ,选择{0,0.1,0.2,0.3,0.4,0.5}集合中的其他值作为阈值时mAP会下降
训练输入:判为正样本的候选区提取的4096维特征
4) bounding-box回归
训练线性模型用于预测框,对每个search proposal使用特定类别svm打分后, 使用特定类别bounding-box回归进行bounding-box预测。
输入:N个训练对序列,,P是proposal框的中心坐标和宽、高,4个值,G是ground-truth对应的值。