目标检测之RCNN系列算法学习
1. RCNN
标题 | Rich feature hierarchies for accurate object detection and semantic segmentation Tech report |
---|---|
作者团队,发表时间 | UC Berkeley, CVPR-2014 |
文章解决的问题 | 提高目标检测速度和准确率 |
解决的方案 | 提出两步检测框架,先用selective search进行检测框的proposal,然后使用CNN提取检测框的特征,接着利用SVM判断类别,并对检测框进行回归矫正 |
实验与结果 | 1.数据库: ImageNet,PASCAL VOC 2010 2. 训练参数: 3. 训练策略: 4.Result: achieves a mean average precision (mAP) of 53.7% on PASCAL VOC 2010 |
总结 | 改进点: 1.用SoftMAx取代SVM进行加速 2. 使用更好的网络架构 3.标定框proposal算法selective search不具备尺度鲁棒性 4. image size warp算法会造成图像畸变,有改进空间 |
1.1 解决的问题
1.1.1 image size warp
问题:
由于RCNN采用的是AlexNet架构,输出为固定的4096维数据,所以需要将网络输入固定(227x227)
解决方案:
直接将检测框resize成227x227大小,但在resize之前将检测框下端做16个像素的padding,以增大视野
1.1.2 训练数据不足
问题:
目前只有PASCAL VOC含有检测框标准,而ILSVRC2012只有类别信息
解决方案:
使用ILSVRC2012进行pretrain,使用PASCAL VOC进行fine-tune
a. fine-tuning: SGD ,learning rate of 0.001 (1/10th of the initial pre-training rate),
batch 构成:32 positive windows (over all classes) and 96 background windows
,这样做的目的是均衡正负样本数量。
b. 训练CNN与SVM分类器样本不一样,SVM分类器的数据更加严格,为准确无误的打标框,原因在于CNN要的训练数据远远大于SVM,因此CNN与SVM可以分开训练。
1.2 论文结论
1.2.1 数据相关性
经过作者进行image URL比较和图像内容比较,得出PASCAL VOC与ILSVRC2012数据只有小于1%的重复率。
2. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
标题 | Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition |
---|---|
作者团队,发表时间 | Facebook, TPAMI-2015 |
文章解决的问题 | 提高目标检测速度和准确率 |
解决的方案 | 提出Spatial Pyramid Pooling,将proposal和detection连接在一起,可以一起训练,避免resize对数据精度的影响 |
实验与结果 | 1.数据库: ImageNet,PASCAL VOC 2010 2. 训练参数: 3. 训练策略: 4.Result: |
总结 | 改进点: 1. |