目标检测之RCNN系列算法学习

1. RCNN

标题Rich feature hierarchies for accurate object detection and semantic segmentation Tech report
作者团队,发表时间UC Berkeley, CVPR-2014
文章解决的问题提高目标检测速度和准确率
解决的方案提出两步检测框架,先用selective search进行检测框的proposal,然后使用CNN提取检测框的特征,接着利用SVM判断类别,并对检测框进行回归矫正
实验与结果1.数据库: ImageNet,PASCAL VOC 2010
2. 训练参数:
3. 训练策略:
4.Result: achieves a mean average precision (mAP) of 53.7% on PASCAL VOC 2010
总结改进点:
1.用SoftMAx取代SVM进行加速
2. 使用更好的网络架构
3.标定框proposal算法selective search不具备尺度鲁棒性
4. image size warp算法会造成图像畸变,有改进空间

在这里插入图片描述

1.1 解决的问题

1.1.1 image size warp

问题:
由于RCNN采用的是AlexNet架构,输出为固定的4096维数据,所以需要将网络输入固定(227x227)
解决方案:
直接将检测框resize成227x227大小,但在resize之前将检测框下端做16个像素的padding,以增大视野

1.1.2 训练数据不足

问题:
目前只有PASCAL VOC含有检测框标准,而ILSVRC2012只有类别信息
解决方案:
使用ILSVRC2012进行pretrain,使用PASCAL VOC进行fine-tune
a. fine-tuning: SGD ,learning rate of 0.001 (1/10th of the initial pre-training rate),
batch 构成:32 positive windows (over all classes) and 96 background windows
,这样做的目的是均衡正负样本数量。
b. 训练CNN与SVM分类器样本不一样,SVM分类器的数据更加严格,为准确无误的打标框,原因在于CNN要的训练数据远远大于SVM,因此CNN与SVM可以分开训练。

1.2 论文结论

1.2.1 数据相关性

经过作者进行image URL比较和图像内容比较,得出PASCAL VOC与ILSVRC2012数据只有小于1%的重复率。

2. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

标题Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
作者团队,发表时间Facebook, TPAMI-2015
文章解决的问题提高目标检测速度和准确率
解决的方案提出Spatial Pyramid Pooling,将proposal和detection连接在一起,可以一起训练,避免resize对数据精度的影响
实验与结果1.数据库: ImageNet,PASCAL VOC 2010
2. 训练参数:
3. 训练策略:
4.Result:
总结改进点:
1.
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值