R-CNN

RCNN

摘要
  • 本文介绍了一个简单、可扩展的目标检测方法。该方法将 mAP从53.3% 提高了30%。
  • 主要有两点:定位、检测任务中,把候选区域送入CNN;样本较少的情况下,先在大的辅助数据集上做监督预训练,再在自己的数据集合上做微调,可以获得较大的性能提升。
1.介绍
  • CNN能够极大的提高目标检测的性能,主要解决两个问题:如何用深度网定位目标?如何用较少的样本训练 high-capacity 模型?
  • 第一个问题:如何定位?

    • 看成回归问题,表现不好。
    • 滑动窗口探测器,build a sliding-window detector,通常用于检测特定的目标。Overview:
      1)生成2k个区域,affine image warping到固定尺寸的输入;这2k个区域和类别无关。
      2)把每个区域送入CNN,CNN提取特征,特征是固定长度的向量。
      3)特征向量送入一对多SVMs。
      这里写图片描述
  • 第二个问题:如何用较少的数据训练一个 high-capacity CNN?

    • 样本较少的情况下,先在大的辅助数据集上做监督预训练,再在自己的数据集合上做微调,可以获得较大的性能提升。
    • 系统非常的高效率,算的比较快。(下面会解释)
  • CNN到底学习到了什么?

    • 即使去掉540W个参数中的94%,网络的检测性能只减少很少。
2.Object detection with R-CNN
2.1.Module design
  • Region proposals:有很多产生候选区的方法,这里使用 selective search。
  • Feature extraction:使用AlexNet,最终输出 特征向量 R4096 ∈ R 4096 。采用 padding=16 的各向异性变形,将候选区扩展为 227*227 的 AlexNet 的输入。
2.2 测试
  1. 对于一张图片,生成2000个候选区,扩展为 227*227 的输入送入 AlexNet 。
  2. 网络做特征提取产生4096维的特征,features R2000×4096 ∈ R 2000 × 4096 , SVM Weights R4096×20 ∈ R 4096 × 20 ,相乘得到矩阵 R2000×20 ∈ R 2000 × 20 表示2000个候选区在20个类别上的分值。
  3. 在每个类别上,即每一列上做非极大值抑制,目的是剔除重叠的候选区。

(文中分析了运行时间,这里不再赘述。)

2.3 训练
  • 监督预训练:训练集合选择ILSVRC 2012,仅有类别,没有 bounding box。
  • 在目标检测领域做微调:AlexNet输出层原本1000个类别,修改成21个类别(20个VOC类别加上一个背景)。依然以分类问题做训练。对于一个候选区,与ground-truth的IoU >= 0.5时,标签为正例(相应类别);IoU < 0.5时为负例(背景类)。步长从 0.01 下降到 0.001。每次迭代使用128个样本,其中正例32个,负例96个。训练时提高了正例候选区的比例,因为正例比背景少太多。
  • 分类器:训练分类器和训练CNN时对候选区采用了不同的标注标准。经过交叉验证,IoU <0.3的候选区作为负例;正例即为 ground-truth bounding boxes。由于训练集合太大,采用了hard negative mining method。

(为什么在微调和SVM训练两个阶段,正负样本的划分不同?为什么还要训练一个分类器,而不是直接采用CNN 的最后一层?)

3. 可视化、ablation、误差
3.1 可视化特征

这里没有用反卷积,而是观察什么样的输入可以更大程度的激活某个神经元。

3.2 Ablation studies

在有微调、没有微调两种情况下,不同层的输出做为特征的结构。
这里写图片描述

  • 没有微调(1-3行)时,pool5,f6,f7的性能差不多。fc7的泛化能力甚至不如fc6(46.2%到44.7%)。
  • 没有微调时,移除fc6和cf7两个全连接层后,使用pool5的输出做为特征,网络依然表现得很好。但是到pool5只需要计算整个网络6%的参数。
  • 进行微调(4到7行)之后,性能平均提升了8%,并且pool5,f6,f7的mAP依次升高。预训练中pool5学习到的特征是一般的,共通的;微调之后,fc6、fc7提取的特征,这些特征是domain-specific的,能够训练更好的分类器。
  • bounding box regression,提高了 3-4%。
3.4 bounding box regression

分别用20个回归器对上述20个类别中剩余的建议框进行回归操作,最终得到每个类别的修正后的得分最高的bounding box。

参考 http://blog.csdn.net/wopawn/article/details/52133338

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值