目标检测(一):R-CNN

之前对于目标检测的深度学习框架了解不多,因此需要阅读大量文献,这里参考Github上的一个文章整理1进行阅读,主要阅读其中一些比较重要的文献。

1 R-CNN框架

R-CNN2的整体框架如下图所示:
R-CNN架构
给定一幅图像,需要经过三个步骤的处理:1. 提取候选区域框(文章里是2000个region proposals)。2.对于每个region proposal,将其对应的图像块送入CNN提取特征。3.对于每个region proposal的特征,使用SVM计算其对应于每个类别的概率。也就是说最终有2000*C(C为类别总数)个类别概率,之后利用非极大值抑制NMS方法确定最终的检测结果。
本文的另一个贡献是:提供了一种在标记训练样本不足情况下的解决办法。作者首先在一个拥有充足数据的辅助任务上进行监督预训练(此处指分类任务),然后再在目标任务上进行微调。这种方法可以推广应用到其他数据短缺的任务上。

We conjecture that the “supervised pre-training/domain-specific finetuning”
paradigm will be highly effective for a variety of data-scarce vision problems.

接下来对三个步骤进行介绍。

1.1 获取region proposals

作者在此使用的是Selective Search3方法生成候选区域,从一张图像生成约2000-3000个候选区域。文中并未介绍具体的操作步骤,我也没有仔细阅读对应的文献,这里引用shenxiaolu1984的这篇博客的介绍。基本思路如下:

  • 使用一种过分割手段,将图像分割成小区域。
  • 查看现有小区域,合并可能性最高的两个区域。重复直到整张图像合并成一个区域位置。
  • 输出所有曾经存在过的区域,所谓候选区域。

候选区域生成和后续步骤相对独立,实际可以使用任意算法进行。

1.2 Feature Extraction

对于每个候选区域,需要提取其对应的固定长度的特征向量。由于候选区域的大小形状不一,因此需要首先将区域调整到统一尺寸。作者在这里选用的是一种warp with context padding的方法,对于每个候选区域,会先向周围图像padding16个像素(若超出原图像边界则使用均值填充),然后进行缩放得到227*227大小的图像。之后将其作为输入,使用CNN提取特征,文中比较了不同CNN层的特征效果,最优效果为FC7层的输出,为4096维的向量。
也就是说,每个region proposal都被转化为一个4096维的特征向量。

1.3 Classify

根据第二步得到的特征,判断其类别分数。其实原本CNN的最后一层输出对应的就是每个类别的概率分数(这里用词可能不准确,或者说是置信度分数,能理解即可),但是作者在这里使用了另一种方法,即利用单独的SVM进行分类,具体原因在文章里有介绍。
SVM是一个二分类器,因此每个SVM只能用来判断特征属于某个单独类别的概率。所以总共需要C个SVM,每个region proposal得到C个类别的分类概率,所有的region proposals总共有2000*C个分类概率。
最后利用NMS来进行筛选,确定最终的检测结果。

Bounding Box Regression

这算是文章里的一个小trick,是一个后处理步骤,可以提升边界框的定位精度。其步骤在SVM分类之后。对于每个region proposal,使用其对应类别的边界框回归器(由训练得到)来对边界框进行处理,重新调整边界框位置。

2 训练部分介绍

两个主要训练步骤如下:

  • supervised pre-training:首先在ILSVRC2012数据集上进行预训练
  • domain-specific fine-tuning:之后在VOC数据集上进行微调

除此之外还有:

  • object category classifier:每个类别需要训练一个SVM
  • BB regression:每个类别训练一个边界框回归器

  1. A paper list of object detection using deep learning. ↩︎

  2. Girshick R B, Donahue J, Darrell T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]. computer vision and pattern recognition, 2014: 580-587. ↩︎

  3. J. Uijlings, K. van de Sande, T. Gevers, and A. Smeulders. Selective search for object recognition. IJCV, 2013. ↩︎

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值