cnn 验证集 参与训练吗_【目标检测】R-CNN

dcb5547007157468455b1ad2baef67ed.png

【目标检测】【CVPR2014】 Rich feature hierarchies for accurate object detection and semantic segmentation

概要

文章提出了一种目标检测算法,使得平均准确度相较于目前的最优方法相对提升了30%。该方法使用了卷积神经网络CNN来预测选取的区域从而定位和分割检测目标。当标记的训练数据较少时,该方法可以先在辅助数据集上进行有监督的预训练,再到目标数据集进行调整训练,使效果得到了较大提升。这一方法因为使用了CNN与区域选取结合,被称为R-CNN,即Regions with CNN features。

R-CNN思想

与图像分类问题不同,目标检测问题除识别物体种类之外还需要在图像中定位物体的具体位置。过去的解决方法包括两类,即将定位视为一个回归问题,以及使用滑动窗口检测器,但这两种方法效果都并不理想。

作者提出了一种新的目标检测思想,即基于区域的识别,并在目标检测和语义分割领域都取得了不错的效果。对于每一张测试图片,算法首先生成约2000个候选区域,并对每一个区域提取固定长度的特征矢量,随后使用支持向量机(SVM)对其特征矢量进行分类。整个过程如下:

38275ab70fb3fd49efd4b3a1aaa41176.png

R-CNN细节

R-CNN分为三个模块:

  • 候选区域生成
  • 提取特征矢量的CNN网络
  • 一系列针对每一类的SVM分类器

有许多方法可以实现候选区域生成,R-CNN采用了选择性搜索的方法,该方法来自《Selective search for object recognition》。

特征提取则采用了2012年提出的Alexnet网络,来自《ImageNet classification with deep convolutional neural networks》。Alexnet接收的输入是227x227的去均值RGB图像,因此需要先对区域进行尺寸变换。另外,作者还在尺寸变换时保留了区域边框之外的16个像素。变换之后的图像样本如下:

c92789a54383b994985e49b63214e93d.png

Alexnet输出的结果是一个4096维的特征矢量,即作为R-CNN特征提取的结果。

随后特征矢量被传递给分类模块,其中每一个类都对应一个针对这个类进行过训练的SVM,负责判断特征矢量属于这一类的概率。所有区域的特征矢量都计算完成后,对每一类进行一次非极大值抑制(non-maximum suppression),该算法能将属于同一类的重复框依据其概率选择性地删除和合并,最终得到的即为检测结果。

CNN网络部分对每一个类都是共享的,因此其时间可以视为均摊至每一个类。唯一与类数量相关的计算是特征矢量和SVM权值的点乘和非极大值抑制。在实际应用中,所有点乘操作被整合到了一个矩阵相乘中,即特征矩阵2000x4096和SVM权值矩阵4096xN相乘,N为类的数量。

训练

  • 有监督预训练

首先作者将CNN网络在用于图像分类的大数据集ILSVRC2012上进行预训练,该训练过程只使用了图像标注信息,因为该数据集没有目标位置信息。该过程使用随机梯度下降(SGD),学习率0.01。

  • 目标域调整训练

随后将该CNN应用到检测任务,其中网络结构的最后一层1000类分类层被修改为N+1类,N为需要检测的物体类数,另一类表示背景。修改后的网络在目标检测数据集上再进行调整训练,同样使用随机梯度下降,学习率降低至0.001。对每一个随机梯度下降的循环,取32个包含各类的正样本和96个背景样本,以减少正样本相对于背景样本过少的影响。

  • 目标类分类器

对于只包含部分检测目标的候选区域,作者采用了Intersection over Union(IoU)重叠度的方法来判断其归类,阈值选取了0.3,这个值是在验证集从0~0.5中采用grid search的方法选取的最优值。确定分类标签以及提取特征完成后,就使用线性SVM对每一类进行训练。为解决内存不足的问题,还采用了hard negative mining的方法。

结果

在PASCAL VOC 2010和ILSVRC2013两个目标检测数据集上的效果如下:

a4e1e627923d24e161ca66c795d0fef5.png

d17c7c3eac6de0157030fa076ce41d8b.png

其中R-CNN BB表示添加了框位置回归(Bounding-box regression)的R-CNN,该方法来自《Object detection with discriminatively trained part based models》中的类似方法,添加了一个线性回归模型,起到了进一步校正目标位置的作用。

另外作者还指出特征提取部分的CNN网络选取对结果会有较大影响。除论文中使用的Alexnet外,作者还尝试了当时刚刚提出的VGG-16网络,发现准确度mAP从58.5%提升到了66.0%。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值