Rich feature hierarchies for accurate object detection and semantic segmentation论文笔记

1 研究目的和方法

文献的研究目的是为了提高对象检测和语义分割的准确性,特别是在PASCAL VOC这样的标准数据集上。研究的核心是提出一种名为R-CNN(Regions with CNN features)的新型算法,该算法通过结合区域提议和卷积神经网络(CNN)来实现更精确的对象定位和分类。

研究方法包括以下几个关键步骤:

1. 区域提议提取:
   使用自底向上的方法,如Selective Search,从图像中提取可能包含对象的区域提议。这些提议作为后续处理的输入。

2. 特征提取:
   通过预训练的卷积神经网络(CNN)提取每个区域提议的特征。CNN能够捕捉到丰富的视觉特征,这些特征对于区分不同对象类别至关重要。

3. 分类器训练:
   对每个区域提议使用类别特定的线性支持向量机(SVM)进行分类,确定它们分别属于哪个对象类别。

4. 非极大值抑制:
    应用非极大值抑制(NMS)来处理同一类别中多个重叠的检测结果,选择最佳的检测框并抑制其他重叠的较低得分检测。

5. 边界框回归:
   为了进一步提高检测的定位精度,引入了边界框回归技术,通过训练一个线性回归模型来微调检测框的位置和尺寸。

6. 可视化和消融研究:
    通过可视化技术展示网络学习到的特征,并进行消融研究来评估模型中各个组件的重要性,如不同层级的特征、预训练和微调策略等。

2 主要发现和结论

1. 性能显著提升:
  R-CNN在PASCAL VOC 2012数据集上实现了超过30%的平均精度均值(mAP)提升,达到了53.3%的mAP,这是当时的最佳结果。

2. 高容量CNN的有效性:
   通过将高容量的卷积神经网络(CNN)应用于自底向上的区域提议,R-CNN能够更准确地定位和分割对象,这表明深度学习特征对于对象检测任务至关重要。

3. 预训练与微调的策略:
   在大型辅助数据集(如ImageNet)上进行有监督预训练,然后在特定任务数据集(如PASCAL VOC)上进行微调,是提高模型性能的有效策略。这种策略使得模型能够利用在大规模数据集上学习到的知识,适应数据稀缺的任务。

4. 卷积层的重要性:
   消融研究显示,CNN的卷积层比全连接层更为重要。即使在移除全连接层后,仅使用卷积层的特征仍然能够取得良好的检测性能。

5. 边界框回归的改进:
   引入简单的边界框回归方法可以显著减少误定位问题,进一步提升模型的定位精度。

6. 可视化分析的洞察:
   通过可视化技术,研究者能够直观地理解CNN是如何学习到不同层次的视觉特征的,这为改进模型提供了重要的洞察。

7. 语义分割的应用:
   - R-CNN模型不仅可以用于对象检测,还可以扩展到语义分割任务,并在PASCAL VOC 2011数据集上取得了最先进的结果。

8. 传统与深度学习的结合:
    R-CNN的成功表明,传统的计算机视觉技术(如区域提议)与深度学习(如CNN)的结合,能够有效地推动视觉识别领域的发展。

3 R-CNN

主要包括三个模块:

第一个模块生成区域无关的区域建议;

第二个模块是一个从每个区域提取固定长度特征向量的大型卷积神经网络;

第三个模块是一组针对于类别的线性SVM。

3.1 模块设计

区域建议:使用选择性搜索算法;

特征提取:AlexNet。

图像处理:因为网络输入大小是227*227,先对区域提议进行仿射变换,扩大边界框再弯曲图像,再对图像作均值归一化。

3.2 训练

有监督的预训练:在大型辅助数据集ILSVRC 2012上对CNN进行预训练。

3.3 领域特定微调

为了让CNN适应新的任务和新的域,使用VOC的弯曲的区域提议对CNN进行随机梯度下降训练,将1000路的分类器换成了21路分类器,把IoU大于0.5的区域提议视为该框类别的正样本,其余为负样本,学习率从0.001开始,每次迭代32个阳性窗口和96个背景窗口。

3.4 目标类别分类器

为了弄清楚什么样的区域应该被标记为负样本,设置了一个IoU大小为0.3的阈值。

因为在优化线性支持向量机的时候训练数据太大,内存无法容纳,这里采用了标准的硬负样本挖掘方法并且收敛地很快。

4 可视化,消融研究和错误模式

4.1 可视化学习到的特征

作者提出了一种简单的(和互补的)非参数方法,直接显示网络学习的内容。

在网络中选择一个特定的单元,把它当作目标检测器来使用,也就是说在大量的闲置的区域提议上计算单元的激活值,将区域提议按照最高激活到最低激活排序,执行非最大值抑制,显示得分最高的区域。

文中选择可视化的是最后一个卷积层的最大池化输出,也就是pool5层的单元,特征图有6*6*256维。

上图展示了在VOC 2007训练验证集上微调的CNN的pool5单元的前16个激活,可视化了256个功能唯一单元中的6个。

4.2 消融研究

没有进行特定领域微调的情况下,分析各个层的性能表现:

这里只分析了CNN最后三层在VOC 2007数据集上的结果,pool5在上一节中进行了简要描述,最后两层的总结如下:

全连接层fc6以一个4096*9216维的权重矩阵乘以pool5输出的特征图,然后加上一个偏置向量,再对这个向量应用ReLU非线性激活函数。全连接层fc7类似,用一个4096*4096维的权重矩阵乘以fc6输出的特征图,再添加一个偏置向量并应用非线性激活函数。

查看仅在ILSVRC 2012数据集上进行了预训练之后的CNN在VOC 2007数据集上的结果,表明从fc7泛化出来的特征还不如fc6的效果,这意味着可以在不降低mAP的情况下去除29%,即大约1680万个CNN的参数。更令人惊讶的是,去除fc7和fc6产生了相当好的结果,即使pool5的特征只使用了CNN参数的6%。这说明CNN的表征能力大部分来自于卷积层,而不是更大的密集连接层。

这意味着研究者可以利用预训练的CNN中较早的层(如pool5层)提取的特征来构建特征图,而不需要使用整个网络。这样的特征图能够捕捉到图像中的局部模式和结构信息,类似于HOG特征那样有助于目标检测任务。然后,这些特征图可以被用作滑动窗口检测器的输入,以便在图像中定位和识别目标对象。

在进行微调的情况下,分析各个层的性能表现:

对在VOC 2007数据集进行训练和验证的CNN的参数进行微调,mAP提高了8个百分点,而且微调对全连接层的提升要比对池化层的提升大得多,表明pool5层从ImageNet学到的特征具有较好的通用性,而性能的大部分提升来自于在这些通用特征之上学习特定于领域的非线性分类器。换句话说,尽管底层特征在不同视觉任务间具有一定的通用性,但是通过在顶层进行微调,模型能够学习到更适应目标检测任务的特定特征和模式。

与近期特征学习方法的比较:

这里提到了两种近期的特征学习方法DPM ST和DPM HSC,并将它们与标准的基于方向梯度直方图(Histogram of Oriented Gradients, HOG)的DPM方法进行了比较。

在比较中,R-CNN的所有变体在PASCAL VOC数据集上的性能都显著优于三种DPM基线方法,表明R-CNN在目标检测任务上的性能明显优于传统的DPM方法,即使是那些结合了高级特征学习方法的DPM变体也无法与之匹敌。这强调了深度学习方法,特别是CNN在特征表示和目标检测任务中的有效性和优越性。

4.3 检测错误分析

文章使用了一种出色的检测错误分析工具用于揭示他们的方法的错误模式、理解微调是如何改变这些方法的和看看他们的错误模式和DPM方法的比较。

在目标检测中,假阳性是指模型错误地将不存在目标对象的区域识别为目标对象。这些假阳性根据其错误类型被分为四类:

  1. Loc - 定位不佳:这类假阳性的检测与正确类别的交并比(IoU)在0.1到0.5之间,或者是一个重复的检测。这表明模型正确识别了对象类别,但是定位不够准确。

  2. Sim - 类似类别混淆:模型将目标对象错误地识别为另一个视觉上相似的类别。

  3. Oth - 不相似类别混淆:模型将目标对象错误地识别为一个视觉上不相似的类别。

  4. BG - 背景假阳性:模型错误地在背景上触发了检测,即使那里没有目标对象。

与使用方向梯度直方图(HOG)特征的传统DPM(Deformable Part Models)方法相比,CNN在目标检测中的错误更多地是由于定位不佳,而不是由于与背景或其他对象类别的混淆。这表明CNN学习到的特征在区分不同对象类别方面更具辨别力。这种定位不佳的假阳性可能是由于使用自下而上的区域提议方法和在预训练阶段学习到的对整个图像分类的位置不变性所导致的。

最后,文中提到了一个简单的边界框回归方法,该方法能够修正许多定位不佳的错误。这意味着通过进一步优化模型的定位能力,可以减少假阳性,从而提高目标检测的准确性。

4.4 边界框回归

受到DPM中使用的边界框回归技术的启发,作者训练了一个线性回归模型,根据pool5的特征为选择性搜索区域提议预测一个新的检测窗口,结果表明,这种简单的方法修复了大量的错误定位检测,将mAP提高了3到4个点。

  • 13
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值