【论文阅读】HCP: A Flexible CNN Framework forMulti-Label Image Classification

目录

Abstract

HCP网络的独特点

INTRODUCTION

RELATED WORK 

HYPOTHESES-CNN-POOLING

Hypotheses Extraction

Training HCP

Multi-label Classifification for Test Image

EXPERIMENTAL RESULTS

Datasets and Settings

Image Classifification Results

CONCLUSIONS



Abstract

HCP网络的独特点

  1. 训练时不需要ground-truth bounding box 信息
  2. 足够鲁棒,以应对可能的噪声
  3. 共享的CNN是灵活的,可以用一个大规模的单标签图像数据集进行很好的预训练,比如ImageNet
  4. 可以自然地输出多标签的预测结果

INTRODUCTION

        多标签图像分类是一个更普遍和实际的问题,因为大多数现实世界的图像包含来自多个不同类别的对象。对于一个典型的多标签图像,不同类别的对象位于不同的位置和不同的比例和姿势。此外,多标签图像中对象之间的不同组成和交互作用,如部分可见性和遮挡,也增加了问题的复杂性,需要更多的注释数据来覆盖不同的情况。

 马和人的空间分布在不同的图片中很不同。与实际上需要收集和注释的单标签图像相比,大尺度多标签图像数据集的注释负担要重得多。许多方法[8]、[12]、[32]已经被提出来解决这一更具挑战性的问题。CNN在单标签图像分类方面的成功也为多标签图像分类问题的解决提供了一些思路。一般来说,CNN可以很好地处理物体对齐良好的图像,而在预测物体严重不对齐或被遮挡的图像时则相对不准确。因此,通过将多标签问题简化到多个单标签任务中,缓解错位和遮挡的问题,可以更好地利用CNN模型的强大识别能力。

        近年来,许多基于假设的方法被提出用于检测[9]和分割[40],[41]。通过生成边界框或分段的假设池,可以将多标签问题转化为单标签预测的几个子任务。HCP将任意数量的对象段假设(H)作为输入,这可能由最先进的目标检测技术生成,例如二值化标准化梯度(BING)[9]或edgebox[44]生成,然后将共享的CNN(C)与每个假设连接起来。最后,为了将来自不同假设的单标签CNN预测聚合为多标签结果,将一个新的池化层(P)集成到新的CNN模型中,给出最终的多标签预测。HCP具有以下特点:

  1. 在多标签图像数据集上的训练不需要ground-truth bounding box信息与以往的工作[7]、[12]、[30]使用ground-truth bounding box信息进行训练不同,所提出的HCP不需要边界框注释。由于边界框注释比标记成本高得多,因此注释负担显著减少。因此,所提出的HCP在转移到新的多标签图像数据集时具有更好的泛化能力。
  2. 所提出的HCP对有噪声或冗余的假设具有鲁棒性。为了抑制可能存在噪声的假设,我们进行了交叉假设最大池操作,将共享CNN的输出融合为综合预测。使用最大池化,保留那些包含对象的假设的高预测分数,并丢弃有噪声的假设。因此,只要一个假设包含感兴趣的对象,在交叉假设池后就可以抑制噪声。冗余假设也可以通过最大池化来很好地解决。
  3. 共享的CNN是灵活的,可以用一个大规模的单标签图像数据集进行很好的预训练。为了解决多标签训练图像不足的问题,基于Hypotheses-CNN-Pooling架构,共享的CNN首先可以在一些大规模的单标签数据集上进行预训练,如ImageNet,然后在目标多标签数据集上进行微调。此外,共享CNN的架构灵活,各种先进的网络Network-in-Network[28]、
    Spatial Pyramid Pooling Net[20]、 Very Deep Net[36]和GoogLeNet[37]可以作为共享CNN。
  4. HCP的输出本质上是多标签的预测结果。在softmax后的标签上产生一个归一化的概率分布,预测的概率值本质上是相应类别的最终置信。

RELATED WORK 

        深度学习试图通过使用由多个非线性转换组成的架构来建模视觉数据的高级抽象。具体来说,深度卷积神经网络(CNN)[25]在单标签数据集(如ImageNet[10])和事件检测[42]上具有图像分类[20],[21],[23],[26],[27],[28],[37]的非凡能力。

        最近,CNN架构被用于解决多标签问题。Gong等人。[16]研究并比较了基于[23]网络结构的多标签注释问题的多标签损失函数。然而,由于CNN需要学习大量的参数,一个有效的模型需要大量的训练样本。因此,训练一个特定任务的卷积神经网络不适用于训练样本数量有限的数据集。

        最近的一些工作[6],[11],[15],[17],[30],[33],[34],[36]已经证明了在具有数据多样性的大数据集上预先训练的CNN模型,如ImageNet,可以在没有足够训练数据的情况下转移来提取其他图像数据集的CNN特征。皮埃尔等人。[34]和拉扎维亚安等人。[33]提出了一种用于多标签分类的a CNN feature-SVM pipeline。具体来说,来自多标签数据集的全局图像直接输入在ImageNet上预先训练的CNN,以获得CNN激活作为现成的分类特征。查蒂尔德等人。[6]探讨了基于不同CNN体系结构的CNN表示对多标签分类任务的影响。西蒙扬等人。[36]基于两个非常深的卷积网络,在大尺度上提取和聚合图像描述符,在使用SVM分类器的PascalVOC数据集上取得了最先进的性能。

        此外,Oquab等人。[30]和Girshick等人。[15]提出了两种基于建议的多标签分类和检测方法。虽然这两种方法已经取得了相当大的改进,但它们高度依赖于ground-truth bounding boxes,当它们转移到没有任何边界框信息的新的多标签数据集时,这可能会限制它们的泛化能力。与[15]、[30]不同,在训练过程中不需要明确的假设标签。相反,我们提出了一种新的假设选择方法来选择少量高质量的假设进行训练。

HYPOTHESES-CNN-POOLING

        我们使用目标检测技术 e.g., BING [9] or EdgeBoxes [44]来产生一系列候选窗口。然后,通过所提出的假设选择方法,选择了更少数量的候选窗口作为假设。所选的假设被输入一个共享的卷积神经网络(CNN)。将输入假设中的置信向量通过具有最大池化操作的融合层相结合,生成最终的多标签预测。具体来说,共享的CNN首先在一个大规模的单标签图像数据集上进行预训练,即ImageNet,然后通过使用整个图像作为输入来微调目标多标签数据集,如Pascal图像VOC。在此之后,我们重新训练所提出的具有平方损失函数的HCP,以进行最终的预测。

Hypotheses Extraction

HCP将任意数量的对象段假设作为共享CNN的输入,并将每个假设的预测与最大池化操作相结合,得到最终的多标签预测。因此,所提出的HCP的性能在很大程度上取决于所提取的假设的质量。然而,设计一个有效的假设提取方法是具有挑战性的,它应该满足以下标准:

  1. 目标检测召回率高。
  2. 少量的假设。
  3. 高计算效率。

综上所述,一个良好的假设生成算法需要有效地生成尽可能少的假设,同时实现尽可能高的召回率。

我们在实验上采用了BING[9]和EdgeBoxes[44]两种建议方法来生成假设。虽然与常见的滑动窗口范式相比,由BING或边框生成的假设数量非常少,但对于HCP训练来说仍然非常大。

为了解决这一问题,我们提出了一种假设选择(HS)方法来从生成的建议中选择假设。

 (a)源图像。(b)由BING生成的假设边界框。不同的颜色表示不同的簇,这是由标准化切割产生的。由边界框直接生成的(c)假设。由所提出的HS方法产生的(d)假设。

Training HCP

        在提出的HCP中,任何最先进的CNN模型[23]、[28],[36],[37]都可以作为共享CNN。以AlexNet[23]为例,它包含5个卷积层和3个具有6000万个参数的全连接层。如果没有足够的训练图像,就很难得到一个有效的多标签分类的HCP。然而,要收集和注释一个大规模的多标签数据集通常是困难的。幸运的是,一个大规模的单标签图像数据集,即ImageNet,可以用来预先训练共享的CNN进行参数初始化,因为每个多标签图像首先被裁剪成许多假设,并且基于HCP的架构假设每个假设最多包含一个对象

        HCP的初始化过程主要包括两个步骤。首先,使用在ImageNet上预先训练的参数来初始化共享的CNN。其次,将网络的最终全连接层(经过1000路ImageNet分类训练)替换为c路全连接层,其中c为目标多标签数据集的类别数,并采用图像微调(I-FT)过程,利用目标多标签图像集作为输入,初始化最终的全连接层。

        初始化后,基于所提出的HCP框架进行了假设微调(H-FT)。具体来说,3.1节中阐述的所有m假设都被输入共享的CNN。为了抑制可能存在噪声的假设,采用交叉假设最大池化的方法将输出融合成一个综合预测。

        需要注意的是,I-FT是HCP训练的一个重要步骤。原因是,在交叉假设最大池操作后,对于每个ground truth label,应选择一个实例来表示该类。如果没有最后一个完全连接层的合理参数,初始链路可能不正确,这可能导致CNN模型处于局部最优状态。此外,交叉假设最大池化是提高整个HCP框架对噪声的鲁棒性的关键步骤。如果一个假设包含一个对象,输出向量在第j个分量上会有很高的响应(即大值),这意味着对应的第j个类别会有很高的置信度。通过交叉假设最大池化,与感兴趣对象对应的大预测值将被保留,而来自噪声假设的值将被抑制。

        对于I-FT和H-FT,我们在实验中利用平方损失作为损失函数。

Multi-label Classifification for Test Image

        基于训练后的HCP模型,对给定图像的多标签分类可以总结如下。我们首先基于假设提取方法生成一个给定图像的输入假设。然后,对于每个假设,都可以通过共享的CNN得到一个c维的预测结果(多标签数据集类别数c)。最后,我们利用交叉假设最大池操作和softmax来生成最终的预测。如图4所示,第二行和第三行表示生成的假设和共享CNN的相应输出。对于每个物体假设,在相应的类别上都有很高的响应(例如,对于第一个假设,对汽车的响应非常高)。经过交叉假设最大池操作,如图中最后一行所示。保留了高响应(即车、马和人),可以作为预测的标签。

VOC2007测试图像的六方最密堆积说明。第二行表示生成的假设。第三行表示输入假设的预测结果。最后一行是交叉假设最大池化后的测试图像的预测结果。 

EXPERIMENTAL RESULTS

Datasets and Settings

        我们在PASCAL Visual Object Classes Challenge(VOC)数据集[13]上评估了所提出的HCP,该数据集被广泛用作多标签分类的基准。本文采用pascalVOC2007和VOC2012进行了实验。这两个数据集分别包含9963和22531张图像,被分为训练、val和测试子集。我们在训练/测试分割上进行了实验(VOC2007为5,011/4,952,VOC2012为11,540/10,991)。评估指标是平均精度(AP)和AP平均值(mAP),符合pascal挑战协议。基于AlexNet[23]和VGGNet(16层)[36]这两种CNN模型,我们对该方法进行了实验验证。我们直接应用Jia等人预先训练的参数。[22]和Simonyan等人。[36]用1000个ImageNet类来初始化CNN模型。对于假设微调,边界框簇的数量m设置为15。模型组件的详细说明在补充材料中提供。所有的实验都是在一个具有6GB内存的NVIDIAGTXTitanGPU上进行的,我们所有的训练算法都是基于Jia等人提供的代码。[22]。

Image Classifification Results

  • 与I-FT的比较:表1显示了从I-FT到HCP的改进细节。可以观察到,基于所提出的HCP框架,分类性能可以进一步提高至少5.7%。I-FT和HCP的结果分别基于单中心作物和500个边框假设进行检验。图5显示了一个基于不同模型的测试结果的示例。可以看出,在给定的图像中有三个ground-truth的类别,即车、马、人。需要注意的是,在HCP中成功恢复汽车类别时,在图像微调过程中没有检测到汽车类别。这可能是因为所提出的HCP是一种基于假设的方法,前景(即马、人)和背景(即汽车)物体都可以被同等地处理。然而,在I-FT阶段,整个图像被视为输入,这可能会导致对一些背景对象的无知。我们还使用500个假设来测试了I-FT模型,但改进非常有限。详情请参考补充资料。

  • 比较使用不同数量的假设进行检验:表2显示了在VOC2007测试阶段改变假设的数量(从50到500)的测试结果。我们比较了BING[9]1和基于AlexNet的边框[44]还有VGG。可以观察到,EdgeBoxes的性能略优于BING。此外,随着假设数的减少,两个提案生成器的性能都非常稳定(从500下降到50,只下降了1%-1.6%)。因此,即使有少量的假设,我们的方法仍能取得令人满意的性能。具体来说,对于前50个假设,基于VGGNet的性能为89.9%。这个结果仍然优于[36](即89.3%),对一个图像的测试可以在2秒内完成。

  • 与最先进的方法进行比较:表3和表4分别报告了我们与VOC2007和VOC2012上的现有实验结果的比较。表3和表4的上、下两部分分别显示了单个模型和组合模型的结果。此外,标记有*的方法是那些使用附加图像的方法,即ImageNet进行训练的方法。我们所有的结果都是通过利用Edgeboxes生成的每个测试图像的前500个假设作为输入得到的。AlexNet和VGGNet的测试时间约为3秒/图像,包括提案生成(边缘框:0.25秒/图像)。

        从实验结果可以看出,单一HCP-VGG模型的性能优于以往所有方法。具体来说,在[36]中,首先应用预先训练好的VGG模型在各种图像尺度(Q2 256;384;512;640;768)上提取视觉特征,然后通过平均聚合(5个尺度,生成最终的图像表示,利用SVM分类器实现了最先进的性能。从表3和表4中可以看出,我们的单一模型结果在模型架构和它们的组合模型上都优于[36]。由表2可以看出,我们的单一模型在测试中使用相同的假设数(即250个),可以达到90.8%,比[36]的单一模型增加了1.5%。在补充材料中提供了更详细的比较分析。

         在VOC2012大会上,MVMI-DSP和Tencent-BestImage在公共排行榜2上取得了一些最新的成果,分别为90.7%和90.4%。然而,正如他们的描述所示,这两个结果都是通过某种组合得到的。为了进一步改进,我们将HCP-VGG的预测分数与我们之前的模型NUS-PSL[12](pascalVOC2012分类任务的获胜奖)进行了后期融合。令人难以置信的是,这两种模型的组合所产生的mAP分数可能会飙升至93.2%,这优于所有其他方法。

CONCLUSIONS

        在本文中,我们提出了一个新的Hypotheses-CNN-Pooling(HCP)框架来解决多标签图像分类问题。基于所提出的HCP,CNN在大尺度单标签图像数据集上进行预训练,如ImageNet,可以成功地迁移到解决多标签问题上。此外,所提出的HCP不需要bounding box annotation来进行训练,因此可以很容易地适应新的多标签数据集。我们在VOC2007和VOC2012上评估了我们的方法,并验证了与现有的技术相比,HCP可以进行显著的改进。此外,还证明了CNN输出与手工制作的特征方案的后期融合可以极大地提高分类性能。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值