echart 多柱图只显示部分数据标签_多标签分类文献阅读(7)

学习带有部分标签的Deep ConvNet进行多标签分类(Learning a Deep ConvNet for Multi-label Classification with Partial Labels)

摘要

Deep ConvNets在单标签图像分类(例如ImageNet)方面显示出了出色的性能,但是有必要超越单标签分类任务,因为日常生活中的图片本质上是多标签的。多标签分类比单标签分类更困难,因为输入图像和输出标签空间都更加复杂。此外,与单标签注释相比,收集干净的多标签注释更难以按比例放大。为了减少注释成本,我们建议使用局部标签训练模型,即每个图像仅知道一些标签。我们首先根据经验比较不同的标签策略,以显示在多标签数据集上使用部分标签的潜力。然后要学习部分标签,我们引入了一个新的分类损失,该损失利用了每个示例中已知标签的比例。我们的方法允许使用与学习所有注释时相同的训练设置。我们进一步探索了几种基于课程学习的策略来预测标签缺失。在三个大型多标签数据集上进行了实验:MS COCO,NUS-WIDE和Open Images。

1、介绍

最近,Stock和Cisse[46]提出的经验证据表明,最先进的分类器在ImageNet[44]上的性能很大程度上被低估了。

与ImageNet不同,多标签数据集(如MS COCO [35], Open Images[32])包含更复杂的图像,表示多个对象的场景(图1)。然而,收集多标签注释比收集单标签注释[13]更难放大。作为一种替代策略,可以使用部分标签;通过众包平台,收集部分标签很容易,而且可扩展。在本文中,我们研究了一种多标签分类器的学习问题。

提高图像分类性能的两个主要(和互补)策略是:(i)设计/学习更好的模型架构和(ii)学习更多的标记数据。然而,收集一个多标签数据集比收集一个单一标签数据集[13]更困难,可伸缩性也更差,因为为每个图像收集一致和详尽的标签列表需要很大的努力。为了克服这个挑战,使用网络监督自动生成标签。但是这些方法的缺点是注释是嘈杂的和不详尽的,并且表明学习与破坏标签会导致很差的泛化性能。为了增强对标记噪声的鲁棒性,人们提出了一些利用标记噪声进行学习的方法。

正交策略是使用部分注释。这个方向是研究社区积极追求的:最大的公开可获得的多标签数据集是用部分干净标签标注的。对于每一幅图像来说,某些类别的标签是已知的,而其他类别的标签是未知的(图1)。例如,我们知道图像中有一辆车,没有熊,但是我们不知道图像中有一个人,一艘船,还是一个苹果。放松对详尽标签的学习要求为创建大规模数据集提供了更好的机会。众包平台如Amazon Mechanical Turk1和谷歌Image Labeler2,或web服务如recaptcha3,可以为大量图像收集部分标签。

841e44fd138a450d5910a3f7059853f1.png

据我们所知,这是第一次研究在大规模数据集上学习带有部分标签的多标签图像分类器这一具有挑战性的任务。在大规模数据集上使用部分标签进行学习带来了新的挑战,因为现有的方法是不可扩展的,不能用于微调卷积网络。我们通过引入新的丢失函数和修复丢失标签的方法来解决这些关键的技术挑战。

我们的第一个贡献是对多标签数据集的几种标签策略进行实证比较,以突出部分标签学习的潜力。在给定固定标签预算的情况下,我们的实验表明,对所有图像进行部分标注要比对一小部分图像进行完整标注要好。

作为第二项贡献,我们提出了一个可扩展的学习带有部分标签的卷积网络的方法。我们引入了一个损失函数,通过利用标签比例信息来推广标准二叉交叉熵损失。这种损失自动适应每个图像已知标签的比例,并允许使用相同的训练设置时,与学习所有标签。

我们最后的贡献是一种预测缺失标签的方法。我们表明,学习的模型是准确的,可以用来预测缺失的标签。由于ConvNets对噪声很敏感,我们提出了一种基于课程学习的模型,该模型可以逐步预测一些缺失的标签,并将它们添加到训练集中。为了改进标签预测,我们开发了一种基于图神经网络(GNNs)的方法来明确地建模类别之间的相关性。在多标签设置中,并非所有的标签都是独立的,因此推断观察到的和未观察到的部分标签之间的标签相关性是很重要的。

2、相关工作

带部分或缺失标签的学习。

课程学习/永无止境的学习。

3、部分标签学习

本文的目标是训练给定部分标签的ConvNets。我们首先引入一个损失函数来学习部分标签,推广二进制交叉熵。然后我们将模型扩展到一个图形神经网络来推理观察到的和未观察到的部分标签之间的标签相关性。最后,我们使用这些贡献来学习一个准确的模型,它被用来预测缺失的标签与基于课程的方法。

45fcd723337d30d73d6ccd82bfcb9295.png

c338a997d018d4986e999f7afebe277d.png

3.1、部分标签的二进制交叉熵

训练多标签分类模型最常用的损失函数是二元交叉熵(BCE)。为了独立于类别的数量,BCE损失是由类的数量标准化的。这对于部分标记的数据来说是一个缺点,因为反向传播的梯度变小了。为了克服这个问题,我们提出了部分bce损失,该损失按已知标签的比例进行常态化:

f3db596ec9a1855a70c9fd20b1106339.png

41e85eaa5fd3698dbe50523825af5eca.png

d6d9797897a39a55d5b056232f8f9960.png

93a9bb3daead320219e927724bdcd456.png

3.2、多标签分类与GNN

19f58ab77ad607c862267cf69b9339e7.png

518370526ff79bf15fee0590eb8762f0.png

3.3、未知标签预测

7868b4c82e5c40e56544bfaa1aed46c8.png

228d210a9a85d2923aee717c879f878b.png

4、实验

数据集。我们在几个标准的多标签数据集上进行实验:Pascal VOC 2007 [17], MS COCO[35]和NUS-WIDE。对于每个数据集,我们使用[17]、[40]和[18]中分别引入的标准训练/测试集(更多细节见supplementary A.2小节)。

从这些完全标记的数据集,我们创建部分标记的数据集通过随机删除一些标签每一幅图像。已知标签的比例在10%(90%的标签缺失)和100%(所有标签都存在)之间。我们还在部分注释的大型开放图像数据集[32]上进行了实验:在训练期间,有0.9%的标签可用。

f0d5720f1e0afe5039f4b8f4e949016e.png

指标。为了评估性能,我们使用了几个指标:平均平均精度(MAP)[1], 0-1精确匹配,宏观f1[60],微观f1[51],每类精度,每类召回,总体精度,总体召回。这些度量是标准的多标签分类度量,在补充的A.3小节中给出。我们主要显示地图度量的结果,其他度量的结果在补充部分显示。

实现细节。我们采用ResNet-WELDON[16]作为我们的分类网络。我们使用在ImageNet上预先训练的ResNet-101[21]作为骨干架构,但是我们在补充部分展示了其他架构的结果。模型采用PyTorch[42]实现。部分bce损失函数的超参数为:image = 4.45, image = 5.45(即g(0.1) = 5), image = 1。对于缺失标签的预测,我们使用的bayesian不确定性策略,其取值为:θ = 0.3

4.1、注释数据集的最佳策略是什么?

在第一组实验中,我们研究了三种标注多标签数据集的策略。我们的目标是回答这个问题:用固定预算的干净标签注释数据集的最佳策略是什么?我们将探讨以下三个场景:

部分标签。这就是本文所使用的策略。在此设置中,使用了所有图像,但每个图像只有一个标签子集是已知的。已知的分类对于每幅图像都是不同的。

完整的图像标签或密集的标签。在这个场景中,只有图像的一个子集被标记,但是被标记的图像具有所有类别的注释。这是半监督学习[6]的标准设置,除了我们不使用半监督模型。

嘈杂的标签。所有图片的类别都贴了标签,但有些标签是错的。这个场景类似于webly-supervised learning场景[37],其中一些标签是错误的。

17deda808b5ecb8522c9fe665f2ac5a8.png

为了比较两种方法,我们在这些实验中使用了BCE损失函数。不同清洁标签比例的结果如图3所示。在每个实验中,我们使用相同数量的清洁标签。100%表示在训练中所有的标签都是已知的(标准分类设置),10%表示在训练中只有10%的标签是已知的。其余90%的标签对于局部标签和完整图像标签场景是未知标签,对于有噪声标签场景是错误标签。与[48]类似,我们观察到性能根据标签的比例呈对数增长。从第一个实验中,我们可以得出以下结论:(1)在干净标签数量固定的情况下,我们观察到局部标签学习优于密集标注子集的学习。随着标签比例的降低,改进也随之增加。原因之一是采用部分标签策略训练的模型在训练过程中看到的图像更多,因此泛化性能更好。(2)学习一小部分干净的标签要比大量学习一些错误的标签要好。局部标签和完整标签方案都优于有噪标签方案。以MS COCO为例,我们观察到,只有20%的干净部分标签的学习,优于80%的干净部分标签和20%的错误标签的学习。

嘈杂的网络标签。另一种从多标签数据集产生噪声数据集的策略是每幅图像只使用一个正标签。

这是在从web[34]收集数据时做出的标准假设,也就是说,图像中出现的唯一类别就是查询的类别。

从干净的MS COCO数据集,我们生成一个噪声数据集(命名为noise +),每幅图像只保留一个正标签。如果图像有多个正标签,我们在正标签中随机选择一个正标签,并将其他正标签转换为负标签。表1报告了三种场景的结果:clean(所有训练标签都是已知的和clean的)、10%的部分标签和有噪声+场景。我们还显示了每个实验中干净和有噪声标签的百分比。噪声+方法产生了一小部分的噪声标签(2.4%),相对于干净的基线性能下降了约7pt。我们观察到,仅使用10%的干净标签训练的模型略优于使用有噪声标签训练的模型。实验表明,在大多数webli监督数据集中所作的标准假设对于复杂场景/多标签图像并不适用,因为它产生了噪声标签,大大降低了泛化。

7092e3ee9a47c7eb5d268d5ceab59d4b.png

4.2、部分标签学习

在本节中,我们比较了标准BCE和部分BCE,并分析了GNN的重要性。

BCE vs partial-BCE.

6fe747a2449ef78c60e8253069104de8.png

1964205880cc15904d4d7314ba4feecf.png

GNN。我们现在分析GNN的改进以了解类别之间的关系。我们将MS COCO的结果显示在图4中。我们观察到,对于每个标签比例,使用GNN可以提高性能。开放图像实验(表3)表明,即使在标签比例较小的情况下,GNN也能提高性能。

该实验表明,即使在部分标签的情况下,建立类别之间的相关性也是很重要的。然而,我们也注意到,卷积网络隐式地学习了类别之间的一些相关性,因为一些学习到的表征是所有类别所共有的。

b446ecec3015704d8a9864609fa1f76d.png

4.3、预测标签缺失的最佳策略是什么?

在本节中,我们将分析第3.3节中引入的标签策略来预测缺失的标签。在训练epoch 10和15之前,我们使用学习的分类器来预测一些缺失的标签。我们报告了在表2中10%标签的Pascal VOC 2007验证集上不同指标的结果。我们还报告了标签的最终比例,预测标签的真积极率(TP)和真消极率(TN)。其他结果见补充部分A.9小节。

首先,我们展示了两步策略的结果,该策略一次性预测了所有缺失的标签。总的来说,我们观察到这种策略比基于课程的策略差([ae])。特别地,2步策略减少地图分数。结果表明,一次性预测所有缺失标签会引入过多的标签噪声,降低泛化性能。在基于课程的策略中,我们观察到门槛策略[a]优于比例策略[b]。我们还注意到,使用模型集成[d]并不能显著提高单一模型的性能[a]。

c .只预测正面的标签是一个糟糕的策略。贝叶斯不确定性策略[e]是最佳策略。特别地,我们观察到GNN对于该策略是重要的,因为它减少了标签的不确定性,并允许模型对超参数的反差具有鲁棒性。

4.4、方法分析

在本节中,我们分析了部分bce的超参数,并对MS COCO进行了消融研究。

Partial-BCE分析。为了分析局部bce,我们只使用训练集。模型在大约78k的图像上进行训练,在剩余的5k图像上进行评估。首先分析了当标签比例为10%时,如何选择归一化函数的值,即g(0.1)(有可能选择另一个标签比例)。结果如图5所示。注意,对于g(0.1) = 1, partialBCE等同于BCE,并且损失按照类别的数量进行标准化。我们观察到,归一化值g(0.1) = 1会得到最坏的结果。归一化值在20左右得到最好的分数,但对于g(0.1)的性能相似[3,50]。使用较大的值会降低性能。实验表明,该归一化函数具有重要的鲁棒性。这些结果是独立于网络架构的(补充的A.7小节)。

在g(0.1) = 5和g(1) = 1的约束条件下,我们分析了超参数的影响。这个超参数控制与标签比例相关的规范化行为。对于较大的标签比例,使用高值(easy = 3)比使用低值(easy = 1)更好,但对于较小的标签比例,使用低值(easy = 1)更差。我们观察到,使用与已知标签的数量成比例的归一化方法(cal = 1)比使用与已知标签的数量成反比的归一化方法(cal =−1)效果更好。

烧蚀研究。最后,为了分析每个贡献的重要性,我们对MS COCO进行了标记比例为10%的消融研究,见表4。我们首先注意到微调是重要的。它验证了构建端到端可培训模型的重要性,以便在缺少标签的情况下进行学习。部分- bce损失函数提高了针对每个度量的性能,因为它在训练中利用了标签比例信息。我们展示了使用GNN或重新标号可以提高性能。特别的是,重新贴标阶段显著提高了0-1的精确比赛分数(+5pt)和Micro-F1分数(+2.5pt)。最后,我们注意到我们的贡献是互补的。

5、结论

本文提出了一种可扩展的部分标签多标签分类器端到端学习方法。我们的实验表明,我们的损失功能显著提高了性能。我们证明我们的课程学习模型使用贝叶斯不确定性是一个准确的策略标签缺失。在未来的工作中,一个可以结合几个共享类别的数据集学习更多的训练数据。

详细细节请参考原文:https://openaccess.thecvf.com/content_CVPR_2019/html/Durand_Learning_a_Deep_ConvNet_for_Multi-Label_Classification_With_Partial_Labels_CVPR_2019_paper.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值