【CVPR2019】弱监督图像分类建模

编者按:获取大规模数据集的高置信标注是一个难点问题,而解决此问题的弱监督学习更贴近人类对世界的认知机制。已有的弱监督图像分类研究,通常局限于单标签或者多标签噪声场景。本文中,将为大家介绍中科院计算所VIPL组的CVPR2019新作:作者提出了一种基于噪声正则化的弱监督图像分类方法,通过结合使用大量噪声标注数据和少量干净标注数据(比如5%),提升图像分类效果的同时,在多标签和单标签场景中取得了更好的泛化能力。

1.引言

在计算机视觉领域,目前主流的图像分类方法仍然是基于完备标注数据的有监督学习,然而,在实际场景中,完全而精确的图像标签往往难以获得。例如,由于知识水平的差异不同的人可能对同一类图像有不同理解,从而给出不一致的标签。此外,为了降低标注成本,可以利用预训练模型对采集的大规模数据进行自动标注,但往往会得到大量不准确的标签,仅仅其中的一小部分数据可以得到人工验证。然而,传统的有监督学习方法很难处理这类带有噪声标签的数据。

现有的弱监督图像分类方法通常对于噪声标签类型有特定的假设,如单标签噪声或者多标签噪声。单标签噪声假设的分类方法,可以在训练过程中对于相似的图像进行聚类,而多标签噪声假设的分类方法,可以使用标签与标签之间的联系来增加算法的鲁棒性。尽管这些方法有助于提升模型的性能,但是在一定程度上限制了模型的泛化能力。

为此,在这个工作中,我们关注于提升模型的泛化能力,期待模型可以同时应用于单标签数据和多标签数据。我们观察到尽管现有的方法使用不同的假设辅助分类器学习,核心思想依然在于区分大量噪声标签中的可信与不可信的信息。如图1所示,一些使用标签与标签或者图像与标签之间关联的方法,会利用这些关系的正相关或者负相关强度来决定标签中的可用信息。

图表1  利用标签-标签关系和图像-标签关系的噪声学习方法

因此,我们提出了一种弱监督图像分类的方法,结合使用大量噪声标注数据和少量干净标注数据,通过两个子网络分别学习噪声标签中的可信与不可信的部分,减少了不可信的信息对模型的影响。我们的方法可以同时应用于单标签和多标签数据,并且不依赖于成对的干净-噪声标注数据。我们在两个多标签数据集(OpenImage和MS COCO2014)和一个单标签数据集(Clothing1M)评估了该方法。实验结果表明,该方法优于现有的最好方法,并在单标签和多标签噪声假设的场景下有很好的泛化能力。

2.方法

图表 2 方法网络结构示意图

2.1问题定义

我们的目标是结合利用大量的噪声标注数据 D_n 和少量的干净标注数据 D_c 得到一个鲁棒的图像分类模型。在现实场景中,我们可以假设噪声标注数据的数量 N_n 远大于干净标注数据的数量 N_c。

如图所示,我们以多任务学习的方式进行弱监督图像分类,同时训练两个分类器g和h分别拟合干净集合中的干净标签和噪声集合中的噪声标签。主干网络CNN(Backbone CNN)用于学习共享特征。净化网络(clean net)用于学习从特征空间到干净标签空间的映射,残差网络(residual net)用于学习从特征空间到标签残差(干净标签和噪声标签之间)的映射。

  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值