Learning Cross-Modal Retrieval with Noisy Labels--文献笔记和翻译

最新推荐文章于 2024-07-24 10:53:21 发布

MT_Joy

最新推荐文章于 2024-07-24 10:53:21 发布

阅读量1k

点赞数 3

分类专栏：多模态or跨模态——文献笔记文章标签：深度学习计算机视觉机器学习神经网络

本文链接：https://blog.csdn.net/qq_42014059/article/details/121761699

版权

多模态or跨模态——文献笔记专栏收录该内容

22 篇文章 28 订阅

订阅专栏

CVPR(2021)

摘要

最近，在深度多模态学习的帮助下，跨模态检索正在兴起。然而，即使对于单模态数据，收集大规模标注良好的数据也是昂贵且耗时的，更不用说来自多种模态的额外挑战。虽然众包注释，例如亚马逊的 Mechanical Turk，可以用来降低标签成本，但导致非专家注释在标签中不可避免地产生噪音。为了应对这一挑战，本文提出了一种通用的多模态鲁棒学习框架 (MRL)，用于使用多模态噪声标签进行学习，以减轻噪声样本并同时关联不同的模态。具体来说，我们提出了一种鲁棒聚类损失（RC），使深度网络专注于干净的样本而不是嘈杂的样本。此外，提出了一种简单而有效的多模态损失函数，称为多模态对比损失（MC），以最大化不同模态之间的互信息，从而减轻噪声样本的干扰和跨模态差异。在四个广泛使用的多模式数据集上进行了广泛的实验，通过与 14 种最先进的方法进行比较来证明所提出方法的有效性。

1、介绍

随着多媒体数据的快速增长，跨模态检索成为多模态学习社区中一个引人注目的话题，因为它可以灵活地检索跨不同模态的语义相关样本，例如图像查询文本 [6,16 ]。然而，大多数现有方法需要干净注释的训练数据，这是昂贵且耗时的。尽管一些无监督的多模态学习方法可以减轻这种标记压力，但它们的性能通常比有监督的同类方法要差得多 [60]。为了平衡性能和标记成本，提出了半监督多模态学习方法来同时利用标记和未标记数据来学习常见的判别表示 [61,17]。然而，半监督方法仍然需要一定数量的干净注释数据才能达到合理的性能。

为了减轻高标签成本，一些非专家来源，例如亚马逊的 Mechanical Turk 和收集数据的周围标签，可用于注释大规模数据，但会导致标签中不可避免的噪音 [48]。最近的一些单峰研究表明，DNNs 很容易过度拟合嘈杂的标签，导致泛化性能不佳 [59,28]。用嘈杂的标签学习是很有挑战性的。为了应对这一挑战，进行了大量研究以探索如何使用噪声标签进行稳健学习，例如校正方法 [49,9]、MentorNet [19,58] 和 Co-teaching [10]。尽管它们在单模态场景中取得了有希望的性能，但它们无法同时处理多种模态，例如现实世界的多媒体数据。因此，探索如何从带有噪声标签的多模态数据中学习令人满意的表示具有重要意义和价值，但这在以前的工作中很少涉及.

我们在噪声标签下对最近的跨模态学习方法进行了实证研究，结果如图 2 所示。从图中可以看出，网络将在多模态学习中使用广泛使用的损失函数交叉熵 [50,53] 快速过拟合到嘈杂的训练集。此外，不同的模态在验证集中存在很大的多样性，因为它们可能位于具有异质性的完全不同的空间中，这使得从嘈杂的样本中学习变得更加困难。最后，嘈杂的标签可能会混淆不同模式之间的区别连接，导致难以弥合异质差距。因此，同时考虑噪声标签和跨模态差异更具挑战性和复杂性。

图 1：所提出的方法形式模态的管道，例如带有噪声标签 Y1 的图像 X1 和带有噪声标签 Ym 的文本 Xm。特定于模态的网络学习 m 种不同模态的通用表示。采用 Robust Clustering loss Lr 来减轻标签中的噪声以进行学习辨别并缩小异构差距。网络的输出通过使用实例级和对级对比来学习公共表示，即多模态对比学习 (Lc)，从而进一步减轻噪声标签和跨模态差异。 Lc 试图最大限度地分散模态间样本，同时在公共单位球体/空间上压缩模内点。

为了解决上述问题，我们提出了一种多模态鲁棒学习框架（MRL），以同时减轻噪声样本的影响并缩小本文中的异构差距。所提出方法的流程如图 1 所示，其中我们的方法由多个特定于模态的网络和两个新的损失组成：稳健聚类 (RC) 和多模态对比 (MC) 损失。具体来说，我们提出了一种新的通用聚类损失，以减轻传统分类损失函数（例如，交叉熵）对具有通用分类器的噪声标签的过度拟合。从之前的研究 [2,10,3] 来看，干净的样本比嘈杂/不正确的样本更容易学习，并且导致干净样本的学习更快和损失更低。

图 2：在 0.6 对称噪声下在 INRIA-Websearch [23] 上使用交叉熵损失 (CE) [53] 进行训练。 (a) 准确度vs。分别在 INRIA-Websearch 的训练集上进行图像模态和文本模态的训练。 (b) 准确度/MAPvs。 INRIA-Websearch 验证集上的时代。利用准确度来评估单个模态的分类性能。采用平均平均精度 (MAP) 来评估跨不同模态的检索性能，即图像查询文本 (Image→Text) 和文本查询图像 (Text→Image) . 从图中可以看出，noisylabels 会使多模态学习在嘈杂的训练集上过拟合，同时破坏验证集上的性能。

这种类似的现象可以在图 2 中观察到，其中网络可以更快地学习干净的样本并达到一定的准确性，但在进一步训练后由于噪声样本的干扰而降低了性能。为了将深度网络的注意力从嘈杂的样本转移到干净的样本上，我们的 RC 自动削弱了更可能由噪声样本产生的较小损失的影响，以减轻噪声标签的干扰，从而拥抱更多稳健性。除了减轻噪声样本外，RC 还可以通过将不同的模态投影到一个共同的聚类空间来缩小异构差距。此外，受最近单模态对比学习工作的启发 [54,4]，我们提出了一个简单而有效的多模态损失函数，称为多模态对比损失 (MC)，以同时最大化模态内和模态间的实例间和对间方差。与之前的对比学习方法不同，我们的 MC 最大化了内在共发生模态之间的互信息，这可以进一步缩小不同模态之间的异质差距，同时从实例级对比中挖掘区分。因此，我们的 MC 可以通过以无监督的方式对比它们的模间和模内对应物来进一步减轻噪声样本的干扰。

我觉得主要创新和贡献概述如下

1.提出了一种带有噪声标签的跨模态重新检索的新框架。它可以通过使用有监督和无监督的方式从嘈杂的标签中稳健地学习常见的判别表示

2.提出了一种鲁棒聚类损失（RC），它提高了鲁棒性并同时缩小了噪声样本的跨模态差距

3.提出了一种新的多模态对比损失，以通过考虑模态间和模态内的相似性来最大化实例间方差，同时最小化实例内方差

4.在四个广泛使用的多模态数据集上进行了广泛的实验，以证明所提出的方法对噪声标签的鲁棒性能

2、相关工作

本节简要回顾了一些最相关的工作，关于学习与噪音标签和多模式学习方法。

2.1. 在嘈杂的标签下学习

为了从嘈杂的标签中学习，提出了许多方法来减轻标签中的噪声以学习目标信息。一个典型的方向是通过纠正错误的标签或损失函数来提高学习质量，称为纠正方法 [30,49,9]。然而，这些方法总是需要额外的基础知识来支持他们的学习方案，这在现实世界的应用中通常不可用且成本高昂 [32,48]。为了避免错误更正，许多工作试图精心设计自适应训练策略以选择真实标记的样本进行自动学习，从而对噪声标签具有鲁棒性，例如 MentorNet [19,58] 和 Co-teaching [10]。此外，一些方法试图将噪声数据分为标记数据和未标记数据，同时利用半监督范式从获得的标记和未标记数据中迭代学习 [56,35,28]。由于其强大的学习能力，元学习已成功应用于提高神经网络对噪声样本的鲁棒性 [42,29,46]。上述方法要么依赖于需要仔细调整和设计的复杂自适应训练过程，要么对超参数敏感，这将花费大量时间进行调整 [32]。不同的是，另一个方向是设计鲁棒的损失函数，使优化方案对噪声样本具有鲁棒性 [8,52,32]。然而，大多数噪声标签的现有技术都是专门为单峰场景设计的，将它们扩展到多峰场景具有挑战性。

2.2 多模态学习

多模态学习方法的目标是将多种模态投射到一个公共空间中，其中跨模态下游任务可以在学习到的常见表征上进行，例如跨模态检索 [45,16]。一种典型的技术是最大化跨不同模态的跨模态相关性 [12,26,38,63,18]。为了利用类标签中的语义信息，提出了一些监督多模态方法来利用判别学习公共判别空间。具体来说，将判别标准引入多模态学习以最大化类内相似度，同时最小化之间的相似度。类相似度 [21,13,27,14]。或者，直接采用公共分类器来强制神经网络学习公共判别空间 [53,62,16,55,15]。为了减轻对标签的过度依赖，提出了一些多模态半监督范式来利用标记和未标记同时学习公共表示 [61,17,57]。此外，为了清除标签中的噪音，Mandal 等人。采用两步预处理方法获得清洁标签并提供给跨模态方法[33]。然而，直接从嘈杂的标签中学习常见的区分要困难得多，这在以前的研究中很少涉及。

3.方法与建议

为了清楚地表述，我们首先给出论文中符号的一些定义。粗体大写字母（例如，X）和粗体小写字母（例如，x）分别代表矩阵和列向量。给出一个带有噪声标签的 K 类多模态数据集作为 D={Mi}mi=1，其中 Mi={(xij, yij)}Nj=1 是第 i 个模态，xij⊂Rdi 是来自第 i 个模态的第 j 个样本 ,yij∈{1,2,···,K}是xij的标签（可能不正确）。为了表述方便，D可以看作是一个minibatch的Ninstances，在下面的部分中，每个Ninstances都拥有来自不同模态的smsamples。请注意，尽管不同的模态通常同时出现以描述具有成对属性的相同对象或实例，但不同模态的噪声标签可能不会配对，例如，图像模态有不同的注释器和单独的文本模式。

3.2. 多模态鲁棒学习

跨模态检索的目标是在公共表示空间 Z 中检索跨不同模态的相关样本。为了将不同的模态投影到 Z 中，现有方法试图学习特定于模态的函数{fi:Xi7→ Z}mi=1 形式的模态，其中 fi 可以是一个 DNN，参数为 Θi 用于第 i 个模态。给定一个数据点xij，常见的归一化表示zij可以计算为。

其中Li是公共空间的维度。为了学习带有噪声标签的映射函数{fi(·,Θi)}mi=1，我们提出了一个由鲁棒聚类损失和跨模态相关损失组成的通用框架。提出了一种新的鲁棒聚类损失，称为鲁棒聚类损失 (RC)Lr，旨在从嘈杂的标签中稳健地提取不同模态之间共享的共同判别。具体来说，它可以同时缓解跨模态差异和噪声样本。为了进一步缩小异构差距，我们提出了一种新的跨模态相关损失，称为多模态对比损失（MC）Lc，以挖掘实例级和对级区分，以提高跨模态检索的性能。以下部分将详细阐述上述损失函数。

3.2.1鲁棒聚类分配

为了从噪声标签中得到数据的区别，首先对数据进行聚类，减轻噪声带来的影响。设为聚类的个数，那么样本属于第 [公式] 个聚类的概率可以由下式得出

其中 T 是温度参数，它是一个超参数，其设置并不直接影响模型最后的结果，而是影响loss的大小从而影响网络更新的步长。可以将它理解为一种学习率参数。是上面定义的公共空间中得到数据特征，则是正则化后的第k个聚类的中心。最大化上述概率的联合分布，就可以使得具有相同语义的不同模态数据汇聚到同一个聚类中。这个步骤等价于直接最小化交叉熵损失函数

这里的 q(k| $Xi_j{}^{}$ ) 表示ground-truth的概率分布，这里采用one-hot编码，也就是仅有正确的分类编码才为1，其他都为0。
对于输入样本 ${_x{i}}^{}j$ 和其ground truth ,为了便于看出曲线规律，3式可以重写为

图 3：标准交叉熵标准 (CE) 与建议的稳健聚类损失 (RC) 之间的比较。提议的 RC 是为了减少通常带有嘈杂/不正确标签的硬样本的 CE 相对损失 [2,10,3]。因此，我们的 RC 可以更加关注干净的样本而不是嘈杂的样本，并减轻噪声干扰。

MC缩小不同模态之间的异质性差距，同时挖掘明显的差异。MC loss利用了自监督学习中对比学习的概念。首先 $Xi_j{}^{}$ 把定义属于第 [公式] 模态的第个样本的概率如下

通过 $L_c{}$ 就可以使得同一实例的不同模态特征。由于输入是多个模态的组合，这样就可以使得同一实例的不同模态样本靠近（考虑 [公式] ），不同实例的样本相互远离(考虑 )。7式等同于最大化

3. 实验
- 3.1 实验结果
  - 为了评估，作者在四个广泛使用的多模态数据集上进行了广泛的比较实验，Wikipedia INRIA-Websearch , NUS-WIDE 和 XMediaNet。错误率分别设置为0.2，0.4，0.6，0.8进行实验。

从实验结果可以看出如下结论

一些现有的多模态方法(例如，GMA、SDML、DSCMR和SMLN)对噪声标签具有一定的抗干扰能力，因为它们的监督和非监督组件像我们的MRL，因此表明该框架对噪声标签具有更强的鲁棒性。
噪声标签显著影响有监督多模态方法的性能。随着标签中噪声率的增加，它们的准确度将快速下降。相反，无监督方法没有这样的问题。
大多数有监督的多模态方法在较低的噪声率上优于无监督的方法，这表明即使包含噪声标签，有标签的数据对于跨模态检索也是重要的。还可以获得另一个相关的结论，即标签越纯，获得的性能越好。

- 3.3 参数分析
  - $\beta$ 参数在验证集上的表现如图所示，这时的噪声率是0.6
  3.4 稳定性分析
- 为了分析稳定性，作者分析了训练过程中验证集随epoch数变化的准确率，这里的噪声率是0.6。

5. 结论
在本文中，我们提出了一种新颖的鲁棒多模态框架，用于从嘈杂的标签中学习，称为多模态鲁棒学习 (MRL)，将不同的模态投射到潜在的公共空间中。我们的 MRL 由多个特定于模态的网络、多模态鲁棒聚类 lossLr 和多模态对比 lossLc 组成。鲁棒聚类 lossLraims 可减轻噪声标签的干扰和跨模态差异。多模态对比 lossLcis 进行以缩小不同模态之间的异质差距，同时消除明显的歧视。在四个广泛使用的数据集上进行了综合实验。实验结果证明了所提出方法的有效性。具体来说，我们的 MRL 在噪声设置方面优于 14 种最先进的多模态方法。同时，我们发现现有的跨模态检索方法容易受到噪声标签的影响。

MT_Joy

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Learning Cross-Modal Retrieval with Noisy Labels--文献笔记和翻译

CVPR(2021)摘要最近，在深度多模态学习的帮助下，跨模态检索正在兴起。然而，即使对于单模态数据，收集大规模标注良好的数据也是昂贵且耗时的，更不用说来自多种模态的额外挑战。虽然众包注释，例如亚马逊的 Mechanical Turk，可以用来降低标签成本，但导致非专家注释在标签中不可避免地产生噪音。为了应对这一挑战，本文提出了一种通用的多模态鲁棒学习框架 (MRL)，用于使用多模态噪声标签进行学习，以减轻噪声样本并同时关联不同的模态。具体来说，我们提出了一种鲁棒聚类损失（RC...
复制链接

扫一扫

专栏目录