©PaperWeekly 原创 · 作者 | 黄振宇
单位 | 四川大学博士生
研究方向 | 多模态学习
简介
跨模态匹配旨在建立两种不同模态之间的对应关系,是跨模态检索和视觉与语言理解等多种任务的基础。尽管近年来大量的跨模态匹配方法被提出并取得了显著进展,但几乎所有这些方法都隐含着一个假设:多模态训练数据是正确对齐或关联的。然而,在实践中满足这样的假设开销巨大,甚至不可能满足。
基于这一观察,我们在国际上率先揭示并研究了跨模态匹配中一个潜在的、具有挑战性的方向,即噪声关联学习,它可以被看作是噪声标签学习的一个新范式。与现有噪声标签不同的是,我们的噪声关联指的是不匹配的成对样本而非错误类别标注的单一数据。
针对上述问题,我们提出了一种新的学习方法,名为 “噪声关联矫正算法”(Noisy Correspondence Rectifier,NCR)。简单来说,NCR 根据神经网络的记忆效应将数据分为干净和噪声部分,然后通过一个自适应预测模型以 co-teaching 的方式纠正噪声关联。为验证我们方法的有效性,我们以图像-文本匹配为例进行了实验。在 Flickr30K、MS-COCO 和 Conceptual Captions 上进行的大量实验验证了我们方法的有效性。
方法
▲ 模型概览图
为解决跨模态匹配中的噪声关联问题,我们提出了一种新的方法,即噪声关联矫正算法(NCR)。我们的方法利用了 [2] 观察到的神经网络记忆效应(Memorization Effect),即神经网络首先倾向于在拟合噪声样本之前学习数据中简单的数据样本。在这一经验观察的启发下,NCR 构造一个 Co-divide 模块,其基于数据的损失差异将数据分为两个相对准确的数据分区,即“噪声”和“干净”子集。
具体的,我们首先计算每个样本的损失函数值: