面向跨模态匹配的噪声关联学习

本文提出了噪声关联矫正算法(NCR),用于解决跨模态匹配中的噪声关联问题。NCR利用神经网络的记忆效应,通过Co-divide和Co-rectify模块,识别并纠正不匹配的成对样本。实验表明,NCR在Flickr30K、MS-COCO和Conceptual Captions数据集上有效,无论是在真实噪声还是模拟噪声中,都表现出优越性能。
摘要由CSDN通过智能技术生成

e3ff656c077a161470804fdf2e1a916a.gif

©PaperWeekly 原创 · 作者 | 黄振宇

单位 | 四川大学博士生

研究方向 | 多模态学习

bfb5eb2f442f50f4d0853b50f32495e5.png

简介

跨模态匹配旨在建立两种不同模态之间的对应关系,是跨模态检索和视觉与语言理解等多种任务的基础。尽管近年来大量的跨模态匹配方法被提出并取得了显著进展,但几乎所有这些方法都隐含着一个假设:多模态训练数据是正确对齐或关联的。然而,在实践中满足这样的假设开销巨大,甚至不可能满足。

基于这一观察,我们在国际上率先揭示并研究了跨模态匹配中一个潜在的、具有挑战性的方向,即噪声关联学习,它可以被看作是噪声标签学习的一个新范式。与现有噪声标签不同的是,我们的噪声关联指的是不匹配的成对样本而非错误类别标注的单一数据。

针对上述问题,我们提出了一种新的学习方法,名为 “噪声关联矫正算法”(Noisy Correspondence Rectifier,NCR)。简单来说,NCR 根据神经网络的记忆效应将数据分为干净和噪声部分,然后通过一个自适应预测模型以 co-teaching 的方式纠正噪声关联。为验证我们方法的有效性,我们以图像-文本匹配为例进行了实验。在 Flickr30K、MS-COCO 和 Conceptual Captions 上进行的大量实验验证了我们方法的有效性。

7cb1295e4b7ba1ee62920ce834037e27.png

方法

20bd9914385986c4dd40702bfe2246a9.png

▲ 模型概览图

为解决跨模态匹配中的噪声关联问题,我们提出了一种新的方法,即噪声关联矫正算法(NCR)。我们的方法利用了 [2] 观察到的神经网络记忆效应(Memorization Effect),即神经网络首先倾向于在拟合噪声样本之前学习数据中简单的数据样本。在这一经验观察的启发下,NCR 构造一个 Co-divide 模块,其基于数据的损失差异将数据分为两个相对准确的数据分区,即“噪声”和“干净”子集。

具体的,我们首先计算每个样本的损失函数值:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值