论文笔记 ||《Robust Contrastive Learning against Noisy Views》

《Robust Contrastive Learning against Noisy Views》

论文链接:Robust Contrastive Learning against Noisy Views

1 动机

对比学习依赖于假设:即正样本包含相关的视图,共享一个实例的某些基本信息,例如图像的图块或视频的共同多模式信号。但如果这个假设被打破会怎样?文献表明在存噪声视图的情况下,例如没有明显共享信息的假正对(false positive pairs),对比学习会产生次优的表示。
在本文中,作者提出了一种新的对噪声视图具有鲁棒性对比损失函数。通过将InfoNCE与噪声二分类的对称性损失相联系,建立了基于Wasserstein距离度量的互信息最大化的新对比界限,并提供了严格的理论证明。所提出的损失函数完全与模态无关,是InfoNCE损失的简单替代品,易于应用于现有的对比框架。作者在各种真实世界噪声模式的图像、视频和图对比学习基准上持续改进,获得了sota性能。

2 背景及贡献

对比学习是自监督学习中最常用的方法,而设计正确的对比视图是对比学习方法核心,其常常需要领域知识、直觉以及不断尝试。然而如果错误的选择(构造)视图,不提供有意义的共享信息情况下将会产生什么后果呢?

在本文中作者认为,上述过程产生的噪声视图在对比学习的各应用场景中会造成严重的后果。此外噪声视图问题核心在于:即使这些噪声视图之间不存在有意义的共享信息,它们仍然要被迫对齐。

现有的工作针对noise view设计niose-tolerant(噪声容忍)方法。然而这些方法大多针对特定的数据类型,所做的假设可能不适用一般场景。

在这项工作中作者提出了一种满足对称条件的对比损失函数:Robust InfoNCE,在其所提出的损失函数中Wassertein distance作为互信息的下界。

创新点:

  • 作者设计了一种新的对比损失函数Robust InfoNCE,主要用于against 数据中的noise view。
  • 作者进行了理论分析,将提出的损失函数与对称损失和依赖性测量联系起来。
  • 作者在多种类型的数据上进行了验证。

3 技术方法

3.1 Symmetric Losses for Noise Lable

作者首先说明了对称损失函数在二分类中对noisy labels具有鲁棒性。假设存在一个数据分布 D \mathcal D D S = { x i , y i } i = 1 m \mathcal S=\{x_i,y_i\}^m_{i=1} S={xi,yi}i=1m表示从分布 D \mathcal D D中抽取的未观测到的干净数据,而 S η = { x i , y ^ i } \mathcal S_{\eta} =\{x_i,\hat y_i\} Sη={xi,y^i}中, y ^ i \hat y_i y^i为正确标签 y i y_i yi的概率为 η \eta η。对于一个分类器 f ∈ F : X → R f \in \mathcal F: \mathcal X\to \mathbb{R} fF:XR,在无噪声的场景下期望风险为: R l ( f ) = E D [ l ( f ( x ) , y ) ] R_{\mathcal l}(f) = \mathbb E_{\mathcal D}[\mathcal {l}(f(x),y)] Rl(f)=ED[l(f(x),y)],其中 l l l是二分类损失函数。当存在噪声时,优化的目标函数为:
R l η = E D η [ l ( f ( x ) , y ^ ) ] ( 1 ) R^{\eta}_{l}=\mathbb{E}_{D_{\eta}}[l(f(x),\hat y)] \quad(1) Rlη=EDη[l(f(x),y^)](1)
现有的工作证明对称损失函数在二分类任务中对于noise label具有鲁棒性。若损失函数之和为常数,则该损失函数满足对称性:
l ( s , 1 ) + ( s , − 1 ) = c , ∀ s ∈ R ( 2 ) \mathcal l(s,1) + \mathcal (s,-1) = c, \quad \forall s \in \mathbb{R} \quad(2) l(s,1)+(s,1)=c,sR(2)
s s s是函数 f f f的预测分数。作者指出对称条件不仅在主要变量上成立,还应在它们相对于某个变量(用 ‘s’ 表示)的梯度上成立。

3.2 Towards Symmetric Contrastive Objectives

上述的结果表明:如果对比学习目标在二分类框架下,能够表达为满足对称条件的形式,可实现对于噪声视图的鲁棒性。因此作者首先将对比学习同二分类联系起来,最后将其表达为二分类的形式。

Contrastive learning as binary classification
给定两个视图X和V, ( x , v ) (x,v) (x,v)是从联合分布中采样而来则标记为1,即: ( x , u ) ∼ P X Y (x,u)\sim P_{XY} (x,u)PXY。若 ( x , u ) (x,u) (x,u)来自边缘乘积则标记为-1,即 ( x , v ′ ) ∼ P X P Y (x,v') \sim P_XP_Y (x,v)PXPY。在数据中存在nosie view的情况下,负样本对 ( x , v ′ ) (x,v') (x,v)可能会被错误的标记为正样本,从而引入nosie label。
InfoNCE是最常用的对比损失函数,其形式如下:
L I n f o N C E ( s ) = − l o g e s + e s + ∑ i = 1 k e s i − ( 3 ) \mathcal L_{InfoNCE}(s)=-{\rm{log}}\frac{e^{s^+}}{e^s+\sum^k_{i=1}e^{s^-_i}} \quad(3) LInfoNCE(s)=loges+i=1kesies+(3)
上述公式中 s + s^+ s+ s − s^- s分别表示正样本对和负样本的得分。上述(3)中损失函数的期望是基于正样本对 ( x , y ) ∼ P X V (x,y) \sim P_{XV} (x,y)PXV和K个从 v i ∼ P V v_i \sim P_V viPV中采样得到的独立样本上进行的。虽然InfoNCE形式上看起来是(K+1)个softmax 交叉熵损失,但其最终目的是通过最大化/最小化正样本得分 s + s^+ s+/负样本得分 s − s^- s来分类样本对 ( x , v ) (x,v) (x,v),是正样本还是负样本对。因此,在存在噪声视图的情况下,InfoNCE可以被视为带噪声标签的二分类任务。

Symmetric form of contrastive learning
假设存在一个噪声容忍函数 l l l满足公式(2)中的对称条件,则当对比学习损失函数满足下式时称其具有对称性:
L ( s ) = l ( s + , 1 ) ⏟ P o s t i t i v e P a i r + λ ∑ i = 1 k l ( s − , − 1 ) ( 4 ) \mathcal L(\mathbf s) =\underbrace{ l(s^+,1)}_{Postitive Pair}+\lambda \sum\limits_{i=1}^k l(s^-,-1) \quad(4) L(s)=PostitivePair l(s+,1)+λi=1kl(s,1)(4)
λ \lambda λ是权重参数。文献[1]给对比损失函数满足对称性情况下,对噪声视图具有较强的鲁棒性提供了理论支持。同时作者指出InfoNCE不满足对 s + / s − s^+/s^- s+/s梯度中的对称条件。因此基于此作者提出了满足对称条件的对比损失函数。

4 Robust InfoNEC Loss

文中所提出RINCE形式如下:
L R I N C E λ , q ( s ) = − e q ⋅ s + q + λ ⋅ ( e s + + ∑ i = 1 K e s i − ) q q ( 5 ) \mathcal L^{\lambda,q}_{RINCE}(\mathbf{s}) = \frac{-e^{q\cdot s^+}}{q}+\frac{\lambda \cdot(e^{s^+}+\sum^K_{i=1}e^{s^-_i})^q}{q} \quad (5) LRINCEλ,q(s)=qeqs++qλ(es++i=1Kesi)q(5)
其中 q , λ ∈ ( 0 , 1 ] q,\lambda \in (0,1] q,λ(0,1]

给定损失函数 l ( s , y ) = − y e s l(s,y)=-ye^s l(s,y)=yes,当 q=1时,RINCE完全满足(3)中的对称性,即:
L R I N C E λ , q ( s ) = − ( 1 − λ ) e s + + λ ∑ i = 1 K e s − \mathcal L^{\lambda,q}_{RINCE}(\mathbf{s}) = -(1-\lambda)e^{s^+}+\lambda\sum \limits_{i=1}^{K}e^{s^-} LRINCEλ,q(s)=(1λ)es++λi=1Kes
值得注意的是给定损失函数 l ( x , y ) = − y e s l(x,y)=-ye^s l(x,y)=yes满足(2)式中的对称性,此时 c = 0 c=0 c=0。文中q值的变化对RINCE影响有如下结论:
1)当q趋于1时,RINCE对噪声视图具有鲁棒性。
2)当q趋于0时,RINCE逐渐趋近于InfoNCE。
说明当 q → 0 q \to 0 q0时:
lim ⁡ q → 0 L R I N C E λ , q ( s ) = L I n f o N C E + l o g λ ; lim ⁡ q → 0 ∂ ∂ s L R I N C E λ , q ( s ) = ∂ ∂ s L I n f o N C E ( s ) {\lim_{q \to 0}}\mathcal L^{\lambda,q}_{RINCE}(\mathbf{s}) = \mathcal L_{InfoNCE}+{\rm log}\lambda;\\{\lim_{q \to 0}}\frac{\partial}{\partial \mathbf{s}}\mathcal L^{\lambda,q}_{RINCE}(\mathbf{s}) = \frac{\partial}{\partial \mathbf{s}}\mathcal L_{InfoNCE}(\mathbf{s}) q0limLRINCEλ,q(s)=LInfoNCE+logλ;q0limsLRINCEλ,q(s)=sLInfoNCE(s)
上述收敛性也适用于导数,在q趋于0的极限情况下,对RINCE的优化在数学上等同于优化InfoNCE。

4.1 Intuition behind RINCE

本节中,作者通过探究不同q值下RINCE梯度变化,来展示RINCE对易/难样本的挖掘程度,其可视化如下图所示。通过实验可知使用较大的q值可以实现更强的鲁棒性。
在这里插入图片描述
从上图(a)可以得出结论当正样本得分越大,负样本得分越小,损失越小。图(b)中展示了梯度的变化,当 q → 0 q \to 0 q0时InfoNCE更加强调难正样本(hard-positive),即具有正分数的 s + s^+ s+的样本对。相对于的 q → 1 q \to 1 q1时完全对称RINCE强调于易正样本对(easy-positive)。在实际的应用中, q ∈ [ 0.1 , 0.5 ] q \in [0.1,0.5] q[0.1,0.5]用于balance健壮性与收敛性。

4.2 Theoretical Underpinnings

本节中作者提供证明了为什么RINCE对噪声视图具有健壮性。其核心在RINCE中使用Wasserstein dependency measure作为互信息的下界,与比Kullback-Leibler(KL)散度相比,由于其Wassertein距离的强集合特性,使得WDM在抗样本噪声方面具有更强的鲁棒性。

4.2.1 KL散度在互信息中的局限性

众所周知InfoNCE在表征空间中是互信息的变体下界,以KL散度来表示:
− E [ L I n f o N C E ( ( s ) ) ] + l o g ( K ) ≤ I ( ϕ ( X ) , ϕ ( V ) ) = D K L ( P X Y ϕ , P X ϕ P V ϕ ) -\mathbb{E}[\mathcal L_{InfoNCE}(\mathbf(s))]+{\rm log}(K) \le I(\phi(X),\phi(V)) \\ =D_{KL}(P^{\phi}_{XY},P^{\phi}_XP^{\phi}_V) E[LInfoNCE((s))]+log(K)I(ϕ(X),ϕ(V))=DKL(PXYϕ,PXϕPVϕ)
直观上说,最大化互信息可以被解释为最大化正样本对于负样本对之间的差异。而现有的工作表明使用KL散度来最大化互信息存在局限性,即:KL散度不是一个度量标准,它对数据样本的微小差异非常敏感,不论基础数据分布的几何形状如何。因此编码器 ϕ \phi ϕ只需要从共享的X和Y中捕捉一些信息便可以最大化KL散度。

4.2.2 RINCE is a lower-bound of WDM

WDM基于Wasserstein距离,这是一种通过最优传输成本定义的概率分布之间的距离度量标准,即:讲一个分布P转换为分布Q所需要的最小代价。假设μ和ν是两个概率测度(probability measures),定义带有欧几里德成本函数的Wasserstein-1距离如下:
在这里插入图片描述
其中 ∏ ( μ , v ) \prod(\mu,v) (μ,v)表示边缘分别为 μ \mu μ v v v的测试耦合集。当q=1时根据对偶性可得:
− E [ L R λ , q = 1 N C E ( s ) ] ≤ L ⋅ I W ( ϕ ( X ) , ϕ ( Y ) ) : = L ⋅ W ( P X V ϕ , P V ϕ P Y ϕ ) -\mathbb E[ \mathcal L^{\lambda,q=1}_RNCE(s)]\le L\cdot I_{\mathcal W}(\phi(X),\phi(Y))\\ := L \cdot \mathcal W(P^{\phi}_{XV},P^{\phi}_VP^{\phi}_Y) E[LRλ,q=1NCE(s)]LIW(ϕ(X),ϕ(Y)):=LW(PXVϕ,PVϕPYϕ)
上述方法为RINCE具有对noise view有鲁棒性提供了另一个的解释。与最大化KL散度的InfoNCE不同,优化RINCE等价于最大化带有Lipschitz函数的WDM(Wasserstein Dependency Measure)。搭配合适的度量标准,这允许RINCE测量两个分布P(XV)和P(XP|V)之间的差异,而不会对个别样本的噪声过于敏感,只要这些噪声不改变分布的几何特性。这也使编码器 ϕ \phi ϕ能够学习更完整的表示,因为最大化Wasserstein距离要求编码器不仅要建模两个分布之间的密度比,还要建模将一个分布运输到另一个分布的最优成本。

5 实验

详情请参考论文
在这里插入图片描述

6 结论

本文作者提出对比学习里出现noise view时会造成次优的表证,提出设计了新的Robust InfoNCE,以提高模型对noise view的鲁棒性,其核心是用Wassertein Dependency Measure来作为互信息的对比下界,并提供了相应的理分析,证明了WDM对noise view的鲁棒性。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
【优质项目推荐】 1、项目代码均经过严格本地测试,运行OK,确保功能稳定后才上传平台。可放心下载并立即投入使用,若遇到任何使用问题,随时欢迎私信反馈与沟通,博主会第一时间回复。 2、项目适用于计算机相关专业(如计科、信息安全、数据科学、人工智能、通信、物联网、自动化、电子信息等)的在校学生、专业教师,或企业员工,小白入门等都适用。 3、该项目不仅具有很高的学习借鉴价值,对于初学者来说,也是入门进阶的绝佳选择;当然也可以直接用于 毕设、课设、期末大作业或项目初期立项演示等。 3、开放创新:如果您有一定基础,且热爱探索钻研,可以在此代码基础上二次开发,进行修改、扩展,创造出属于自己的独特应用。 欢迎下载使用优质资源!欢迎借鉴使用,并欢迎学习交流,共同探索编程的无穷魅力! 基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip 基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip 基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip
提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值