《Robust Contrastive Learning against Noisy Views》
论文链接:Robust Contrastive Learning against Noisy Views
1 动机
对比学习依赖于假设:即正样本包含相关的视图,共享一个实例的某些基本信息,例如图像的图块或视频的共同多模式信号。但如果这个假设被打破会怎样?文献表明在存噪声视图的情况下,例如没有明显共享信息的假正对(false positive pairs),对比学习会产生次优的表示。
在本文中,作者提出了一种新的对噪声视图具有鲁棒性对比损失函数。通过将InfoNCE与噪声二分类的对称性损失相联系,建立了基于Wasserstein距离度量的互信息最大化的新对比界限,并提供了严格的理论证明。所提出的损失函数完全与模态无关,是InfoNCE损失的简单替代品,易于应用于现有的对比框架。作者在各种真实世界噪声模式的图像、视频和图对比学习基准上持续改进,获得了sota性能。
2 背景及贡献
对比学习是自监督学习中最常用的方法,而设计正确的对比视图是对比学习方法核心,其常常需要领域知识、直觉以及不断尝试。然而如果错误的选择(构造)视图,不提供有意义的共享信息情况下将会产生什么后果呢?
在本文中作者认为,上述过程产生的噪声视图在对比学习的各应用场景中会造成严重的后果。此外噪声视图问题核心在于:即使这些噪声视图之间不存在有意义的共享信息,它们仍然要被迫对齐。
现有的工作针对noise view设计niose-tolerant(噪声容忍)方法。然而这些方法大多针对特定的数据类型,所做的假设可能不适用一般场景。
在这项工作中作者提出了一种满足对称条件的对比损失函数:Robust InfoNCE,在其所提出的损失函数中Wassertein distance作为互信息的下界。
创新点:
- 作者设计了一种新的对比损失函数Robust InfoNCE,主要用于against 数据中的noise view。
- 作者进行了理论分析,将提出的损失函数与对称损失和依赖性测量联系起来。
- 作者在多种类型的数据上进行了验证。
3 技术方法
3.1 Symmetric Losses for Noise Lable
作者首先说明了对称损失函数在二分类中对noisy labels具有鲁棒性。假设存在一个数据分布
D
\mathcal D
D,
S
=
{
x
i
,
y
i
}
i
=
1
m
\mathcal S=\{x_i,y_i\}^m_{i=1}
S={xi,yi}i=1m表示从分布
D
\mathcal D
D中抽取的未观测到的干净数据,而
S
η
=
{
x
i
,
y
^
i
}
\mathcal S_{\eta} =\{x_i,\hat y_i\}
Sη={xi,y^i}中,
y
^
i
\hat y_i
y^i为正确标签
y
i
y_i
yi的概率为
η
\eta
η。对于一个分类器
f
∈
F
:
X
→
R
f \in \mathcal F: \mathcal X\to \mathbb{R}
f∈F:X→R,在无噪声的场景下期望风险为:
R
l
(
f
)
=
E
D
[
l
(
f
(
x
)
,
y
)
]
R_{\mathcal l}(f) = \mathbb E_{\mathcal D}[\mathcal {l}(f(x),y)]
Rl(f)=ED[l(f(x),y)],其中
l
l
l是二分类损失函数。当存在噪声时,优化的目标函数为:
R
l
η
=
E
D
η
[
l
(
f
(
x
)
,
y
^
)
]
(
1
)
R^{\eta}_{l}=\mathbb{E}_{D_{\eta}}[l(f(x),\hat y)] \quad(1)
Rlη=EDη[l(f(x),y^)](1)
现有的工作证明对称损失函数在二分类任务中对于noise label具有鲁棒性。若损失函数之和为常数,则该损失函数满足对称性:
l
(
s
,
1
)
+
(
s
,
−
1
)
=
c
,
∀
s
∈
R
(
2
)
\mathcal l(s,1) + \mathcal (s,-1) = c, \quad \forall s \in \mathbb{R} \quad(2)
l(s,1)+(s,−1)=c,∀s∈R(2)
s
s
s是函数
f
f
f的预测分数。作者指出对称条件不仅在主要变量上成立,还应在它们相对于某个变量(用 ‘s’ 表示)的梯度上成立。
3.2 Towards Symmetric Contrastive Objectives
上述的结果表明:如果对比学习目标在二分类框架下,能够表达为满足对称条件的形式,可实现对于噪声视图的鲁棒性。因此作者首先将对比学习同二分类联系起来,最后将其表达为二分类的形式。
Contrastive learning as binary classification
给定两个视图X和V,
(
x
,
v
)
(x,v)
(x,v)是从联合分布中采样而来则标记为1,即:
(
x
,
u
)
∼
P
X
Y
(x,u)\sim P_{XY}
(x,u)∼PXY。若
(
x
,
u
)
(x,u)
(x,u)来自边缘乘积则标记为-1,即
(
x
,
v
′
)
∼
P
X
P
Y
(x,v') \sim P_XP_Y
(x,v′)∼PXPY。在数据中存在nosie view的情况下,负样本对
(
x
,
v
′
)
(x,v')
(x,v′)可能会被错误的标记为正样本,从而引入nosie label。
InfoNCE是最常用的对比损失函数,其形式如下:
L
I
n
f
o
N
C
E
(
s
)
=
−
l
o
g
e
s
+
e
s
+
∑
i
=
1
k
e
s
i
−
(
3
)
\mathcal L_{InfoNCE}(s)=-{\rm{log}}\frac{e^{s^+}}{e^s+\sum^k_{i=1}e^{s^-_i}} \quad(3)
LInfoNCE(s)=−loges+∑i=1kesi−es+(3)
上述公式中
s
+
s^+
s+、
s
−
s^-
s−分别表示正样本对和负样本的得分。上述(3)中损失函数的期望是基于正样本对
(
x
,
y
)
∼
P
X
V
(x,y) \sim P_{XV}
(x,y)∼PXV和K个从
v
i
∼
P
V
v_i \sim P_V
vi∼PV中采样得到的独立样本上进行的。虽然InfoNCE形式上看起来是(K+1)个softmax 交叉熵损失,但其最终目的是通过最大化/最小化正样本得分
s
+
s^+
s+/负样本得分
s
−
s^-
s−来分类样本对
(
x
,
v
)
(x,v)
(x,v),是正样本还是负样本对。因此,在存在噪声视图的情况下,InfoNCE可以被视为带噪声标签的二分类任务。
Symmetric form of contrastive learning
假设存在一个噪声容忍函数
l
l
l满足公式(2)中的对称条件,则当对比学习损失函数满足下式时称其具有对称性:
L
(
s
)
=
l
(
s
+
,
1
)
⏟
P
o
s
t
i
t
i
v
e
P
a
i
r
+
λ
∑
i
=
1
k
l
(
s
−
,
−
1
)
(
4
)
\mathcal L(\mathbf s) =\underbrace{ l(s^+,1)}_{Postitive Pair}+\lambda \sum\limits_{i=1}^k l(s^-,-1) \quad(4)
L(s)=PostitivePair
l(s+,1)+λi=1∑kl(s−,−1)(4)
λ
\lambda
λ是权重参数。文献[1]给对比损失函数满足对称性情况下,对噪声视图具有较强的鲁棒性提供了理论支持。同时作者指出InfoNCE不满足对
s
+
/
s
−
s^+/s^-
s+/s−梯度中的对称条件。因此基于此作者提出了满足对称条件的对比损失函数。
4 Robust InfoNEC Loss
文中所提出RINCE形式如下:
L
R
I
N
C
E
λ
,
q
(
s
)
=
−
e
q
⋅
s
+
q
+
λ
⋅
(
e
s
+
+
∑
i
=
1
K
e
s
i
−
)
q
q
(
5
)
\mathcal L^{\lambda,q}_{RINCE}(\mathbf{s}) = \frac{-e^{q\cdot s^+}}{q}+\frac{\lambda \cdot(e^{s^+}+\sum^K_{i=1}e^{s^-_i})^q}{q} \quad (5)
LRINCEλ,q(s)=q−eq⋅s++qλ⋅(es++∑i=1Kesi−)q(5)
其中
q
,
λ
∈
(
0
,
1
]
q,\lambda \in (0,1]
q,λ∈(0,1]
给定损失函数 l ( s , y ) = − y e s l(s,y)=-ye^s l(s,y)=−yes,当 q=1时,RINCE完全满足(3)中的对称性,即:
L R I N C E λ , q ( s ) = − ( 1 − λ ) e s + + λ ∑ i = 1 K e s − \mathcal L^{\lambda,q}_{RINCE}(\mathbf{s}) = -(1-\lambda)e^{s^+}+\lambda\sum \limits_{i=1}^{K}e^{s^-} LRINCEλ,q(s)=−(1−λ)es++λi=1∑Kes−
值得注意的是给定损失函数 l ( x , y ) = − y e s l(x,y)=-ye^s l(x,y)=−yes满足(2)式中的对称性,此时 c = 0 c=0 c=0。文中q值的变化对RINCE影响有如下结论:
1)当q趋于1时,RINCE对噪声视图具有鲁棒性。
2)当q趋于0时,RINCE逐渐趋近于InfoNCE。
说明当 q → 0 q \to 0 q→0时:
lim q → 0 L R I N C E λ , q ( s ) = L I n f o N C E + l o g λ ; lim q → 0 ∂ ∂ s L R I N C E λ , q ( s ) = ∂ ∂ s L I n f o N C E ( s ) {\lim_{q \to 0}}\mathcal L^{\lambda,q}_{RINCE}(\mathbf{s}) = \mathcal L_{InfoNCE}+{\rm log}\lambda;\\{\lim_{q \to 0}}\frac{\partial}{\partial \mathbf{s}}\mathcal L^{\lambda,q}_{RINCE}(\mathbf{s}) = \frac{\partial}{\partial \mathbf{s}}\mathcal L_{InfoNCE}(\mathbf{s}) q→0limLRINCEλ,q(s)=LInfoNCE+logλ;q→0lim∂s∂LRINCEλ,q(s)=∂s∂LInfoNCE(s)
上述收敛性也适用于导数,在q趋于0的极限情况下,对RINCE的优化在数学上等同于优化InfoNCE。
4.1 Intuition behind RINCE
本节中,作者通过探究不同q值下RINCE梯度变化,来展示RINCE对易/难样本的挖掘程度,其可视化如下图所示。通过实验可知使用较大的q值可以实现更强的鲁棒性。
从上图(a)可以得出结论当正样本得分越大,负样本得分越小,损失越小。图(b)中展示了梯度的变化,当
q
→
0
q \to 0
q→0时InfoNCE更加强调难正样本(hard-positive),即具有正分数的
s
+
s^+
s+的样本对。相对于的
q
→
1
q \to 1
q→1时完全对称RINCE强调于易正样本对(easy-positive)。在实际的应用中,
q
∈
[
0.1
,
0.5
]
q \in [0.1,0.5]
q∈[0.1,0.5]用于balance健壮性与收敛性。
4.2 Theoretical Underpinnings
本节中作者提供证明了为什么RINCE对噪声视图具有健壮性。其核心在RINCE中使用Wasserstein dependency measure作为互信息的下界,与比Kullback-Leibler(KL)散度相比,由于其Wassertein距离的强集合特性,使得WDM在抗样本噪声方面具有更强的鲁棒性。
4.2.1 KL散度在互信息中的局限性
众所周知InfoNCE在表征空间中是互信息的变体下界,以KL散度来表示:
−
E
[
L
I
n
f
o
N
C
E
(
(
s
)
)
]
+
l
o
g
(
K
)
≤
I
(
ϕ
(
X
)
,
ϕ
(
V
)
)
=
D
K
L
(
P
X
Y
ϕ
,
P
X
ϕ
P
V
ϕ
)
-\mathbb{E}[\mathcal L_{InfoNCE}(\mathbf(s))]+{\rm log}(K) \le I(\phi(X),\phi(V)) \\ =D_{KL}(P^{\phi}_{XY},P^{\phi}_XP^{\phi}_V)
−E[LInfoNCE((s))]+log(K)≤I(ϕ(X),ϕ(V))=DKL(PXYϕ,PXϕPVϕ)
直观上说,最大化互信息可以被解释为最大化正样本对于负样本对之间的差异。而现有的工作表明使用KL散度来最大化互信息存在局限性,即:KL散度不是一个度量标准,它对数据样本的微小差异非常敏感,不论基础数据分布的几何形状如何。因此编码器
ϕ
\phi
ϕ只需要从共享的X和Y中捕捉一些信息便可以最大化KL散度。
4.2.2 RINCE is a lower-bound of WDM
WDM基于Wasserstein距离,这是一种通过最优传输成本定义的概率分布之间的距离度量标准,即:讲一个分布P转换为分布Q所需要的最小代价。假设μ和ν是两个概率测度(probability measures),定义带有欧几里德成本函数的Wasserstein-1距离如下:
其中
∏
(
μ
,
v
)
\prod(\mu,v)
∏(μ,v)表示边缘分别为
μ
\mu
μ和
v
v
v的测试耦合集。当q=1时根据对偶性可得:
−
E
[
L
R
λ
,
q
=
1
N
C
E
(
s
)
]
≤
L
⋅
I
W
(
ϕ
(
X
)
,
ϕ
(
Y
)
)
:
=
L
⋅
W
(
P
X
V
ϕ
,
P
V
ϕ
P
Y
ϕ
)
-\mathbb E[ \mathcal L^{\lambda,q=1}_RNCE(s)]\le L\cdot I_{\mathcal W}(\phi(X),\phi(Y))\\ := L \cdot \mathcal W(P^{\phi}_{XV},P^{\phi}_VP^{\phi}_Y)
−E[LRλ,q=1NCE(s)]≤L⋅IW(ϕ(X),ϕ(Y)):=L⋅W(PXVϕ,PVϕPYϕ)
上述方法为RINCE具有对noise view有鲁棒性提供了另一个的解释。与最大化KL散度的InfoNCE不同,优化RINCE等价于最大化带有Lipschitz函数的WDM(Wasserstein Dependency Measure)。搭配合适的度量标准,这允许RINCE测量两个分布P(XV)和P(XP|V)之间的差异,而不会对个别样本的噪声过于敏感,只要这些噪声不改变分布的几何特性。这也使编码器
ϕ
\phi
ϕ能够学习更完整的表示,因为最大化Wasserstein距离要求编码器不仅要建模两个分布之间的密度比,还要建模将一个分布运输到另一个分布的最优成本。
5 实验
详情请参考论文
6 结论
本文作者提出对比学习里出现noise view时会造成次优的表证,提出设计了新的Robust InfoNCE,以提高模型对noise view的鲁棒性,其核心是用Wassertein Dependency Measure来作为互信息的对比下界,并提供了相应的理分析,证明了WDM对noise view的鲁棒性。