©PaperWeekly 原创 · 作者 | 吴俊康
单位 | 中国科学技术大学博士生
研究方向 | 对比学习
本文从分布式鲁棒优化(DRO)的角度分析了对比学习损失函数(InfoNCE),揭示了 InfoNCE 对负样本分布的鲁棒性,并指出温度系数的本质是 DRO 中控制鲁棒半径的拉格朗日系数,同时也建立了 DRO 和互信息 (MI) 之间的理论联系。此外,我们从 DRO 的角度指出了 InfoNCE 的潜在缺点,例如过度保守和对异常值的敏感。最后提出了一种新的损失函数——ADNCE,并验证了其在各个场景的有效性。
论文标题:
Understanding Contrastive Learning via Distributionally Robust Optimization
论文链接:
https://arxiv.org/pdf/2302.04775.pdf
代码链接:
https://github.com/junkangwu/ADNCE
作者主页:
https://junkangwu.github.io/
摘要
近年来,对比学习因其在自监督领域卓越的表现,受到越来越多的关注。核心思想是学习“拉近”证样本(例如来自同一图像的增强数据),同时“推开”负样本(例如来自不同图像的增强数据)的表示。通过利用这种直观的概念,无监督学习甚至开始挑战监督学习。然而,对比学习饱受困扰的一个问题就是——负采样偏差。由于无监督场景下的对比学习无法提前获得物品标签,负样本采样就成为了一个显著的问题。
为了解决这个问题,近年来有一些工作缓解这个问题,比如,[1, 2] 通过估计最优负样本的分布以缓解负采样中出现的偏差,[3] 则添加了一个检测模块用于识别并且修正存在的假负样本。
本工作则刷新了以往对比学习领域相关工作的认知,通过引入分布式鲁棒优化(DRO)这一理论工具,我们发现对比学习损失函数(InfoNCE)本质上是 KL 散度范围内,作用在负样本分布上的鲁棒优化目标(CL-DRO)。这一发现首先揭示了 InfoNCE 中的温度系数 并非是一种启发式设计,而是控制负样本鲁棒半径的一个拉格朗日系数。同时拥有 DRO 这一理论框架,我们还可以对其难负样本挖掘、方差控制等性质一一提供理论上的解释。
进一步,我们不局限于 KL 散度,分析了一般情况下(-divergence)下的 DRO 目标,有趣的是我们验证了任何 -divergence 下的 CL-DRO 和该 -divergence 对应的变分表示的等价性。这一发现严格上证明出“InfoNCE 是更紧的互信息的估计”。同时,这也为任意 -divergence 下的互信息估计提供了新的途径。
最后,DRO 的提出也揭示出 InfoNCE 存在的缺陷——过于保守,盲目地赋予难负样本最高的权重;以及忽略了 outlier 数据的影响。为改善这一现状,我们提出可调节的 InfoNCE(ADNCE)用于重塑 worst-case 分布,通过在多个领域的尝试(CV,NLP 和 Graph)验证了本方法的有效性。
从DRO的视角理解对比学习
2.1 动机
在对比学习(CL)的实际应用中,负样本 (x,y) 通常是从训练数据中统一抽取的,它们可能具有相似的语义(例如标签)。正如 Chuang [1] 等人所提出的,这引入了负采样偏差的潜在问题。
在本项研究中,我们观察到一个有趣的现象,即 InfoNCE 本身表现出对负采样偏差的抗噪性。我们在两个基准数据集 CIFAR10 和 STL10 上对 CL 进行了测试,如下表所示,我们发现:
1)通过微调温度 ,传统的 SimCLR 表现出显著的提升,达到了与专门设计用于解决负采样偏差的方法相当的性能水平(即 SimCLR () 与 SimCLR ()、DCL [1] 和 HCL [2]);
2&#