Understanding the Behaviour of Contrastive Loss 阅读笔记_understanding the behavior of contrastive loss-CSDN博客

本文链接：https://blog.csdn.net/qq_44901656/article/details/127763187

这篇博客探讨了对比学习在特征学习中的作用，尤其是其在无监督设置下如何通过优化嵌入分布的均匀性和对语义相似样本的容忍度来提升性能。作者指出，合适的温度参数τ对于平衡局部聚类和全局分离至关重要。实验表明，过于追求嵌入的均匀性可能损害对比学习对语义关系的捕获能力，而适当的难度意识（hardness-awareness）可以改善这一问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Motivation

对比学习旨在学习一个通用的特征函数，将原始像素映射为超球空间上的特征。一般通过使positive pairs和negative pairs分离来学习同一实例的不同角度的不变特征。
对比学习方法有一个共同的损失函数设计，这个softmax函数通过特征相似度的惩罚 $\tau$ 来区分正负样本。 $\tau$ 控制困难负样本的惩罚力度。
无监督对比学习中嵌入分布的均匀性对于学习可分离的特征非常重要。
大多数对比学习方法旨在学习一个实例判别任务，通过最大化从相同实例采样的不同增强的相似性以及最小化不同实例的相似性。这种目的实际上不包含任何基于语义关系的信息。

在这里插入图片描述
图1：一个好的对比学习模型倾向于产生类似图(a)的嵌入分布。图a的嵌入分布比图b的更有用，因为捕捉到了不同实例间的语义关系。

图2：使用 $\tau$ =0.07训练的嵌入分布更加均匀，但使用 $\tau$ =0.2训练的嵌入呈现出更合理的分布，它是局部聚类和全局分离的。一方面，作者希望这些分布足够均匀，以便更加可分离；另一方面，作者希望对比损失对语义相似的样本有着更强的容忍度。

Method

Hardness-aware Property

在这里插入图片描述
公式1：对比学习损失函数。分子为正样本对，分母为正负样本对的和。当正样本对趋向于无穷时，分子、分母趋近于1，损失为0。

公式2： $x_i$ 被识别为 $x_j$ 的概率

公式3：对比性损失试图使正向对被吸引，负向样本被分离，即正向对齐和负向分离。
在这里插入图片描述
公式4：正梯度的大小等于负梯度的总和。

公式5：相对惩罚分布

图3：随着温度的降低，相对惩罚更多地集中在高相似度区域，而随着温度的升高，相对惩罚分布趋向于更加均匀，这倾向于给所有的负样本以相同的惩罚幅度。此外，有效惩罚间隔随着温度的降低而变窄。极小的温度会导致对比性损失只集中在最近的一两个样品上，这将严重降低性能。在本文中，作者将温度保持在一个合理的区间内，以避免这种情况。
在这里插入图片描述

公式6、7：两种极端情况

公式8：将负梯度从无信息的区间挤压到有信息的区间

公式9：相应的困难对比损失

Uniformity-Tolerance Dilemma

two properties：嵌入分布的均匀性和对语义相似样本的容忍度

Embedding Uniformity

均匀性是对比学习中的一个重要属性。对比损失可以被分解Wie两部分，它鼓励正向特征被对齐，嵌入与超球中的均匀分布相匹配。
在这里插入图片描述

公式11：用属于同一类别的样本的平均相似度来衡量对语义一致的样本的容忍度

图6、7：显示了对嵌入均匀性的测量和对相同类别样本的容忍度。由硬对比性损失产生的嵌入分布比普通对比性损失更均匀。这是由信息量大的样本上的梯度增加造成的。