Motivation
- 对比学习旨在学习一个通用的特征函数,将原始像素映射为超球空间上的特征。一般通过使positive pairs和negative pairs分离来学习同一实例的不同角度的不变特征。
- 对比学习方法有一个共同的损失函数设计,这个softmax函数通过特征相似度的惩罚 τ \tau τ来区分正负样本。 τ \tau τ控制困难负样本的惩罚力度。
- 无监督对比学习中嵌入分布的均匀性对于学习可分离的特征非常重要。
- 大多数对比学习方法旨在学习一个实例判别任务,通过最大化从相同实例采样的不同增强的相似性以及最小化不同实例的相似性。这种目的实际上不包含任何基于语义关系的信息。
图1:一个好的对比学习模型倾向于产生类似图(a)的嵌入分布。图a的嵌入分布比图b的更有用,因为捕捉到了不同实例间的语义关系。
图2:使用
τ
\tau
τ=0.07训练的嵌入分布更加均匀,但使用
τ
\tau
τ=0.2训练的嵌入呈现出更合理的分布,它是局部聚类和全局分离的。一方面,作者希望这些分布足够均匀,以便更加可分离;另一方面,作者希望对比损失对语义相似的样本有着更强的容忍度。
Method
Hardness-aware Property
公式1:对比学习损失函数。分子为正样本对,分母为正负样本对的和。当正样本对趋向于无穷时,分子、分母趋近于1,损失为0。
公式2:
x
i
x_i
xi被识别为
x
j
x_j
xj的概率
公式3:对比性损失试图使正向对被吸引,负向样本被分离,即正向对齐和负向分离。
公式4:正梯度的大小等于负梯度的总和。
公式5:相对惩罚分布
图3:随着温度的降低,相对惩罚更多地集中在高相似度区域,而随着温度的升高,相对惩罚分布趋向于更加均匀,这倾向于给所有的负样本以相同的惩罚幅度。此外,有效惩罚间隔随着温度的降低而变窄。极小的温度会导致对比性损失只集中在最近的一两个样品上,这将严重降低性能。在本文中,作者将温度保持在一个合理的区间内,以避免这种情况。
公式6、7:两种极端情况
公式8:将负梯度从无信息的区间挤压到有信息的区间
公式9:相应的困难对比损失
Uniformity-Tolerance Dilemma
two properties:嵌入分布的均匀性和对语义相似样本的容忍度
Embedding Uniformity
均匀性是对比学习中的一个重要属性。对比损失可以被分解Wie两部分,它鼓励正向特征被对齐,嵌入与超球中的均匀分布相匹配。
公式11:用属于同一类别的样本的平均相似度来衡量对语义一致的样本的容忍度
图6、7:显示了对嵌入均匀性的测量和对相同类别样本的容忍度。由硬对比性损失产生的嵌入分布比普通对比性损失更均匀。这是由信息量大的样本上的梯度增加造成的。
Experiments
Summary
- uniformity 有助于对比学习学习可分离的特征,然而对于uniformity的过度追求会使得对比损失不能容忍语义相似的样本,这可能会破坏潜在的语义结构。
- temperature在控制嵌入分布的局部分离和全局均匀性方面起着关键作用。