论文
Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hyperspher
超球体 :一个和原始数据相同维数的曲边,半径为1,通过一个距离度量方法,将数据点映射到曲面上
对齐 : 相似数据点更靠近,不相似物品距离推远
一致性 :维持数据点相对稳定
动机
对比表征学习在实践中取得显著成就,其中对比损失是对比表征学习的核心部分,直接定义了该如何比较数据样本来进行表征学习,因此,本文深入研究对比损失后,提出了对比损失的两个性质:
- 对齐性——缩小正样本距离,增大负样本距离
- 一致性——归一化后在超球体上分布均匀性
作者证明了对比学习也正是因为这两个性质才有较好效果的,本文就这两个性质展开研究
相关工作
由于表征学习重要性所以有大量的表征学习方面研究,其中大部分研究都是采用单元L2范式,将输出空间约束在单位超球体上,这样做也确实有好处:
- 固定范数向量(长度相同的向量)可以提高模型稳定性
- 如果特征数据点在超球体上聚类的很好的话,该特征空间就线性可分
线性可分:存在一个超平面,可以将不同类别的数据点完全分开
虽然超球体是主流特征空间,但也存在问题:不同编码器映射特征到超球体上并不一定是平等的,不同质量的编码器可能会映射不同效果;这可能导致学习效果和表征质量受到影响
那我们该选择编码器有没有什么特别要求呢?
在最近的研究中发现,表征最好遵循以下两点:
- 对不必要的细节保持不变
- 保留尽可能多的信息
本文将这两点对应称为对齐性和一致性;
对齐倾向于将相似样本分配给相同编码器,让最后映射到超球体上距离相近;一致性倾向于保留最大信息分布,让超球体分布均匀
既然这两点这么重要,我们肯定要选一个有这两点性质并且做的比较好的方法,所以目前流行的方法就是无监督对比表征学习方法,它结合了对齐性和均匀性,利用大量无标签数据,并通过对比损失有效地学习特征表示。
我们在它的基础上,假设数据和样本分布分别满足下面的特点:
目前,多是用(1)的对比损失来训练编码器,也有大量研究表明是有效的:
这些研究大部分是采用InfoMax原则推动,大部分研究会认为(1)中的对比损失就是最大化I{f(x); f(y)} for (x, y) ∼ Ppos的下界,但是本身是存在问题的,当最大化更紧密的界限的时候,下游任务性能还会变得更差,所以我们没有将该对比损失视为下界;
InfoMax原则:最大化 I{f(x); f(y)} for (x, y) ∼ Ppos
实验
实验一:超球体上的均匀分布
因为传统观念上认为对比损失应该优先考虑下面两个因素:
- 对不必要的细节保持不变(对齐)
- 保留尽可能多的信息(一致性)
同时本文也是深入研究这两属性,那么首先肯定就需要验证一下这两个属性对对比损失是否真的非常重要?
本文分别采用三种方法获得S1上的CIFAR-10表示的可视化:
- 随机初始化
- 监督预测学习
- 无监督对比学习
可以看出无监督对比学习的特征表现出最均匀的分布,并且紧密地聚集在正样本对中
在对比损失中负样本远大于正样本,所以(1)的对比损失可以改写为:
其中第一项是对齐,第二项一致性,两者结合用于衡量超球面的分布均匀性
当编码器完全对齐,P[f(x)=f(y)]=1
实验结论
实验一验证了上面提出的两点的合理性
证明了对齐和一致性是表征分布的重要属性,对齐和一致性越好表征分布越均匀,推荐性能越好
实验二:量化对齐性和一致性
既然对齐和一致性这么重要,那我们就单独拿出来分析一下,首先就该考虑,我们该用什么来量化对齐和一致性这两个属性呢?
以往都是采用对比损失直接优化这两个属性,在本文,基于对比损失的分解,作者重构了量化对齐性和一致性的损失函数,对齐性采用欧氏距离衡量,一致性采用高斯势核函数衡量
损失函数
对齐损失直接定义为正样本对之间的预期距离:
均匀性损失定义为平均成对高斯势的对数:
为什么要使用高斯核的无监督训练特征分布呢?高斯内核的特殊之处在于它与通用最优点配置密切相关,并且还可以用于表示其他内核的一般类,包括Riesz势;采用高斯核的损失形式更简单,不需要softmax计算,并且无监督训练的特征分布更加均匀
根据下图可以看出,高斯核确实会更均匀
通过优化损失函数可以发现:
当只优化一种对齐和一致性时,相应的度量会得到改善,但其他度量和性能都会下降。然而,当这两个属性都被优化时,表征质量就会稳步提高。这些趋势证实了对齐和一致性对表示质量的因果效应,并表明直接优化它们可以是一个合理的选择
实验结论
对齐性和一致性可以用对齐损失和一致性损失分别量化
当两个属性都被优化时,表征质量才会稳步提高
实验三:指标和下游任务的性能的一致性
通过计算上面两个损失,并多次在不同编码器上实验,我们可以发现,对齐和一致性损失还会影响下游任务的性能,两者有很强的一致性;
不同编码器上对比前面提到的两种表征学习方法:
- 优化对比损失函数
- 直接优化对齐和一致性函数
可以发现,两种都可以提高表征质量,只要L_align和L_uniform的权重比例不要太大,可能第二个在下游任务中具有更好的性能
实验结论
- 指标和下游任务性能之间有很强的一致性
- 尽管形式简单,但我们提出的指标在没有其他损失的情况下直接优化时,凭经验在下游任务中与对比学习相比具有可比或更好的性能。
结论
本文深入研究了对比表征学习中对比损失的两个重要性质:对齐性和一致性,
- 对齐性要求保留不必要的信息不变,给相似数据分配相同编码器使得映射到超球体上正样本距离小;
- 一致性要求保留尽可能多的信息,确保超球体上分布的均匀性;
以往都是直接用对比损失来优化这两个损失,但是在本文我们找到两个度量指标L_align和L_uniform,直接优化这两个损失可以得到更好的性能,
同时我们发现直接优化这两个指标也可以提高下游任务性能