Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hyperspher

最新推荐文章于 2024-01-12 18:17:39 发布

pitaojun

最新推荐文章于 2024-01-12 18:17:39 发布

阅读量3.2k

点赞数 3

分类专栏：语音识别asr 文章标签：深度学习

语音识别asr 专栏收录该内容

26 篇文章 8 订阅

订阅专栏

1.Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hyperspher

1. 论文思路

提出了contrastive loss 的两种性质：
（1）alignment 用来衡量正例对样本间的近似程度。（2）uniformity 衡量规整后的特征在unit 超球体上的分布的均匀性。
并提出了衡量两种性质的评价指标，并且优化这两个指标的训练学到的特征在下游任务上表现更好。

2. 两种特征的解释

在这里插入图片描述
Q1 让特征分布在unit hypersphere的好处是？
（1）固定范数的向量提升训练的稳定性；（2）如果一个类别的特征能被比较好的聚类，那么在整个特征空间上这个类别是更容易被线性可分的。

Q2 两个性质的目标：
（1）alignment 让相同的样本的特征尽可能相似（2）Uniformity使得特征的分布保持尽可能多的信息。

contrastive representation learning
(1)Assumption

(2) InfoMax principle
最大化 $I (f (x), f (y))$ for postive pair. 通常的 $L_{contrastive}$ 定义了这个的下界，然而最大化这个下界有可能会使下游任务的表现更加糟糕。
从两个角度验证两个性质的合理性
在超球体上的特征分布
作者在这里通过将CIFAR-10的可视化结果来验证两个性质，这里采用的配置主要是通过三个方法将一张图片映射到一个二维的特征表征：
（1）随机初始化（2）有监督的预测学习（encdoer+linear classifier) （3）无监督contrastive learning
这里encoder 都是采用相同的AlexNet.

在这里插入图片描述
contrastive learning 学到的特征既有aligned(正例对距离较近）又有uniform( 特征均匀分布）的特性。
从contrastive loss 计算上理解

最小化第一项意味着使得正例的距离尽可能近（alignment)，特殊情况假设perfectly aligned, $P [f (x) = f (y)] = 1$ ,那么最小化loss等价于最小化第二项，即使得样本中数据尽可能分散（uniformity)
在这里插入图片描述

3. 量化 Alignment 和 Uniformity

Alignment
Uniformity
采用高斯势核函数

t 是一个固定值。
Q3: 为什么高斯核函数要比pairwise 的点积平均和欧式距离要好：
Among kernels that achieve uniformity at optima, the Gaussian kernel is special in that it is closely related to the universally optimal point conﬁgurations and can also be used to represent a general class of other kernels, including the Riesz s-potentials: 在达到最佳均匀性的内核中，高斯内核的特殊之处在于它与通用最优点配置密切相关，并且还可以用于表示其他内核的一般类，包括Riesz势

具体表现也可以看出，采用高斯核的无监督训练特征分布的更加均匀。