对比学习梳理

最新推荐文章于 2024-09-02 09:58:52 发布

得克特

最新推荐文章于 2024-09-02 09:58:52 发布

阅读量505

点赞数

分类专栏：论文文章标签：学习深度学习机器学习

本文链接：https://blog.csdn.net/weixin_40548136/article/details/123094493

版权

论文专栏收录该内容

8 篇文章 0 订阅

订阅专栏

本文详细介绍了对比学习的原理，包括自监督对比学习和监督对比学习，强调了它们在拉近同类样本、推开不相似样本上的作用。自监督学习通过样本augmentation创造监督任务，而监督对比学习引入类别信息，使同类图片特征更接近。最后，讨论了监督学习如何用于预训练模型的fine-tuning，通过添加对比损失函数提升模型性能。

摘要由CSDN通过智能技术生成

文章目录

对比学习的思想是去 拉近相似的样本，推开不相似的样本，而目标是要 从样本中学习到一个好的语义表示空间。

自监督对比学习

自监督对比学习是将样本“照镜子”，转为有监督任务。

以图像领域提取图片feature为例，在不使用图片类别等信息的情况下，对无标签的图片做augmentation（旋转、裁剪、添加noise等），将一个batch的样本转为监督任务，具体如下：

一个batch包含N张图，通过augmentation获得 $N$ 张图，将2N张图输入Network得到 $2 N$ 个feature: $[z_1,z_2,\cdots,z_{N-1},z_N]$ 。
对于每个特征 $z_i$ ，都存在一个特征 $z_j$ 与之同源（来自同一张图），所以 $z_i$ 和 $z_j$ 的距离越接近越好；反之，对于其余 $2 N - 2$ 个图片特征，与 $z_i$ 的距离越远越好。

自监督的损失函数如下：
$\mathcal{L}^{self}=\sum_{i\in I}\mathcal{L}_i^{self}=-\sum_{i\in I}\log\cfrac{\exp{\left(z_i\cdot z_{j(i)}/\tau\right)}}{\sum_{a\in A(i)}\exp(z_i\cdot z_a/\tau)}$
其中， $j (i)$ 是与 $i$ 来自同一张图片的索引， $\cdot$ 代表内积符号， $z_l$ 是l2标准化后的向量， $\tau\in\mathcal{R}^{+}$ 是一个温度系数， $\ { i } A(i)\equiv I\backslash \{i\}$ 。index $i$ 称为anchor，index $j (i)$ 称为positive，另外 $2 (N - 1)$ 个样本（ $\ { j ( i ) } k\in A(i)\backslash\{j(i)\}$ ）称为negatives。

自监督思路的不足在于没有考虑同一类图片的特征相关性，例如下图中同属于狗的两张图片距离学习到的特征距离也会越大。

在这里插入图片描述

监督对比学习

Supervised Contrastive Learning

为了让同类图片的特征距离接近，需要引入类别信息，将“自监督”转为“监督”。则对比学习的依据由“是否来自同一张图片”变为"是否属于同一类"。loss公式如下：
$\mathcal{L}^{self}=\sum_{i\in I}\mathcal{L}_i^{self}=\sum_{i\in I}\frac{-1}{\lvert P(i)\rvert}\sum_{p\in P(i)}\log\cfrac{\exp{\left(z_i\cdot z_p/\tau\right)}}{\sum_{a\in A(i)}\exp(z_i\cdot z_a/\tau)}$
其中 $P(i)\equiv \{p\in A(i):\tilde{y}_p=\tilde{y}_i\}$ 是与样本 $i$ 所属同一类的样本， $\lvert P(i)\rvert$ 是样本个数。

另一种先求和再取 $\log$ 的公式：
$\mathcal{L}^{self}_{in}=\sum_{i\in I}\mathcal{L}_{in,i}^{self}=\sum_{i\in I}-\log{\left\{\frac{1}{\lvert P(i)\rvert}\sum_{p\in P(i)}\cfrac{\exp{\left(z_i\cdot z_p/\tau\right)}}{\sum_{a\in A(i)}\exp(z_i\cdot z_a/\tau)}\right\}}$
则对于上述损失函数，与 $i$ 同类的图片的特征与 $i$ 的距离越近，余弦距离越大越好；反之，与 $i$ 异类的图片的特征与 $i$ 的距离越远，余弦距离越小越好。

相比于自监督学习，监督对比学习的效果如下图：

在这里插入图片描述

监督学习做预训练模型fine-tuning

论文Supervised Contrastive Learning for Pre-trained Language Model Fine-tuning与上述监督学习类似，不过这里应用到预训练模型的fine-tuning上，在分类损失交叉熵的基础上，添加一个对比loss来使得“同类相近，异类远离”。公式如下：
$\mathcal{L}=(1-\lambda)\mathcal{L}_{CE}+\lambda\mathcal{L}_{SCL}\\ \mathcal{L}_{CE}=-\frac{1}{N}\sum_{i=1}^N\sum_{c=1}^Cy_{i,c}\cdot\log{\hat{y}_{i,c}}\\ \mathcal{L}_{SCL}=\sum_{i=1}^N-\frac{1}{N_{y_i}-1}\sum_{j=1}^N 1_{i\neq j}1_{y_i=y_j}\log\frac{\exp\left(\Phi(x_i)\cdot\Phi(x_j)/\tau\right)}{\sum_{k=1}^N1_{i\neq k}\exp(\Phi(x_i)\cdot\Phi(x_k)/\tau)}$

对于一个多分类（类别数为 $C$ ）问题，计算对象为一个batch的样本 $\{x_i,y_i\}_{i=1,\dots,N}$ ， $\Phi(\cdot)\in \mathcal{R}^d$ 表示编码器生成l2标准化后的向量， $N_{y_i}$ 是与 $y_i$ 类别相同的样本数， $\tau>0$ 是一个温度系数， $y_{i,c}$ 表示label， $\hat{y}_{i,c}$ 表示样本 $i$ 预测类别 $c$ 的值， $\lambda$ 是一个超参数用于调节下游任务。