Contrastive Learning

最新推荐文章于 2023-11-21 13:09:23 发布

Junjian Zhang

最新推荐文章于 2023-11-21 13:09:23 发布

阅读量225

点赞数

分类专栏： Contrastive Learning 文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/jianjian_come_on/article/details/120271446

版权

Contrastive Learning 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

\text{Representation~learning}

的目标是为输入样本

x

，学习一个有效的表示

z

。

一般来说，基于多视角预测框架的 $\text{Self-Supervised~Learning}$ ，是通过预测同一张图片的不同视角来学习特征：同一个图片样本，采用不同的数据增强方法生成两个视角，模型最终学习得到相同的特征表示。理论上来说，这会产生一个问题： $\text{collapsed~representation}$ ：不管输入的图片样本是什么，模型输出的特征都是一样的。

为解决这一问题， $\text{Contrastive~Learning}$ 引入负样本，同一图片样本使用不同数据增强（正样本对）后，模型学习得到的正样本表示之间距离尽可能相近，不同图片负样本之间表示距离尽可能远离，从而确保模型学习数据表示具有合理的区分度。

总的来收， $\text{Contrastive~Learning}$ 的核心是通过计算样本表示之间的距离，实现正样本靠近，负样本远离。

输入 $N$ 个 $\text{samples}$ ，使用不同的数据增强方法，为每张图片生成两个 $\text{view: ~y,~y'}$ ；
两个 $\text{batch}$ 的样本表示之间计算其 $\text{cosine}$ ，得到相似度矩阵 $A\in\mathbb{R}^{N\times N}$ ，其对角线位置代表样本表示 $\text{y~and~y'}$ 相之间的相似度，其余为 $\text{y}$ 与其他 $N - 1$ 个负样本之间的相似度度量。

对 $\text{representation~matrix}$ 的每一行做 $\text{softmax}$ 分类，采用 $\text{Cross~Entropy}$ 作为损失函数，得到 $\text{Contrastive~Learning}$ 的 $L o s s$ ：
$\mathcal{L}_y=-\text{log}\frac{\text{exp}(\text{sim}(y,~y')/\tau)}{\sum_{i=0}^N\text{exp}(\text{sim}(y,~y')/\tau）}$

$\text{MoCo~(CVPR20)}$

$\text{Contrastive~Learning}$ 着力于学习正负样本的有效表示。一般来说，负样本越多，学习得到的 $\text{representation}$ 判别性越强，能够有效防止 $\text{collapsed~representation}$ 。

如何增加负样本数量？

一种方式是增加 $\text{batch~size}$ ，会受到 $\text{GPU}$ 显存等计算资源的限制；
另一种是使用 $\text{Memory~bank}$ ：把之前样本的 $\text{representation}$ 保存下来。

虽然这样解决了计算资源等的限制问题，但是 $\text{Memory~bank}$ 中的 $\text{representation}$ 是通过差异较大的 $\text{encoder}$ （ $\text{BP}$ 回传一次，更新一次 $\text{encoder}$ ）输出的，存在前后 $\text{encoder}$ 不连续问题。

$\text{Kaiming~He~etal.}$ 推出 $\text{MoCO~(Momentum~Contrast)}$ ，采用两个 $\text{encoder}$ 对输入进行编码：

$\text{query~encoder}$ 对 $\text{query}$ 进行编码；
$\text{momentum~encoder}$ 对 $\text{key}$ 进行编码。

用两个 $\text{encoder}$ 学习得到的 $\text{representation}$ 计算 $L o s s$ ：
$\mathcal{L}_y=-\text{log}\frac{\text{exp}(q\cdot k_+/\tau)}{\sum_{i=0}^N\text{exp}(q\cdot k_i/\tau)}$

对每个 $\text{batch}$ 的样本 $x$ ：

随机增强两个输入： $x_q,~x_k$ ；
编码器输出： $q=f_q(x_q),~k=f_k(x_k)$ ，并去掉 $k$ 的梯度更新；
计算 $\text{cosine}$ ：
- 将 $q$ 和 $k$ 一一对应相乘，得到正样本之间的余弦相似度： $A_{pos}\in \mathbb{R}^{N\times 1}$ ；
- 将 $q$ 和 $\text{Memory~bank}$ 中存储的 $K$ 个负样本相乘，得到正负样本之间的余弦相似度： $A_{neg}\in\mathbb{R}^{N\times K}$ ；
将相似度矩阵 $A_{pos},~A_{neg}$ 拼接得到 $A\in\mathbb{R}^{N\times (1+K)}$ ，计算交叉熵损失， $\text{BP}$ 回传，更新 $f_q$ 的参数。
动量更新：
$f_k=m*f_k+(1-m)*f_q$
更新 $\text{Memory~bank}:$ 将 $k$ 加入队列中，队首的旧编码出队。这样每次入队的新编码都是上一次更新后编码器的输出。

方法 $(a)$ 是 $\text{end-to-end}$ ：需要保存每一个样本的 $\text{representation}$ 。对于需要大量负样本的对比学习来说，这需要占用大量显存等硬件资源。
方法 $(b)$ 是基于 $\text{Memory~bank}$ ：需要把 $\text{encoder}$ 学习得到的各个 $\text{representation}$ 保存到 $\text{Memory~bank}$ ，然后从中采样出负样本。虽然 $\text{Memory~bank}$ 中的负样本不再占用显存，但是前后 $\text{encoder}$ 会存在较大差异。
方法 $(c)$ 是 $\text{MoCo}$ ：基于 $\text{momentum~encoder}$ 得到的 $\text{representation}$ 保存到一个 $\text{queue}$ 中。需要强调的是， $\text{momentum~encoder}$ 可以看作是对 $\text{query~encoder}$ 的平滑。
实验：
$m = 0.999$ 比 $m = 0.9$ 表现要好，在 $I m a g e N e t$ 数据集上的实验结果为当时的 $S O T A$ :
总结：
- 采用 $\text{momemtum~encoder}$ 对负样本进行编码，解决了 $\text{GPU}$ 显存限制的问题，同时增强了负样本 $\text{encoder}$ 的一致性;
- 最新 $\text{representation}$ 放入一个不断更新的 $\text{queue}$ 中，进一步增强了负样本 $\text{encoder}$ 的一致性。

$\text{SimCLR~(ICML20)}$

$\text{SimCLR}$ 是 $\text{Hinton}$ 组的 $\text{Chen~Ting}$ 在 $20$ 年 $2$ 月推出的， $\text{SimCLR(4x)}$ 在 $\text{ImageNet}$ 上面达到 $76.5\%$ 的 $\text{Top~1}$ $\text{Accuracy}$ ，比当时的 $\text{SOTA}$ 模型高了 $7$ 个点。此外，对预训练好的模型应用 $1\%$ 的 $\text{ImageNet}$ 的标签进行 $\text{Fine-tune}$ ， $\text{SimCLR}$ 可以达到 $85.5\%$ 的 $\text{Top~5}$ $\text{Accuracy}$ ，性能再涨 $10$ 个点。

$S i m C L R$ 框架依然是双塔结构：

$\text{Input}$ 任意一张图片样本 $x$ ，采用不同的数据增强方式，得到 $2$ 张样本： $x_i,~x_j$ ；

探究不同数据增强组合方式，选取了最优的；

随机裁剪后再 $\text{resize}$ 成原来大小 $\text{(Random~cropping~followed~by~resize~back~to~the~original~size)}$ ；
随机色彩失真 $\text{(Random~color~distortions)}$ ；
随机高斯模糊 $\text{(Random~Gaussian~Deblur)}$ 。

将 $x_i,~x_j$ 输入到共享参数的两个 $\text{encoder}$ 编码器中，得到其输出 $h_i,~h_j$ ；

在 $\text{encoder}$ 之后，将 $h_i,~h_j$ 经过一个非线性映射：
$g(\mathbf{h}_i)=W^{(2)}\text{ReLU}(W^{(1)\mathbf{h}_i})$
得到 $\text{representation}:~z_i=g(h_i),~z_j=g(h_j)$ 。

研究发现 $\text{encoder}$ 编码后的输出 $\mathbf h$ 会保留和数据增强变换相关的信息，设置非线性层就是去掉这些信息。此外，非线性层只在无监督训练时用，迁移到其他任务时不使用。
计算 $l o s s$ ：使用余弦相似度 $\text{Cosine~Similarity:}$ 把计算 $x_i~,x_j$ 的相似度转化成了计算两个 $\text{representation:}~z_i,~z_j$ 的相似度:
$s_{i,j}=\frac{z_i^\top\cdot z_j}{\tau\|z_i\|\cdot\|z_j\|}$

以前都是拿右侧数据的 $N - 1$ 个作为负例， $\text{SimCLR}$ 将左侧的 $N - 1$ 个也加入了进来，总计 $2 (N - 1)$ 个负例。另外 $\text{SimCLR}$ 不采用 $\text{Memory~bank}$ ，而是用更大的 $\text{batch~size}$ 。例如， $\text{batch~size=8192}$ 时，有 $16382$ 个负例。

$\text{MoCo~v2}$

对比 $\text{SimCLR}$ ， $\text{MoCo~v2}$ 做了如下改动：

改进了数据增强方法；
模型训练过程在 $\text{encoder}$ 的输出增加了相同的非线性映射；
为了对比 $\text{SimCLR}$ ，学习率采用相同的 $\text{Cosine}$ 衰减。

$\text{MoCo~v2}$ 在更小的 $\text{batch~size}$ 就超过了 $\text{SimCLR}$ 的表现：

Junjian Zhang

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Contrastive Learning

Contrastive LearningContrastive~LearningContrastive LearningRepresentation learningRepresentation~learningRepresentation learning 的目标是为输入 xxx 学习一个表示 zzz ，Contrastive LearningContrastive~LearningContrastive Learning 的核心是通过计算样本
复制链接

扫一扫