[NeurIPS 2020] Supervised Contrastive Learning

连理o

已于 2023-04-04 15:48:59 修改

阅读量728

点赞数 1

文章标签： NeurIPS 2020

于 2023-03-02 16:42:59 首次发布

本文链接：https://blog.csdn.net/weixin_42437114/article/details/126626685

版权

papers 专栏收录该内容

39 篇文章 1 订阅

订阅专栏

Introduction
Method
Experiments
References

Introduction

作者将自监督对比学习扩展为了有监督对比学习 (SupCon) 来充分利用数据集提供的标签信息。有监督对比学习使得同类的样本特征彼此接近，不同类的样本特征彼此远离，并且对每个 anchor 而言，有监督对比学习使用多个正样本和多个负样本，相比之下，triplet loss 只使用一个正样本和一个负样本，N-pair loss 只使用一个正样本和多个负样本，这使得有监督对比学习不需要负样本挖掘就能达到不错的性能

Method

Representation Learning Framework

Stage 1. 给定一个 batch 的数据，首先给每个样本进行两次数据增强，然后将数据增强后的样本输入 encoder 得到 2048 维的 normalized embed，经过 projection network 得到最终输出，计算 supervised contrastive loss
Stage 2. 丢掉 projection network，冻结 backbone 参数，新增全连接层，使用 CE loss 训练 (The linear classifier can also be trained jointly with the encoder, as long as it doesn’t propagate gradients back to the encoder.)

Contrastive Loss Functions

Self-Supervised Contrastive Loss

在这里插入图片描述

其中， $i\in I=\{1,...,2N\}$ 为 multiviewed batch (i.e., 数据增强后 batch) 内样本的索引， $j (i)$ 为与 $i$ 从同一图像得到的增强图像索引， $\ { i } A(i)=I\backslash\{i\}$ ， $z_i=Proj(Enc(\tilde x_i))$ ， $\tilde x_i$ 为数据增强后的图像

Supervised Contrastive Losses

引入标签信息后，一个 anchor 可以找到 multiviewed batch 内属于同一类别的多个样本作为正样本，下面两式均可将自监督对比学习推广到有监督对比学习：
其中 $P(i)=\{p\in A(i): y_p= y_i\}$ .
在 $\mathcal L_{out}^{sup}$ 中，summation over positives 在 log 外，而在 $\mathcal L_{in}^{sup}$ 中，summation over positives 在 log 内。虽然它们从形式上看差不多，但实验证明 $\mathcal L_{out}^{sup}$ 的性能更好
作者认为这是 normalization factor $1/∣ P (i) ∣$ 带来的影响。对于 $\mathcal L_{out}^{sup}$ ，normalization factor 可以 “remove bias present in the positives in a multiviewed batch contributing to the loss”，而对于 $\mathcal L_{in}^{sup}$ ，由于 normalization factor 在 log 内，因此它只是一个常数项，并不会影响参数梯度。下面作者利用梯度推导进行了说明，最终作者选择使用 ${\mathcal L_{out}^{sup}}$ 的形式作为有监督对比损失

Gradient Derivation

(1) $\boldsymbol {\mathcal L_{in}^{sup}}$
其中，
(2) $\boldsymbol {\mathcal L_{out}^{sup}}$
其中，
现在两种形式的损失函数梯度可以统一地写为
其中，
If each $z_p$ is set to the (less biased) mean positive representation vector, $\bar z$ , $X_{ip}^{in}$ 就等价于 $X_{ip}^{out}$
作者认为 using the mean of positives benefits training，因此 ${\mathcal L_{out}^{sup}}$ 性能更好

Intrinsic Hard Positive and Negative Mining Properties

Intrinsic ability to perform hard positive/negative mining. 当在 projection head 后加上 normalization 时，有监督对比学习产生的梯度信息就能隐式地进行 hard positive/negative mining，hard positives/negatives 的梯度更大，easy positives/negatives 的梯度更小，并且对于难正样本而言，负样本数量越多这一效果越明显。因此，作者认为有监督对比学习无需进行显式的难样本挖掘。下面进行具体分析

设 $w_i$ 为 projection head 的 unnormalized output，i.e., $z_i=w_i/\|w_i\|$ ，有
其中，
代入之前推导的梯度公式，有
其中，
下面以正样本为例，考虑 $\left.\frac{\partial \mathcal{L}_i^{\sup }}{\partial w_i}\right|_{\mathrm{P}(\mathrm{i})}$ . 对简单正样本 $z_i\cdot z_p\approx1$ ，有
对难正样本 $z_i\cdot z_p\approx0$ ，有
此时考虑 $\mathcal L_{out}^{sup}$ 的梯度模长，有
其中， $\sum_{n \in N(i)} \exp \left(\boldsymbol{z}_i \cdot \boldsymbol{z}_n / \tau\right) \geq 0$ (assuming $\boldsymbol z_i \cdot \boldsymbol z_n \leq 0$ )， $\sum_{p^{\prime} \in P(i)} \exp \left(\boldsymbol{z}_i \cdot \boldsymbol{z}_{p^{\prime}} / \tau\right)-|P(i)| \geq 0$ (assuming $\boldsymbol z_i \cdot \boldsymbol z_{p'} \geq 0$ ). 因此， $\sum_{n \in N(i)} \exp \left(\boldsymbol{z}_i \cdot \boldsymbol{z}_n / \tau\right)$ 和 $\sum_{p^{\prime} \in P(i)} \exp \left(\boldsymbol{z}_i \cdot \boldsymbol{z}_{p^{\prime}} / \tau\right)-|P(i)|$ 越大，即正负样本的数量越多，难正样本的梯度模长也就越大，难正样本挖掘的效果也就越明显
对于负样本也可以推出类似结论
总的来说，增加 batch size 可以增加正负样本数量，进而增强难正负样本挖掘的效果，同时也增加了选取到更合适的难正负样本的可能，因此大 batch size 可以有效增加有监督对比学习的性能；此外，上述推导过程也说明 projection head 后的 normalization layer 是十分必要的，它有助于进行隐式的难正负样本挖掘

Connection to Triplet Loss and N-pairs Loss

Triplet Loss 和 N-pairs Loss 是有监督对比学习的特例。当 batch 内只有一个正样本和一个负样本时，有监督对比学习等价于 Triplet Loss，而当 batch 内只有一个正样本和多个负样本时，有监督对比学习等价于 N-pairs Loss.
Triplet Loss.
N-pairs Loss.