Supervised Contrastive Learning论文笔记

最新推荐文章于 2023-11-18 11:59:29 发布

reallsp

最新推荐文章于 2023-11-18 11:59:29 发布

阅读量562

点赞数 3

分类专栏：人工智能文章标签：机器学习人工智能深度学习

本文链接：https://blog.csdn.net/reallsp/article/details/114377529

版权

人工智能专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Supervised Contrastive Learning

Motivation

交叉熵损失是监督学习中应用最广泛的损失函数，度量两个分布（标签分布和经验回归分布）之间的KL散度，但是也存在对于有噪声的标签缺乏鲁棒性、可能存在差裕度（允许有余地的余度）导致泛化性能下降的问题。而大多数替代方案还不能很好地用于像ImageNet这样的大规模数据集。
在对比学习中，核心思想是拉近某一个锚点与其正样本之间的距离，拉远锚点与该锚点其他负样本之间的距离，通常来说，一个锚点只有一个正样本，其他全视为负样本。

Contribution

提出了一个新的扩展对比损失函数，允许每个锚点有多个正对。因此，将对比学习适应于完全监督的setting。
作者通过梯度计算的角度说明了文中提出的loss可以更好地关注于 hard positives and negatives，从而获得更好的效果。

Method

表征学习框架

总的来说，有监督对比学习框架的结构类似于表征学习框架，由如下几个部分组成：
1. 数据增强模块
  
  $A(\cdot)$ 的作用是将输入图像转换为随机增强的图像 $\bar x$ ，对每张图像都生成两张增强的子图像，代表原始数据的不同视图。数据增强分为两个阶段：第一阶段是对数据进行随机裁剪，然后将其调整为原分辨率大小；第二阶段使用了三种不同的增强方法，具体包括：（1）自动增强，（2）随机增强，（3）Sim增强（按照顺序进行随机颜色失真和高斯模糊，并可能在序列最后进行额外的稀疏图像扭曲操作）。
2. 编码器网络
  
  编码器网络 $E(\cdot)$ 的作用是将增强后的图像 $\bar x$ 映射到表征空间，每对子图像输入到同一个编码器中得到一对表征向量，本文用的是ResNet50和ResNet200，最后使用池化层得到一个2048维的表征向量。表征层使用单位超球面进行正则化。
3. 投影网络
  
  投影网络 $(\cdot)$ 的作用是将表征向量映射成一个最终向量 $z$ 进行loss的计算，本文用的是只有一个隐藏层的多层感知器，输出维度为128。同样使用单位超球面进行正则化。在训练完成后，这个网络会被一个单一线性层取代。
对比损失

本文的数据是带有标签的，采用mini batch的方法获取数据，首先从数据中随机采样 $N$ 个样本对，记为 ${\left\{x_k , y_k\right\}}_{k = 1,2,\dots,N}$ , $y_k$ 是 $x_k$ 的标签，之后进行数据增强获得 $2 N$ 个数据样本 ${\left\{\bar x_k , \bar y_k\right\}}_{k = 1,2,\dots,2N}$ ，其中， $\bar x_{2k}$ 和 $\bar x_{2k−1}$ 是分别用两种随机增强方法得到的数据对，在数据增强过程中，标签信息始终不会改变。
1. 自监督对比损失
  
  本文的自监督对比损失与SimCLR的loss相类似，不过使用的是点积刻画样本之间的相似性，具体表达式如下：
  $\mathcal{L}^{self}=\sum\limits_{i\in I}\mathcal{L}_i^{self}=-\sum\limits_{i\in I}\log\frac{\exp(z_i\cdot z_{j(i)}/\tau)}{\sum\limits_{a\in A(i)}\exp(z_i\cdot z_{a}/\tau)}$
  
  其中 $\mathcal{z_l}=Proj(Enc(\bar x_l))$ 是表征学习得到的特征。 $\cdot$ 为计算内积操作。 $A (i)$ 为出了下标为i之外的其他所有样本组成的集合。 $\tau$ 是一个进行优化的温度参数。下标为 $i$ 对应anchor样本，下标为 $j (i)$ 对应数据扩充得到的正样本。其他的 $2 N - 2$ 个样本为负样本。
2. 有监督的对比损失
  
  有监督对比损失是对自监督对比损失的推广，从公式中很容易可以看出，有监督对比损失拓展了 $\bar x_i$ 正对的数量，将所有标签信息相同的子数据都视为正对，计算了 $\bar x_i$ 与其所有正对之间的相似性，之后进行加权平均。文中提出了两种方式计算损失。
  $\mathcal{L}^{sup}_{out}=\sum\limits_{i\in I}\mathcal{L}_{out,i}^{self}=\sum\limits_{i\in I}\frac{-1}{|P(i)|}\sum\limits_{p\in P(i)}\log\frac{\exp(z_i\cdot z_{p}/\tau)}{\sum\limits_{a\in A(i)}\exp(z_i\cdot z_{a}/\tau)}$
  
  $\mathcal{L}^{sup}_{in}=\sum\limits_{i\in I}\mathcal{L}_{in,i}^{self}=\sum\limits_{i\in I}-\log\left\{\frac{-1}{|P(i)|}\sum\limits_{p\in P(i)}\frac{\exp(z_i\cdot z_{p}/\tau)}{\sum\limits_{a\in A(i)}\exp(z_i\cdot z_{a}/\tau)}\right\}$
  
  前者的求和操作在 $\log$ 外部，而后者在内部。其中， $P(i)\equiv\left\{p\in A(i):\bar y_p=\bar y_i\right\}$ 代表所有与下标为i的样本label相同的样本集合（正样本集合）， $∣ P (i) ｜$ 为该集合的大小。
  
  相比自监督对比损失，两种方式都有如下特性：
  - 使用了大量正样本
    
    自监督学习仅仅将data augmentation得到的样本作为正样本，而在有监督的设置中，通过data augmentation得到的正样本以及与anchor标签一样的正样本都对公式中的分子有贡献。
  - 负样本越多，对比性越强
    
    保留了对于负样本的求和，噪声样本越多，对比的效果越好。
  - 具有发掘难正/负样本的内在能力
    
    这两个损失函数的梯度鼓励从hard positive和hard negative中学习。
  Experiments
  
  实验比较了他们的方法与其他使用交叉熵的有监督方法的Top-1与Top-5精度，同时对比了他们的架构使用交叉熵损失的表现，可以看到，综合来说他们的方法实现了最好的效果，同时，他们的架构在使用交叉熵损失时的表现就不是非常好，相对来说，他们的架构在改进loss的情况下，Top-1精度提升了3.8/2.8个点，Top-5精度提升了1/2.3个点。

reallsp

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
Supervised Contrastive Learning论文笔记

Supervised Contrastive LearningMotivation交叉熵损失是监督学习中应用最广泛的损失函数，度量两个分布（标签分布和经验回归分布）之间的KL散度，但是也存在对于有噪声的标签缺乏鲁棒性、可能存在差裕度（允许有余地的余度）导致泛化性能下降的问题。而大多数替代方案还不能很好地用于像ImageNet这样的大规模数据集。在对比学习中，核心思想是拉近某一个锚点与其正样本之间的距离，拉远锚点与该锚点其他负样本之间的距离，通常来说，一个锚点只有一个正样本，其他全视为负样本。Co
复制链接

扫一扫