[ICLR 2024] Do Generated Data Always Help Csontrastive Learning? 阅读笔记

NikoNairre

已于 2024-05-21 16:07:56 修改

阅读量378

点赞数 4

分类专栏：图像生成文章标签：机器学习论文笔记人工智能

于 2024-05-21 15:52:46 首次发布

本文链接：https://blog.csdn.net/Naiirrkee/article/details/138536200

版权

图像生成专栏收录该内容

1 篇文章 0 订阅

订阅专栏

摘要：

对比学习常用于无监督视觉表征学习中，需要依赖于大量手工标注的增强数据，而各种生成模型可以作为数据膨胀data inflation的手段

然而它们其实可能对对比学习有害，作者分析了原因，揭示了数据膨胀和数据增强的反比关系

作者对性能下降现象做了理论解释，主要推理了数据膨胀前提下的泛化边界，并首次启发，提出了Adaptive Inflation (AdaInf），是一种以数据为中心的数据膨胀策略

作者采用SimCLR在CIFAR上进行测试，使用AdaInf得到了效果提升

Chapter1 Intro

文中指出，数据膨胀(data inflation)就是简单使用生成模型产出的数据文中指出，数据膨胀就是简单使用生成模型产出的数据

而数据增强data augmentation是指对数据进行一系列操作(如裁剪，旋转)，增加正负对样本以促进对比学习性能的手段

作者针对data inflation和data augmentation两方面进行性能下降的原因研究，发现data inflation中生成图像的质量作用有限，调整real和generated数据的比例可以改善性能。但在data augmentation方面，作者意外发现在采用data inflation的情况下，较弱的data augmentation竟可以提高性能

为了解释这一现象，作者剖析了data inflation和data augmentation的互补作用，并基于相关见解提出了Adaptive Inflation (AdaInf)策略，可以适应性调整数据增强强度和数据膨胀的混合比例，在不带来额外计算的前提下提高下游任务的性能。

Chapter3 分析性能下降的影响因素

关于data inflation

define: $\mathcal{D}_d$ : real data $\mathcal{D}_g$ : generated data

distribution of $\mathcal{D}_d$ and $\mathcal{D}_g$ : $P_d, P_g$ -----------> total overall distribution: $P_t = \beta P_d + (1-\beta) P_g$

where $\beta = \frac{|D_d|}{|D_d| + |D_g|}$

若效果越好，则总的数据和真实数据的差异应当越小越小，该差异可在分布空间中体现，而分布的差异可以用全变分距离(total variation distance)

全变分距离介绍：https://en.wikipedia.org/wiki/Total_variation_distance_of_probability_measures

$TV(P,Q)=\frac{1}{2} \int |\mathrm{d}P(x)- \mathrm{d}Q(x)|$ ,一些情况下系数可以省略

因此，可以找到最优化目标： minimize: $\mathrm{D}_{\mathrm{tv}}(P_t, P_d)$

该式子中的总分布t包含了真实数据和生成数据，可以转化到仅包含生成数据的分布 $P_g$

定理3.1
$\mathrm{D}_{\mathrm{tv}}(P_t, P_d)=(1-\beta)\mathrm{D}_{\mathrm{tv}}(P_g, P_d) \quad \quad (1)$

证明：

由此可见，总体数据质量的好坏可以由真实数据比例 $\beta$ 和生成数据分布 $P_g$ 决定。

作者使用了不同质量的扩散模型来改进 $P_g$ ,发现收效甚微

作者调整不同的 $\beta$ 值，发现真实-生成数据复制比例达到10：1时，可以取得最佳性能
请注意，上面说的10:1指的是复制对应的数据的比例，即真实数据复制10次，生成数据仅1次，之后混合，而不是指真实数据是生成数据的10倍

关于data augmentation

作者进一步研究了数据增强的效果，主要采用的data augmentation策略为随机缩放裁剪，可以改变相对最小裁剪比例 $\alpha$ 来控制数据增强的强弱大小， $a$ 越小，强度越大

对比实验采用SimLCR网络运行，通过控制生成数据量来控制data inflation强度，控制 $a$ 来控制data augmentation强度，作者发现了加入适量的data inflation,同时伴随较弱的data augmentation可以有效提高性能

Chapter4 对数据膨胀，数据增强如何影响性能做理论分析

作者采用了图结构对数据增强进行阐述，把数据样本作为结点，把增强手段作为边

define: 膨胀数据集： $\overline{\mathcal{X}}$ (包含了真实数据和生成数据); 其经过data augmentation的数据集： $\mathcal{X}$
建立关于 $\mathcal{X}$ 的增强数据图，用邻接矩阵 $\in \mathbb{R}^{n\times n}$ ( $n$ 应该是所有增强样本的数量)表示， $A$ 表示在数据增强条件下的正样本联合概率
其中，对于由 $\overline{x}$ 增强得到的样本 $x,x^{\prime}$ , 有 $A_{x,x\prime}=\mathbb{E}_{\overline{x} \sim \mathcal{P}_{\overline{\mathcal{X}}}}\mathcal{A}(x|\overline{x})\cdot \mathcal{A}(x^{\prime}|\overline{x})$ ,其中 $\mathcal{A}(x|\overline{x})$ 表示由 $\overline{x}$ 增强的 $x$ 是正样本的条件概率, $\mathbb{E}$ 表示求选出数据的期望
引入图拉普拉斯： $\mathcal{L}=I-D^{-\frac{1}{2}}AD^{-\frac{1}{2}}$ ,其中 $D$ 是个对角矩阵，可以定义为： $D_{xx}=\sum_{x\prime}A_{xx\prime}$ , $I$ 是单位和 $D, A$ 一样大小的单位矩阵

若认为生成数据和真实数据是相同的无差异，那么真实数据集 $\overline{\mathcal{X}}_{\mathrm{raw}}$ 就可以认为是 $\overline{\mathcal{X}}$ 的一个子集，同样仅针对真实数据的增强样本图也可认为是 $A$ 的一个子图
define:拉普拉斯矩阵 $\mathcal{L}$ 的 $N$ 个特征值： $0=\lambda_{1} \leqslant \lambda_{2} \leqslant \cdots \leqslant \lambda_{N} \leqslant 2$

作者接下来以线性探测(Linear Probing)任务为例进行原理说明
设有一线性分类器 $g_{f,B}$ ,如下图示：

其中线性分类器权重矩阵 $\in \mathbb{R}^{k \times r}$ , $k$ 是特征通道数， $r$ 是类别数
膨胀数据集样本 $\overline{x}$ 的类别通过投票分类器决定，即 $\overline{g}_{f,B}(\overline{x}):=\mathrm{argmax}_{i \in [r]} \mathrm{Pr}_{x \sim \mathcal{A}(\cdot|\overline{x})}(g_{f,B}(x)=i)$ ，意思就是对所有 $\overline{x}$ 的增强数据做预测，取预测为某一类别次数最多的那个类别作为 $\overline{x}$ 的预测结果
define: 分类错误率 $\varepsilon(f,B)$ ,值越小，说明准确率越高
定理4.1 至少有 $1-\delta$ 的概率，对于最优的编码器 $f^*$ 和学习的分类器权重 $B^*$ ，线性探测误差存在以下上界：

$\varepsilon(f^*,B^*) \leqslant \frac{8\alpha}{\lambda_{k+1}} + 16\alpha + 2(1-\beta)\mathrm{D}_{\mathrm{TV}}(P_d,P_g) \quad \quad (2)$
其中 $\alpha=\mathbb{E}_{\overline{x} \sim \mathcal{P}_{d}, x \sim \mathcal{A}(\cdot|\overline{x})}\mathbb{1}[y(x)\ne y(\overline{x})]$ ,即为 $\overline{x}$ 增强为 $x$ 的过程中的标签错误率; $\lambda_{k+1}$ 为 $A$ 的拉普拉斯矩阵 $\mathcal{L}$ 的第 $k + 1$ 小的特征值
定理4.1的公式(2)是理解数据膨胀和数据增强影响模型识别准确率的核心。其值可由 $\beta,\mathrm{D}_{\mathrm{TV}}(P_g,P_d)$ , $\alpha$ 和 $\lambda_{k+1}$ 决定。通过第3章的分析已知混合比例 $\beta$ 是通过data inflation控制的, $\mathrm{D}_{\mathrm{TV}}(P_g,P_d)$ 取决于生成模型本身的质量，二者都可归类为data inflation策略

而决定公式(2)大小的另外两个因素，接下来做详细阐述。
标签错误(Labeling error) 由于random resize crop的作用，增强数据时会对原数据进行部分裁剪，且裁剪后的样本与原样本的标签类别一致，但有可能造成实际真值的变化。比如原本的图片是茶壶，裁剪后的实际内容变成了茶罐，然而标签值依旧是茶壶。而且增强程度越大(即裁剪图越小)，越容易得到更局部的图像，增大标签错误率 $\alpha$ 。

图的连通程度(graph connectivity) 根据spectral graph theory, 拉普拉斯特征值可以作为图的连通度的代数衡量，越大的特征值表示图的连通程度越好，因此可以使用 $\lambda_{k+1}$ 来间接反映连通性。

如图所示，更强的数据增强，即裁剪区域越小，越有可能将原本不同类别的数据增强为事实上同一类别的数据，因而增加了样本间联系，连通性越容易增强。
同时，data inflation因为新生成数据样本，产生更多的相同类别数据，因此也会增加连通性。这可以用图的采样率(即从整个样本中选取部分样本的比例)解释，越小的采样率，采样子图的连通性越小，又因为非数据膨胀的样本图可以看为是带数据膨胀样本图的子集，因而非数据膨胀样本图的连通性小，说明data inflation可以增加连通性。相关理论源可由引理4.2解释
引理4.2 假设 $G$ 是由 $n$ 个顶点，spectral gap $\lambda=\mathrm{min} \{\lambda_2, 2-\lambda_N\}$ ,结点最小度数为 $d_{min}$ 组成的图， $H$ 是 $G$ 的子图，选择 $G$ 的边的概率为 $p$ ，则有
$\lambda_H=\lambda - \mathcal{O}(\sqrt{\frac{ \mathrm{log}n}{pd_{min}}} + \frac{(\mathrm{log}n)^{3/2}}{pd_{min}(\mathrm{log}n)^{3/2}} ) \quad \quad (3)$
显然， $p$ 越大，采样率就越大，子图就越大， $\mathcal{O}()$ 就越小， $\lambda_H$ 就越大，总的连通程度就越大

如上总结，data inflation和data augmentation在影响预测效果的4个指标上存在互补关系。
data augmentation可以提高 $\lambda_{k+1}$ 来降低 $\varepsilon(f^*,B^*)$ ,但是其同时也会增大 $\alpha$ ,这会加大 $\varepsilon(f^*,B^*)$ ，因此该操作具有冲突性。而data inflation会增大 $\lambda_{k+1}$ ，但不会影响 $\alpha$ .因此，当data inflation使用较为充分， $\lambda_{k+1}$ 有一定提高时，采用较弱的data augmentation将 $\lambda_{k+1}$ 进一步提高，同时 $\alpha$ 不过分增大。而当数据过少，则需要使用较强的data augmentation来充分增大 $\lambda_{k+1}$ 。适度的对两种数据处理方式进行强度调整，可以在不增加计算复杂度的情况下获得更好的模型效果。