数据增强方法 - Mixup, Cutmix, SnapMix

连理o

已于 2023-04-02 13:53:23 修改

阅读量1.4k

点赞数

文章标签： mixup cutmix snapmix

于 2022-05-04 15:12:24 首次发布

本文链接：https://blog.csdn.net/weixin_42437114/article/details/124556424

版权

papers 专栏收录该内容

39 篇文章 1 订阅

订阅专栏

[ICLR 2018] mixup: Beyond Empirical Risk Minimization

Mixup

当前网络优化方法大多遵循经验风险最小化方法 (Empirical Risk Minimization, ERM)，即使用采样的样本来估计训练集整体误差。如果模型体量固定，数据量足够，即可保证使用 ERM 时训练的收敛性。但如今网络体量都很大，这就造成：(1) 网络倾向于记忆训练样本，而不是泛化；(2) 网络难以抵御分布外样本，如肉眼感官没有区别的对抗样本。解决上述问题的一个途径就是使用邻域风险最小化原则 (Vicinal Risk Minimization, VRM)，即通过先验知识构造训练样本在训练集分布上的邻域值。通常做法就是传统的数据增强，如翻转，旋转，放缩等。但是这种做法过于依赖特定数据库，此外需要人类的先验知识
本文的贡献是提出一种新的数据增强方式 mixup，即使用线性插值的方法得到新的扩展数据 (相当于加入了如下先验知识：对两个样本线性插值得到的新样本，其标签也由两个样本标签线性插值得到. “linearity is a good inductive bias from the perspective of Occam’s razor”)

在具体实现时，可以直接对一个 mini-batch 里的样本 random shuffle 后再进行 mix-up。假设 $x_i,y_i),(x_j,y_j)$ 是两个训练样本， $λ\in[0,1]$ ，则新的拓展数据为：
其中， $\lambda\sim Beta(\alpha,\alpha)$ ( $\alpha>0$ )， $\alpha$ 为 mixup hyper-parameter，它被用于控制插值的强度，当 $\alpha\rightarrow0$ (i.e. $λ$ 几乎只取 0, 1) 时，本文提出的拓展方法就退化到了 ERM 的情景，而当 $\alpha$ 足够大时，mixup 可能会导致模型在训练集上欠拟合，因此，通过选取一个合适的 $\alpha$ ，就可以达到 bias-variance balance。下图展示了 $\alpha$ 取不同值时，Beta 分布的可视化结果：
不过作者也提到，不同数据集上合适的 $\alpha$ 取值可能会非常不同，且总的来说，模型越大，mixup 带来的提升越明显
实验证明，mixup 在 ImageNet-2012, CIFAR-10, CIFAR-100, Google commands (speech data) 和 UCI (tabular data) 数据集上均提高了 SOTA 模型的泛化性能。同时，mixup 还能减少网络对错误标签的记忆，提高网络对对抗样本的鲁棒性，以及稳定 GAN 网络的训练

作者在论文中也提到，三个或更多样本的 convex combinations 并不能带来进一步的性能提升。同时，只对相同标签的样本进行插值也不能带来进一步的性能提升

Experiments

Image Classification Task

ImageNet-2012

在这里插入图片描述

Cifar-10 and Cifar-100

在这里插入图片描述

$\alpha=1$

Speech data

在这里插入图片描述

对于音频数据，作者在频谱图上进行 mixup. 可以看到，mixup 对于规模较大的模型更有效

Memorization of Corrupted Labels

在这里插入图片描述

Robustness to Adversarial Examples

在这里插入图片描述

Tabular data

在这里插入图片描述

Stabilization on GANs

在这里插入图片描述

这里作者在 discriminator 的训练中使用了 mixup (因为也是一个 classifier)，generator 还是用自己生成的 data 在 discriminator 中的 loss 来训练。上图为在两个玩具数据集上训练得到的 GAN 网络，其中蓝色点为数据集中的样本

[ICCV 2019] CutMix: Regularization Strategy to Train Strong Classifiers With Localizable Features

Introduction

Regional dropout 可以使得模型关注物体的 less discriminative parts (e.g. leg as opposed to head of a person) (full object extents are considered as cues for classification)，从而提升模型的泛化性，但现有的 regional dropout 方法往往是给 image patch 加噪或是置 0，这可能会抹除图像中的 informative pixels，从而导致信息损失以及训练效率的降低 (一张图像只有一部分像素信息被使用了)
为此，作者提出 CutMix，在使用 regional dropout 的同时还能有效使用图像中的所有像素信息

在这里插入图片描述

CutMix

$x, y$ 分别为图像和标签，通过随机采样 batch 内的一个训练样本对 $x_A,y_A),(x_B,y_B)$ ，CutMix 生成新样本 $(\tilde x,\tilde y)$
其中， $\mathbf M\in\{0,1\}^{W\times H}$ 为图像的 binary mask，即新图像的一部分为图像 $A$ ，另一部分为图像 $B$ ，相比 Mixup，CutMix 能生成局部更自然的图像. $\lambda\sim\text{Beta}(\alpha,\alpha)$ ，作者取 $\alpha=1$ ，即先验分布为 0 ~ 1 上的均匀分布
在具体实现时， $\mathbf M$ 为与原图像长宽比相同的 rectangular mask，可以用 bounding box $\mathbf B=(r_x,r_y,r_w,r_h)$ 表示，bounding box 内的 mask 为 0，其余区域 mask 为 1，也就是图像 $A$ 中位于 bounding box 内的区域被替换为图像 $B$ . bounding box 的坐标根据如下分布进行采样：
其中 cropped area ratio 为 $\frac{r_wr_h}{WH}=1-\lambda$

在这里插入图片描述

Experiments

Image Classiﬁcation

在这里插入图片描述

Weakly Supervised Object Localization

在这里插入图片描述

Transfer Learning of Pretrained Model

在这里插入图片描述

Robustness and Uncertainty

在这里插入图片描述

Ablation Studies

在这里插入图片描述

Figure 3, right plot 展示了 feature-level CutMix 的性能 (0=image level, 1=after first conv-bn, 2=after layer1, 3=after layer2, 4=after layer3)，结果表明直接在图像上做 CutMix 效果是最好的

在这里插入图片描述

[AAAI 2021] SnapMix: Semantically Proportional Mixing for Augmenting Fine-grained Data

Introduction

现有的 Data mixing augmentation 主要是混合不同图像的像素并根据像素的混合比例设置新的标签，但对于细粒度图像数据而言，上述数据增强方法可能会破坏原有样本的 discriminative information，这导致新样本丢失了原有样本的特征显著区域，按照像素混合比例设置新标签会导致新样本无法反映新标签的语义信息，这会给模型训练引入标签噪声
为此，作者提出了 SnapMix (Semantically Proportional Mixing)，利用 CAM 类激活热力图来估计新生成样本的语义成分，再根据语义成分设置新的软标签，进而降低训练时的标签噪声

在这里插入图片描述

Semantically Proportional Mixing

MixUp
其中， $I_i\in\R^{3\times W\times H}$ 为图像， $\lambda$ 采样自 $Beta(\alpha,\alpha)$ ， $\rho_a,\rho_b$ 为 label weights
CutMix
其中， $M_{\lambda}\in\R^{W\times H}$ 为 binary mask of a random box region whose area ratio to the image is $λ$

SnapMix for Fine-grained Recognition

在这里插入图片描述

Mixing images. 现有的数据混合方法 blend images at symmetric locations, i.e., the selected areas to be mixed are restricted to be complementary (例如 CutMix 替换图像 $a$ 的某个位置的一片矩形区域时，使用的是图像 $b$ 的对应位置的矩形区域，而非图像 $b$ 的其他位置的相同大小的矩形区域). 作者认为这限制了生成图像的多样性，因此 SnapMix mix images asymmetrically，i.e., crop an area at a random location in one image and transform and paste it to another random place in another image
其中， $M_{\lambda^a},M_{\lambda^b}$ 为 two binary masks containing random box regions with the area ratios $\lambda^a$ and $\lambda^b$ . $T_{\theta}$ 为尺寸变换函数，使得图像 $b$ 的 cutout region 大小和图像 $a$ 的 box region 一致
Label generation. 为了更好地估计 mixed image 的 semantic composition，作者利用 CAM 来量化原始图像中各个像素点和标签的语义关联程度。假设图像 $I_i$ 对应的最后一个卷积层的输出为 $F(I_i)\in\R^{d\times h\times w}$ ， $w_{y_i}\in\R^d$ 为类别 $y_i$ 对应的分类器权重，则 CAM 类激活热力图为
其中， $\Phi$ 代表对特征图上采样到图像大小 (注意这里 CAM 热力图也是直接由现有模型生成的，而非使用其他预训练模型获得的)。通过对 CAM 进行归一化可以得到 Semantic Percent Map (SPM)
SPM 各个像素点对应的值相加为 1，每个像素点处的值就代表着该像素点与标签的语义关联程度。根据 SMP，可以计算 label weights