数据增强方法 - Mixup, Cutmix, SnapMix

[ICLR 2018] mixup: Beyond Empirical Risk Minimization

Mixup

  • 当前网络优化方法大多遵循经验风险最小化方法 (Empirical Risk Minimization, ERM),即使用采样的样本来估计训练集整体误差。如果模型体量固定,数据量足够,即可保证使用 ERM 时训练的收敛性。但如今网络体量都很大,这就造成:(1) 网络倾向于记忆训练样本,而不是泛化;(2) 网络难以抵御分布外样本,如肉眼感官没有区别的对抗样本。解决上述问题的一个途径就是使用邻域风险最小化原则 (Vicinal Risk Minimization, VRM),即通过先验知识构造训练样本在训练集分布上的邻域值。通常做法就是传统的数据增强,如翻转,旋转,放缩等。但是这种做法过于依赖特定数据库,此外需要人类的先验知识
  • 本文的贡献是提出一种新的数据增强方式 mixup,即使用线性插值的方法得到新的扩展数据 (相当于加入了如下先验知识:对两个样本线性插值得到的新样本,其标签也由两个样本标签线性插值得到. “linearity is a good inductive bias from the perspective of Occam’s razor”)

  • 具体实现时,可以直接对一个 mini-batch 里的样本 random shuffle 后再进行 mix-up。假设 ( x i , y i ) , ( x j , y j ) (x_i,y_i),(x_j,y_j) (xi,yi),(xj,yj) 是两个训练样本, λ ∈ [ 0 , 1 ] λ\in[0,1] λ[0,1],则新的拓展数据为:
    在这里插入图片描述其中, λ ∼ B e t a ( α , α ) \lambda\sim Beta(\alpha,\alpha) λBeta(α,α) ( α > 0 \alpha>0 α>0), α \alpha α 为 mixup hyper-parameter,它被用于控制插值的强度, α → 0 \alpha\rightarrow0 α0 (i.e. λ λ λ 几乎只取 0, 1) 时,本文提出的拓展方法就退化到了 ERM 的情景,而当 α \alpha α 足够大时,mixup 可能会导致模型在训练集上欠拟合,因此,通过选取一个合适的 α \alpha α,就可以达到 bias-variance balance。下图展示了 α \alpha α 取不同值时,Beta 分布的可视化结果:
    在这里插入图片描述不过作者也提到,不同数据集上合适的 α \alpha α 取值可能会非常不同,且总的来说,模型越大,mixup 带来的提升越明显
  • 实验证明,mixup 在 ImageNet-2012, CIFAR-10, CIFAR-100, Google commands (speech data) 和 UCI (tabular data) 数据集上均提高了 SOTA 模型的泛化性能。同时,mixup 还能减少网络对错误标签的记忆,提高网络对对抗样本的鲁棒性,以及稳定 GAN 网络的训练

作者在论文中也提到,三个或更多样本的 convex combinations 并不能带来进一步的性能提升。同时,只对相同标签的样本进行插值也不能带来进一步的性能提升

Experiments

Image Classification Task

ImageNet-2012

在这里插入图片描述


Cifar-10 and Cifar-100

在这里插入图片描述

α = 1 \alpha=1 α=1

Speech data

在这里插入图片描述

对于音频数据,作者在频谱图上进行 mixup. 可以看到,mixup 对于规模较大的模型更有效

Memorization of Corrupted Labels

在这里插入图片描述

Robustness to Adversarial Examples

在这里插入图片描述

Tabular data

在这里插入图片描述

Stabilization on GANs

在这里插入图片描述

这里作者在 discriminator 的训练中使用了 mixup (因为也是一个 classifier),generator 还是用自己生成的 data 在 discriminator 中的 loss 来训练。上图为在两个玩具数据集上训练得到的 GAN 网络,其中蓝色点为数据集中的样本

[ICCV 2019] CutMix: Regularization Strategy to Train Strong Classifiers With Localizable Features

Introduction

  • Regional dropout 可以使得模型关注物体的 less discriminative parts (e.g. leg as opposed to head of a person) (full object extents are considered as cues for classification),从而提升模型的泛化性,但现有的 regional dropout 方法往往是给 image patch 加噪或是置 0,这可能会抹除图像中的 informative pixels,从而导致信息损失以及训练效率的降低 (一张图像只有一部分像素信息被使用了)
  • 为此,作者提出 CutMix,在使用 regional dropout 的同时还能有效使用图像中的所有像素信息

在这里插入图片描述

CutMix

  • x , y x,y x,y 分别为图像和标签,通过随机采样 batch 内的一个训练样本对 ( x A , y A ) , ( x B , y B ) (x_A,y_A),(x_B,y_B) (xA,yA),(xB,yB)CutMix 生成新样本 ( x ~ , y ~ ) (\tilde x,\tilde y) (x~,y~)
    在这里插入图片描述其中, M ∈ { 0 , 1 } W × H \mathbf M\in\{0,1\}^{W\times H} M{0,1}W×H 为图像的 binary mask,即新图像的一部分为图像 A A A,另一部分为图像 B B B相比 Mixup,CutMix 能生成局部更自然的图像. λ ∼ Beta ( α , α ) \lambda\sim\text{Beta}(\alpha,\alpha) λBeta(α,α),作者取 α = 1 \alpha=1 α=1,即先验分布为 0 ~ 1 上的均匀分布
  • 在具体实现时, M \mathbf M M 为与原图像长宽比相同的 rectangular mask,可以用 bounding box B = ( r x , r y , r w , r h ) \mathbf B=(r_x,r_y,r_w,r_h) B=(rx,ry,rw,rh) 表示,bounding box 内的 mask 为 0,其余区域 mask 为 1,也就是图像 A A A 中位于 bounding box 内的区域被替换为图像 B B B. bounding box 的坐标根据如下分布进行采样:
    在这里插入图片描述 其中 cropped area ratio 为 r w r h W H = 1 − λ \frac{r_wr_h}{WH}=1-\lambda WHrwrh=1λ

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Experiments

Image Classification

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Weakly Supervised Object Localization

在这里插入图片描述

在这里插入图片描述

Transfer Learning of Pretrained Model

在这里插入图片描述

Robustness and Uncertainty

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

Ablation Studies

在这里插入图片描述

Figure 3, right plot 展示了 feature-level CutMix 的性能 (0=image level, 1=after first conv-bn, 2=after layer1, 3=after layer2, 4=after layer3),结果表明直接在图像上做 CutMix 效果是最好的

在这里插入图片描述

[AAAI 2021] SnapMix: Semantically Proportional Mixing for Augmenting Fine-grained Data

Introduction

  • 现有的 Data mixing augmentation 主要是混合不同图像的像素并根据像素的混合比例设置新的标签,但对于细粒度图像数据而言,上述数据增强方法可能会破坏原有样本的 discriminative information,这导致新样本丢失了原有样本的特征显著区域,按照像素混合比例设置新标签会导致新样本无法反映新标签的语义信息,这会给模型训练引入标签噪声
  • 为此,作者提出了 SnapMix (Semantically Proportional Mixing),利用 CAM 类激活热力图来估计新生成样本的语义成分,再根据语义成分设置新的软标签,进而降低训练时的标签噪声

在这里插入图片描述

Semantically Proportional Mixing

  • MixUp
    在这里插入图片描述其中, I i ∈ R 3 × W × H I_i\in\R^{3\times W\times H} IiR3×W×H 为图像, λ \lambda λ 采样自 B e t a ( α , α ) Beta(\alpha,\alpha) Beta(α,α) ρ a , ρ b \rho_a,\rho_b ρa,ρb 为 label weights
  • CutMix
    在这里插入图片描述其中, M λ ∈ R W × H M_{\lambda}\in\R^{W\times H} MλRW×H 为 binary mask of a random box region whose area ratio to the image is λ λ λ

SnapMix for Fine-grained Recognition

在这里插入图片描述

  • Mixing images. 现有的数据混合方法 blend images at symmetric locations, i.e., the selected areas to be mixed are restricted to be complementary (例如 CutMix 替换图像 a a a 的某个位置的一片矩形区域时,使用的是图像 b b b 的对应位置的矩形区域,而非图像 b b b 的其他位置的相同大小的矩形区域). 作者认为这限制了生成图像的多样性,因此 SnapMix mix images asymmetrically,i.e., crop an area at a random location in one image and transform and paste it to another random place in another image
    在这里插入图片描述其中, M λ a , M λ b M_{\lambda^a},M_{\lambda^b} Mλa,Mλb 为 two binary masks containing random box regions with the area ratios λ a \lambda^a λa and λ b \lambda^b λb. T θ T_{\theta} Tθ 为尺寸变换函数,使得图像 b b b 的 cutout region 大小和图像 a a a 的 box region 一致
  • Label generation. 为了更好地估计 mixed image 的 semantic composition,作者利用 CAM 来量化原始图像中各个像素点和标签的语义关联程度。假设图像 I i I_i Ii 对应的最后一个卷积层的输出为 F ( I i ) ∈ R d × h × w F(I_i)\in\R^{d\times h\times w} F(Ii)Rd×h×w w y i ∈ R d w_{y_i}\in\R^d wyiRd 为类别 y i y_i yi 对应的分类器权重,则 CAM 类激活热力图
    在这里插入图片描述其中, Φ \Phi Φ 代表对特征图上采样到图像大小 (注意这里 CAM 热力图也是直接由现有模型生成的,而非使用其他预训练模型获得的)。通过对 CAM 进行归一化可以得到 Semantic Percent Map (SPM)
    在这里插入图片描述SPM 各个像素点对应的值相加为 1,每个像素点处的值就代表着该像素点与标签的语义关联程度。根据 SMP,可以计算 label weights
    在这里插入图片描述

Experiments

  • Comparison with data augmentation methods.
    在这里插入图片描述在这里插入图片描述
  • Comparison with state-of-the-art methods.
    在这里插入图片描述
  • Training from scratch.
    在这里插入图片描述
  • Effectiveness of using other network backbones.
    在这里插入图片描述
  • Influence of hyperparameters.
    在这里插入图片描述
  • Effectiveness of each component of SnapMix.
    在这里插入图片描述
  • Visualization.
    在这里插入图片描述

References

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值