论文阅读笔记:UNSUPERVISED DATA AUGMENTATION FOR CONSISTENCY TRAINING

UNSUPERVISED DATA AUGMENTATION FOR CONSISTENCY TRAINING

github代码地址
论文下载地址

Summary

  • 将监督学习中常用的数据增强方式应用于半监督学习。
  • 在图像分类中应用RandAugment方法,文本分类中使用Back-translation和Word replacing with TF-IDF方法。
  • 提出TSA方法来处理有标签样本和无标签样本数据不平衡问题。
  • 在6项文本任务和3项图像任务中进行实验,取得优异的结果。

Problem Statement

  • 深度学习的缺陷在于它通常需要大量的标记数据才能work well。
  • 近年来,在设计NLP、VISION和Speech方面,数据增强方面取得了重大进展。尽管取得了很好的效果,但数据增强大多被认为是蛋糕上的樱桃,它提供了稳定但有限的性能提升,因为到目前为止,这些增强只适用于一组标有标签的示例,这些例子通常都是小尺寸的。

Research Object

  • 提出用高质量的数据增强方法代替传统的噪声注入方法,提高训练的一致性。

Methods

Unsupervised Data Augmentation (UDA)

针对分类任务,使用 x x x指代input, y ∗ y^* y指代ground-truth prediction target,旨在学习一个模型 p θ ( y ∣ x ) p_θ(y|x) pθ(yx),基于 x x x来预测 y y y θ θ θ指代模型参数, L L L U U U来分别指代带标签和不带标签的样本。

1.Background: Supervised Data Augmentation

q ( x ^ ∣ x ) q(\hat{x}|x) q(x^x) x x x到增强样本 x ^ \hat{x} x^的增强变换, x x x x ^ \hat{x} x^共享同一个ground-truth label。给定有效的增强变换,我们可以简单地将增强样例进行负对数似然最小化。
数据增强在NLP、VISION、SPEECH领域都有使用,但被认为是蛋糕上的樱桃,它提供了稳定但有限的性能提升,因为到目前为止,这些增强只适用于一组标有标签的示例,这些例子通常都是小尺寸的。出于这一限制,通过一致性训练框架,我们将监督数据增强的进展扩展到有大量未标记数据的半监督学习。

2.Unsupervised Data Augmentation

半监督学习的最新工作是利用未标记的示例来增强模型的smoothness。这些工作的一般形式可概括如下:

  • Given an input x x x, compute the output distribution p θ ( y ∣ x ) p_θ(y|x) pθ(yx) given x x x and a noised version p θ ( y ∣ x , ϵ ) p_θ(y|x,\epsilon) pθ(yx,ϵ) by injecting a small noise ϵ \epsilon ϵ. The noise can be applied to x x x or hidden states.
  • Minimize a divergence metric between the two distributions D ( p θ ( y ∣ x ) ∣ ∣ p θ ( y ∣ x , ϵ ) ) D(p_θ(y|x)||p_θ(y|x,\epsilon)) D(pθ(yx)pθ(yx,ϵ))
    此过程强制使模型对噪声不敏感,因此相对于输入(或隐藏)空间的变化更平滑。 从另一个角度来看,将一致性损失降至最低会逐渐将标签信息从已标记的数据传播到未标记的数据

在此工作中,我们对将噪声注入input x x x的特定设置感兴趣, x ^ = q ( x ∣ ϵ ) \hat{x}=q(x|\epsilon) x^=q(xϵ)
但是与现有工作不同,我们关注如下问题,即噪声操作q的形式或“质量”如何影响一致性训练框架的性能。 具体而言,为了增强一致性,现有方法通常采用简单的噪声注入方法,例如添加高斯噪声,对未标记噪声的示例进行简单的输入增强。相反,我们认为,在半监督学习框架中,使用在监督学习中的数据增强功能来处理未标记数据也可以带来更好的性能,因为已经证明:更多样化和更自然的高级数据增强可以在监督模型中显著提高性能。

整体的loss由使用权重因子 λ \lambda λ平衡有监督的cross entropy和无监督的consistency training loss组成,过程如图1所示,也可写成: min ⁡ θ J ( θ ) = E x , y ∗ ∈ L [ − log ⁡ p θ ( y ∗ ∣ x ) ] + λ E x ∈ U E x ^ ∼ q ( x ^ ∣ x ) [ D K L ( p θ ~ ( y ∣ x ) ∣ ∣ p θ ( y ∣ x ^ ) ) ] \min \limits_\theta J(\theta)=E_{x,y^*\in L}[-\log p_\theta(y^*|x)]+ \lambda E_{x\in U}E_{ \hat{x} \sim q(\hat{x}|x)} [D_{KL}(p_{{\tilde \theta}}(y|x)||p_\theta(y|\hat{x}))] θminJ(θ)=Ex,yL[logpθ(yx)]+λExUEx^q(x^x)[DKL(pθ~(yx)pθ(yx^))] q ( x ^ ∣ x ) q(\hat{x}|x) q(x^x)是数据增强转换, θ ~ {\tilde \theta} θ~是当前参数 θ \theta θ的固定副本,指梯度并不通过 θ ~ {\tilde \theta} θ~传播。

在这里插入图片描述

Discussion.在详细介绍本工作中使用的增强操作之前,我们首先从以下三个方面介绍更高级的数据增强如何提供比早期工作中使用的简单方式更多的优势:

  • Valid noise:在监督学习中表现出色的高级数据扩充方法通常会生成真实的扩充数据,这些数据与原始数据共享相同的标签。 因此,可以有效确保对原始未标记数据和增强未标记数据预测的一致性。
  • Diverse noise:由于高级数据增强可以对输入数据进行较大的改动而不改变其标签,所以它具有更强的多样性,而例如高斯噪声只改变了局部信息。
  • Targeted inductive biases:不同的任务需要不同的归纳偏差。在监督训练中工作良好的数据增强操作本质上提供了缺失的归纳偏差。
3.Augmentation Strategies For Different Tasks
  • RandAugment for Image Classification: AutoAugment通过在所有的图像处理转换方式中进行搜索,以便找到一个最优的增强策略。RandAugment(Cubuk et al.,2019)受AutoAugment方法启发,但是没有使用搜索,而是在图像增强转换集合中进行均匀采样,它更简单,不要求数据具有标签。

  • Back-translation for Text Classification: Back-translation指的是把一个样本(语言A)转换成另一个语言B再转换回来,以此得到增强样本,在保留原始语义的同时带来更多样性的表达,它在问答系统中取得了良好的表现。
    在这里插入图片描述

  • Word replacing with TF-IDF for Text Classification: 在文章附录C中有详细描述。

4.Training Signal Annealing For Low-Data Regime

有标签数据和无标签数据数据量不平衡问题,会导致模型对有标签数据过拟合,或无标签数据欠拟合。针对此类问题,本文提出了TSA(Training Signal Annealing)方法,它会在训练过程中逐步释放有标签样本的"training signals",如果这个样本在第 t t t步训练时的 p θ ( y ∗ ∣ x ) p_\theta(y^*|x) pθ(yx)即正确预测其标签的概率值大于阈值 η t \eta_t ηt,那么就把它从loss function中移除,从而减少过拟合现象。假设共有 K K K个类别,令 η t \eta_t ηt逐步从 1 / K 1/K 1/K升至 1 1 1。下图是TSA的三种进度, T T T指代总共的训练次数。在这里插入图片描述

Experiments

6项语言任务:

  • sentiment classification(IMDb,Yelp-2,Yelp-5,Amazon-2,Amazon-5)、DBPedia topic classification

3项视觉任务:

  • CIFAR-10,SVHN,ImageNet
1.Correlation Between Supervised And Semi-Supervised Performances在这里插入图片描述
2.Algorithm Comparison On Vision Semi-Supervised Benchmarks

UDA和目前已有的半监督学习算法相比如何?

  • Vary the size of labeled data

    UDA与VAT以及MixMatch这两个baseline相比有着明显的优越性;

    UDA和VAT的主要差别在于噪声处理,VAT生成的高频图像在现实中并不存在,UDA生成的图像具有多样性和真实性。
    在这里插入图片描述

  • Comparisons with published results
    在这里插入图片描述

3.Evaluation On Text Classificaiton Datasets

在这里插入图片描述

  • Results with different labeled set sizes
    在这里插入图片描述
4.Scalability Test On The ImageNet Dataset

在这里插入图片描述

5.Ablation Studies For TSA

在这里插入图片描述
其它实验细节在文章附录中有详细描述。

Conclusion

本文说明数据增强和半监督学习能够良好地结合,良好的数据增强可以为半监督学习带来显著地提升。UDA采用在监督学习中的数据增强方式来生成多样和真实的噪声数据并使模型对这些噪声保持一致性。在文本任务中,UDA和表示学习良好结合,如BERT,并且在数据量少的情况下取得了优异的表现。在视觉任务中,UDA的表现显著超越之前的模型并取得了和监督学习媲美的结果。UDA可以有效利用额外的无标签数据。希望未来有更多的研究将监督学习的数据增强应用于各种半监督学习之中。

Notes

文章附录记载了未在正文中具体描述的实验内容,以及训练过程中的部分细节信息。

  • 3
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
无监督的数据增强是一种用于一致性训练的技术。在机器学习任务中,一致性训练是指通过使用多个不同版本的输入数据来增强模型的鲁棒性和泛化能力。 传统的数据增强技术通常需要手动标注数据,并提供给模型进行有监督学习。然而,当可用的标注数据有限或者成本较高时,无监督的数据增强技术可以用来增加训练数据的数量和多样性,从而改善模型的性能。 无监督的数据增强技术通过对原始数据进行一系列变换和扰动来生成新的训练样本,而这些变换和扰动不需要额外的标注信息。这些变换可以包括图像翻转、旋转、缩放、平移、加噪声等等。通过这种方式,无监督的数据增强可以从有限的训练样本中生成大量的人工样本,有效地扩展了训练数据的规模和多样性。 无监督的数据增强可以用于各种机器学习任务,如图像分类、目标检测、语义分割等。通过在一致性训练中使用无监督的数据增强,模型可以学习到不同版本的输入数据之间的一致性,并提高对于噪声和变化的鲁棒性。例如,在图像分类任务中,模型可以通过看到同一张图像在不同变换下的预测结果来学习更稳定和一致的特征表示。 总之,无监督的数据增强是一种有效的技术,可以通过生成大量的人工训练样本来改善模型的性能。在一致性训练中,无监督的数据增强可以帮助模型学习到不同版本的输入数据之间的一致性,从而提高模型的鲁棒性和泛化能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值