Unsupervised Data Augmentation for Consistency Training

68 篇文章 2 订阅
60 篇文章 1 订阅

Abstract

当标准数据不足时,半监督学习展现出很大的优势。
近期方法的一个共同点是在大量 无标注 数据上使用 consistency training 来约束模型预测结果,使其具有 输入噪音不变性invariant to input noise).

本文从一个新的角度出发,探究如何有效地为无标签数据添加噪音。并且指出 噪音的质量 尤其是那些由高级数据增强方法产生的噪音的质量,在半监督学习中扮演了关键的角色。

在同样的 consistency training 框架下,通过使用高级的数据增强方法(如 RandAugment and back-translation)来代替简单的加噪操作,我们的方法在 6 种自然语言和 3 种视觉任务上带来显著的提升。

在 IMDb 文本分类数据集上,在只有 20 个标注样本的情况下,我们的方法将错误率降到了 4.20,好于在 25,000 个标注样本上训练的 SOTA 模型。

在一个标准的半监督学习 benchmark CIFAR-10 上,我们的方法超过之前的所有方法并且将错误率降低到了 5.43. 做到这一点,我们只用了 250 个标注样本

我们的方法和迁移学习也能很好地结合。

Introduction

半监督学习(Semi-supervised learning (SSL))是利用大量无监督数据的一种有效范式。consistency training 是对模型预测的一种正规化,使其无论是对施加于输入样本或是隐层状态上的噪声都能保持预测结果不变。通常的噪音注入方法包括

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
无监督的数据增强是一种用于一致性训练的技术。在机器学习任务中,一致性训练是指通过使用多个不同版本的输入数据来增强模型的鲁棒性和泛化能力。 传统的数据增强技术通常需要手动标注数据,并提供给模型进行有监督学习。然而,当可用的标注数据有限或者成本较高时,无监督的数据增强技术可以用来增加训练数据的数量和多样性,从而改善模型的性能。 无监督的数据增强技术通过对原始数据进行一系列变换和扰动来生成新的训练样本,而这些变换和扰动不需要额外的标注信息。这些变换可以包括图像翻转、旋转、缩放、平移、加噪声等等。通过这种方式,无监督的数据增强可以从有限的训练样本中生成大量的人工样本,有效地扩展了训练数据的规模和多样性。 无监督的数据增强可以用于各种机器学习任务,如图像分类、目标检测、语义分割等。通过在一致性训练中使用无监督的数据增强,模型可以学习到不同版本的输入数据之间的一致性,并提高对于噪声和变化的鲁棒性。例如,在图像分类任务中,模型可以通过看到同一张图像在不同变换下的预测结果来学习更稳定和一致的特征表示。 总之,无监督的数据增强是一种有效的技术,可以通过生成大量的人工训练样本来改善模型的性能。在一致性训练中,无监督的数据增强可以帮助模型学习到不同版本的输入数据之间的一致性,从而提高模型的鲁棒性和泛化能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值