论文解读 | Unsupervised Data Augmentation for Consistency Training

单 位:燕山大学

作 者: 王   琴

摘要

  深度学习尽管取得了很大的成功,但通常在带有小标签的训练集上不能很好地发挥作用。在这种情况下,数据增强在减少对标记数据的需求方面显示出了更大的优势,但是到目前为止,它主要应用于有监督的环境中,并获得了有限的效果。在本文中,作者建议在半监督学习环境中将数据增强应用于未标记的数据,使用的方法称为“无监督数据增强”(Unsupervised Data Augmentation, UDA),使模型预测在未标记样本和扩充的未标记样本之间保持一致。与以前使用诸如高斯噪声或压降噪声之类的随机噪声的方法不同,UDA利用了由最新数据生成的更难、更逼真的噪声增强方法。即使标记数据集非常小,这个不同也使得它在六个语言任务和三个视觉任务有了实质性改进。 例如,在仅带有20个标记样本的IMDb文本分类数据集上,UDA的错误率达到4.20,胜过了在25,000个标记样本上训练的最新模型。 在标准的半监督学习基准CIFAR-10和SVHN上,UDA的性能优于所有以前的方法,在只有4,000个样本的CIFAR-10上实现了2.7%的错误率;在仅有250个示例的SVHN上实现了2.85%的错误率,几乎与大一到两个数量级的全带标签训练的模型性能相同。UDA在大型数据集(如ImageNet)上也能很好地作用。 当使用10%的标记数据集进行训练时,UDA将top-1 / top-5的准确性从55.1 / 77.3%提高到68.7 / 88.5%。 对于具有130万额外未标记数据的完整ImageNet数据集,UDA进一步将性能从78.3 / 94.4%提升至79.0 / 94.5%

1. 简介

  深度学习通常需要大量标记数据才能成功。 但是,对每个新的目标任务来说,标记数据的获得是一个昂贵的过程。 利用未标记的数据来改善深度学习一直是解决此过程的重要研究方向。 在这个方向上,半监督学习是最有前途的方法之一,最近的研究可以分为三类:

  (1)通过图卷积和图嵌入进行基于图的标记传播;
  (2) 将预测目标建模为潜在变量(latent variables);
  (3)一致性/平滑度执行。

  其中,最后一类的方法,即基于平滑度执行的方法,已被证明在许多任务上都能很好地作用。简而言之,平滑度强制只是将模型的预测调整为对样本(有标记或未标记)的小扰动不太敏感。 给定一个观测样本,平滑度强制方法首先创建它的扰动版本(例如,通常通过添加诸如高斯噪声或压降之类的人工噪声),并使得模型对这两个样本有相似的预测。好的模型应该不会被对任何不会改变样本性质的小扰动所影响。在这种通用框架下,该类方法的主要区别在于扰动方法,例如,扰动样本应该如何生成。

  作者在各种语言和视觉任务上评估了UDA。在六个文本分类任务上,作者的方法相对于最新模型取得了重大提升。值得注意的是,在IMDb上,带有20个标记样本的UDA优于在1250倍标记样本上训练的最新模型。作者还在标准半监督学习基准CIFAR-10和SVHN上评估UDA。 UDA明显优于所有现有的半监督学习方法。在具有4,000个带标记样本的CIFAR-10上,UDA的错误率是5.27,几乎与使用50,000个带标记样本的监督模型的性能相匹配。此外,凭借更先进的PyramidNet + ShakeDrop体系结构,UDA达到了2.7的最新错误率。在SVHN上,UDA仅使用250个带标记样本实现了2.85的错误率,几乎与使用73257个带标记样本训练的监督模型的性能相匹配。最后,作者发现当有大量监督数据时,UDA也是有益的。具体来说,在ImageNet任务上,UDA可以将top-1准确性和top-5准确性从58.69 / 80.20%提高到68.66 / 88.52%(带有10%的标记数据集);当使用完整的标记数据集和带有130万个未标记的外部

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值