目录
A Survey of Data Augmentation Approaches for NLP https://arxiv.org/abs/2105.03075
摘要
小资源领域,新任务,和大规模神经网络需要大量的训练数据。但由于离散的自然语言数据问题,nlp数据增强还有很大的挑战。
介绍
NLP中数据增强不被重视或者没有被太多研究,是因为离散的自然语言,排除了连续的噪声,很难维持不变性。由于预训练模型的兴起,更多的任务和更多的领域被发掘,所以很多小资源的场景需要更多的数据,数据增强的地位越来越高,尤其是很多非分类任务,如跨域任务和生成任务。
背景
什么是数据增强
DA(data augmentation)是增加训练数据的多样性而不是直接收集数据。大多数策略要么是简单修改已有数据副本,或者是创建合成数据,旨在使用增强的数据作为正则并减少过拟合。由于nlp中的输入空间是离散的,生成有意义的文本数据并不那么简单。
目标和权衡
一个理想的DA方法既能简单实现又能提高模型效果,这是一方面的权衡;另一方面是增强的数据分布与原始数据既不能太相似又不能相差太大。
DA的解释
有很多对于DA的解释:1.有噪声的训练可以简化为正则化;2.DA可以增加分类器的正边距,但仅限于例子以指数级增长时;3.DA可以帮助特征平均和方差正则化;4.在保持数据分布近似不变的情况下,DA通过对群的轨道求平均值来减少方差;
技术和方法
基于规则
1.特征空间增强;
2.EDA,词级别的随机变换;
paper地址: https://arxiv.org/abs/1901.11196
github实现: https://github.com/jasonwei20/eda_nlp
3.UDA,有监督方法用于无监督数据;
github实现:https://github.com/google-research/uda
4.基于依赖树变形;
基于插值
1.Mixed Sample Data Augmentation(图像):
mixup,cutmix,cutout,copy-paste
seq2mixup(nlp):https://arxiv.org/pdf/2011.09039.pdf,switchout
基于模型
1.backtranslation(回译);
2.contextual augmentation(MLM);
3.semantic text exchange,replacement entity;
4.text generate(GPT2);
5.outher approaches...
应用
小资源语言
典型的低资源语言为机器翻译,然而,有很多方法可以利用高资源语言对于低资源语言,特别是如果低资源语言具有相似的语言特性。
性别偏见
conuteractual DA(CDA)解决性别偏见,将性别实体交换。
类别不平衡
解决类别不平衡问题使用欠过采样方法,SMOTE(同步少数过采样技术)方法和EDA是其中流行的方法。
少样本学习
数据增强方法可以通过在新的类别中加入更多数据缓解少样本学习问题。
对抗样本
生成对抗样本是使用无害标签欺骗nlp模型。
任务
摘要
回译;UDA;混合合成和真实数据。
问答
回译;XLDA,跨语言DA;BERT。
序列标注
DAGA,两步DA;依赖树变形;seqmix。
解析任务
数据重组;同步上下文语法(SCFG),GRAPPA;依赖树同POS任务。
语法纠错
在带噪语料中学习错误模式。
机器翻译
使用增强方法替换两个源中的词。
数据-文本生成
数据到文本NLG是指需要对结构化或半结构化数据输入进行自然语言描述的任务。E2E-NLG和WebNLG是两个流行的方法。
开放域和有条件生成
用一套DA方法在低资源域上对GPT-2进行精细化实验为了提高生成的连续体的质量,他们称之为GENAUG。
对话
大多数对话的DA方法侧重于面向任务的对话;句子级别和词级别的DA方法,lightweight augmentation,seq2seq DA;。。。。
多模态任务
挑战和未来方向
总结
在本文中,我们提出了一个全面的自然语言处理(NLP)数据扩充的结构化调查。我们提供了一个数据扩充的背景知识及其实现方法工作,讨论了NLP的主要方法论代表性数据扩充技术,以及触及数据扩充技术流行的NLP应用程序和任务。最后,我们概述了当前的挑战和未来的研究方向,并指出还有很大的发展空间为了进一步探索。总的来说,我们希望我们的论文可以作为NLP研究人员决定使用哪些数据增强技术,以及激发更多的兴趣和在这方面的工作。