介绍
作者提出了一个简单使用的文本数据增强手段,Easy Data Augmentation(EDA)。尽管已经有人提出了一些树增强手段,比如将英文文本翻译成法语,然后再翻译成英文,但是这样的手段并不是很常用,于是作者提出自己简单的数据增强手段——EDA
EDA
- Synonym Replacement (SR)
随机从句子中选择 n n n个词(非停用词),然后从它们的同义词中随机挑选一个替换掉原词。 - Random Insertion(RI)
随机地从句子中选择一个词(非停用词),再随机地选择它的一个同义词,插入句子的任意一个位置,重复这一操作 n n n
次。 - Random Swap
随机从句子中选择两个词,交换他们的位置。重复这一操作 n 次 - Random Deletion
以概率 p p p 随机删除句子里的每个词
实验与分析
EDA Makes Gains
作者在CNN和RNN模型上实验了EDA的效果,如图所示,在使用EDA后,500个训练样本上的效果提升了3.0%,而完整的数据集上则提升了0.8%
训练集
作者也做了对比试验,验证了不同的训练集大小对于效果提升的影响。训练集大小分别选用了【1%,5%,10%,20%,30%,40%,50%,60%,70%,80%,90%,100%】,在五个数据集的效果和平均效果如下图所示:
图(a)-(e)分别对应着SST-2、CR、SUBJ、TREC和PC五种不同的数据集。图(f)是五种数据集上的平均值。可见EDA技术在所有的数据集上都取得了比Baseline更好的效果,但同时我们发现,随着数据集的增大,EDA的效果提升变得不明显。我们注意到,在使用了EDA手段后,模型平均只需要50%的训练数据就可以得到大约88.6%的准确率。
Does EDA conserve true labels?
再做数据增强时,我们只改变了文本,保留了标签不变,但是如果文本经过较大的改变,会使得标签不正确,为了探究EDA处理后的语句是否改变了语义,作者对其进行可视化处理,做法是在没有EDA处理时,训练RNN网络,然后将测试集的句子输入网络,取最后一个全连接层做
t
−
S
N
E
t-SNE
t−SNE聚类。
结果可见,经过EDA处理后的句子与原句子距离还是很近。大部分经过EDA处理的句子还是保留了正确的标签。
EDA Decomposed
How much augmentation
经验
-
- 共有两个版本,一个是汉语的数据增强方法,一个是英文数据增强方法,会自己用的时候拿来用即可。