Raki的读paper小记:EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification

82 篇文章 10 订阅

Abstract & Introduction & Related Work

  • 研究任务
    NLP数据增强
  • 已有方法和相关工作
    • 将句子翻译成法语再翻译回英语
  • 面临挑战
    • NLP中的通用数据增强技术还没有被彻底探索过
    • 相关工作具有创造性,但往往很复杂,它们在实践中不常被使用,因为相对于性能增益而言,它们的实施成本很高
  • 创新思路
    使用四种方法进行数据增强:同义词替换、随机插入、随机互换和随机删除
  • 实验结论
    在五个数据集上使用一半的数据达到了之前用全部数据同样的准确率

EDA

  1. 同义词替换:随机从句子里面选取n个不是停用词的词,随机选择一个它们的同义词
  2. 随机插入:在句子中随机找到一个非停止词的同义词。将该同义词插入句子中的一个随机位置。这样做n次
  3. 随机互换:随机选择句子中的两个词并交换它们的位置。这样做n次
  4. 随机删除:以概率p随机删除句子中的每个词
    在这里插入图片描述
    由于长句比短句有更多的词,它们可以吸收更多的噪音,同时保持它们原来的类别标签。为了补偿,我们根据句子的长度 l l l 来改变 S R 、 R I SR、RI SRRI R S RS RS 的单词数量n,公式为 n = α l n=αl n=αl,其中 α α α 是一个参数,表示一个句子中单词被改变的百分比(我们对RD使用p=α)。此外,对于每一个原始句子,我们都会生成一个增强的句子。表1中显示了增强的句子的例子。我们注意到,同义词替换以前也被使用过(Kolomiyets等人,2011;Zhang等人,2015;Wang和Yang,2015),但就我们所知,随机插入、交换和删除还没有被广泛研究过
    在这里插入图片描述

Experimental Setup

Benchmark Datasets

在这里插入图片描述

Text Classification Models

模型选用LSTM和CNN文本分类模型
在这里插入图片描述

Results

在这里插入图片描述

Does EDA conserve true labels?

在数据扩增中,输入数据被改变,而类别标签保持不变。然而,如果句子被大大改变,那么原来的类标签可能就不再有效。我们采取了一种可视化的方法来检查EDA操作是否明显改变了增强的句子的含义。首先,我们在没有增强的情况下,在亲缘分类任务(PC)上训练一个RNN。然后,我们将EDA应用于测试集,为每个原始句子生成九个增强的句子。这些句子与原始句子一起被送入RNN,我们从最后的密集层中提取输出。我们对这些向量应用t-SNE(Van Der Maaten,2014),并绘制其二维表示(图2)。我们发现,增强后的句子的潜空间表征与原始句子的潜空间表征密切相关,这表明在大多数情况下,用EDA增强的句子保留了其原始句子的标签
在这里插入图片描述
在这里插入图片描述

How much augmentation

下一步自然是确定每个原始句子所生成的增强句子的数量( n a u g n_{aug} naug)如何影响性能。在图4中,我们显示了 n a u g n_{aug} naug = { 1 , 2 , 4 , 8 , 16 , 32 } \{1, 2, 4, 8, 16, 32\} {1,2,4,8,16,32}的所有数据集的平均性能。对于较小的训练集,过拟合的可能性较大,因此生成许多增强的句子会产生较大的性能提升。对于较大的训练集,每个原始句子增加四个以上的增强句子是无益的,因为当大量的真实数据可用时,模型倾向于适当的概括。基于这些结果,我们建议使用表3中的参数

在这里插入图片描述

Comparison with Related Work

EDA既不需要训练语言模型,也不需要使用额外的数据
在这里插入图片描述

Discussion and Limitations

我们的论文旨在解决NLP中缺乏标准化数据增强的问题(与视觉相比),介绍了一套简单的操作,可能作为未来调查的基线。随着近年来NLP研究的进展速度,我们猜测研究人员很快就会找到性能更高的增强技术,而且也会很容易使用。

值得注意的是,最近在NLP方面的许多工作都集中在使神经模型更大或更复杂。然而,我们的工作则采取了相反的方法。我们引入了简单的操作,这是提出基本问题的结果,即我们如何才能在不改变句子的真实标签的情况下生成用于扩增的句子?

我们并不期望EDA成为NLP的首选增强方法,无论是现在还是将来。相反,我们希望我们的思路可能会给通用或特定任务的数据扩增带来新的方法。

现在,让我们注意一下EDA的许多限制。最重要的是,在数据充足的情况下,性能增益可能是微不足道的;对于我们的五个分类任务,在用完整的数据集训练时,平均性能增益不到1%。虽然小数据集的性能增益似乎很明显,但EDA在使用预训练的模型时可能不会产生实质性的改进。一项研究发现,在使用ULMFit时,EDA的改进可以忽略不计(Shleifer,2019),我们预计ELMo(Peters等人,2018)和BERT(Devlin等人,2018)的结果也类似。最后,尽管我们在五个基准数据集上进行了评估,但其他关于NLP中的数据增强的研究使用了不同的模型和数据集,因此与相关工作的公平比较是非常不简单的

Conclusions

我们已经证明,简单的数据增强操作可以提高文本分类任务的性能。尽管改进有时是微不足道的,但EDA大大提升了性能,并减少了在较小数据集上训练时的过拟合。关于这个主题的继续工作可以探索EDA操作的理论基础。我们希望EDA的简单性能够为进一步的思考提供一个令人信服的理由

Remark

NLP竞赛里常用的数据增强,简单好用

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值