【无标题】

介绍

作者提出了一个简单使用的文本数据增强手段,Easy Data Augmentation(EDA)。尽管已经有人提出了一些树增强手段,比如将英文文本翻译成法语,然后再翻译成英文,但是这样的手段并不是很常用,于是作者提出自己简单的数据增强手段——EDA

EDA

  • Synonym Replacement (SR)
    随机从句子中选择 n n n个词(非停用词),然后从它们的同义词中随机挑选一个替换掉原词
  • Random Insertion(RI)
    随机地从句子中选择一个词(非停用词),再随机地选择它的一个同义词,插入句子的任意一个位置,重复这一操作 n n n
    次。
  • Random Swap
    随机从句子中选择两个词,交换他们的位置。重复这一操作 n 次
  • Random Deletion
    以概率 p p p 随机删除句子里的每个词

在这里插入图片描述

实验与分析

EDA Makes Gains

作者在CNN和RNN模型上实验了EDA的效果,如图所示,在使用EDA后,500个训练样本上的效果提升了3.0%,而完整的数据集上则提升了0.8%

在这里插入图片描述

训练集

作者也做了对比试验,验证了不同的训练集大小对于效果提升的影响。训练集大小分别选用了【1%,5%,10%,20%,30%,40%,50%,60%,70%,80%,90%,100%】,在五个数据集的效果和平均效果如下图所示:
在这里插入图片描述
图(a)-(e)分别对应着SST-2、CR、SUBJ、TREC和PC五种不同的数据集。图(f)是五种数据集上的平均值。可见EDA技术在所有的数据集上都取得了比Baseline更好的效果,但同时我们发现,随着数据集的增大,EDA的效果提升变得不明显。我们注意到,在使用了EDA手段后,模型平均只需要50%的训练数据就可以得到大约88.6%的准确率

Does EDA conserve true labels?

再做数据增强时,我们只改变了文本,保留了标签不变,但是如果文本经过较大的改变,会使得标签不正确,为了探究EDA处理后的语句是否改变了语义,作者对其进行可视化处理,做法是在没有EDA处理时,训练RNN网络,然后将测试集的句子输入网络,取最后一个全连接层做 t − S N E t-SNE tSNE聚类。
在这里插入图片描述
结果可见,经过EDA处理后的句子与原句子距离还是很近。大部分经过EDA处理的句子还是保留了正确的标签

EDA Decomposed

在这里插入图片描述

How much augmentation

在这里插入图片描述
在这里插入图片描述

经验

    • 共有两个版本,一个是汉语的数据增强方法,一个是英文数据增强方法,会自己用的时候拿来用即可。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

big_matster

您的鼓励,是给予我最大的动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值