AEDA: An Easier Data Augmentation Technique for Text Classification阅读笔记

AEDA: An Easier Data Augmentation Technique for Text Classification

代码:https://github.com/akkarimi/aeda_nlp
ADEA是比EDA更加简单的一种数据增强方法,保留句子中单词的顺序,因此会得到相对更好的增强效果。
以往的DA是通过同义词替换、删除、插入和反向翻译。这种方式会插入噪声。使用深度语言模型的DA很复杂,虽然有同义词词典,但还是会造成原始信息的丢失。使用BERT利用上下文的信息进行DA,通过使用双向网络在一个想要的位置用预测的词来替换原本的词。Transformer模型提出Mix-Transformer把两个输入的句子和相应标签线性输入去创造新的样本。之前也有从单字母频率分布中选择单词进行替换或插入下划线字符作为占位符,而我们插入通常出现在句子中的标点字符。
EDA虽然在小数据集的时候效果比较好,仅仅是因为经过DA后的数据量还是比较少。
ADEA是通过在原始文本中随机插入标点符号从而做到不改变原始句子的顺,同时这个方法也可以避免过拟合。
标点符号: {“.”, “;”, “?”, “:”, “!”,“,”}
实验数据集:

  1. SST-2 (Socher et al., 2013)Standford Sentiment Treebank
  2. CR (Hu and Liu,2004; Ding et al., 2008; Liu et al., 2015) Cus-tomer Reviews Dataset 二分类问题
  3. SUBJ (Pang and Lee,2004) Subjectivity/Objectivity Dataset
  4. TREC (Liand Roth, 2002) Question Classification Dataset
  5. PC (Ganapathibhotla and Liu, 2008) Pros and Cons Dataset

基本模型:CNN,RNN

消融研究:

1.增广的数量
对于所有数据集,当数据集比较小的时候,增量的数量越多,效果提高越多,而完整的数据集仅提高了1%。中型的涨幅介于两者之间(2%至2.5%)。
2.随机初始化的影响
对比了两个数据集不同数据量在21种种子下的平均表现。
3.深度学习模型
比较了基于BERT进行EDA和ADEA的模型效果。

讨论

由于数据集是经过获取后随机分成训练集和测试集的,所以可能会存在数据的不连续性,进而影响结果。
标点符号是随机插入还是某些位置更有效是一个值得探讨的问题。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

2674222

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值