AEDA: An Easier Data Augmentation Technique for Text Classification阅读笔记-CSDN博客

本文链接：https://blog.csdn.net/weixin_42074485/article/details/131696179

ADEA是一种简单但有效的数据增强技术，它在不破坏句子原有顺序的情况下插入标点符号。相较于EDA，ADEA能减少噪声并防止过拟合，尤其在小数据集上表现优越。实验在多种文本分类数据集上验证了其效果，包括SST-2、CR、SUBJ、TREC和PC。此外，研究还探讨了增广数量、随机初始化的影响以及与BERT等深度学习模型的比较。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

AEDA: An Easier Data Augmentation Technique for Text Classification

代码：https://github.com/akkarimi/aeda_nlp
ADEA是比EDA更加简单的一种数据增强方法，保留句子中单词的顺序，因此会得到相对更好的增强效果。
以往的DA是通过同义词替换、删除、插入和反向翻译。这种方式会插入噪声。使用深度语言模型的DA很复杂，虽然有同义词词典，但还是会造成原始信息的丢失。使用BERT利用上下文的信息进行DA，通过使用双向网络在一个想要的位置用预测的词来替换原本的词。Transformer模型提出Mix-Transformer把两个输入的句子和相应标签线性输入去创造新的样本。之前也有从单字母频率分布中选择单词进行替换或插入下划线字符作为占位符，而我们插入通常出现在句子中的标点字符。
EDA虽然在小数据集的时候效果比较好，仅仅是因为经过DA后的数据量还是比较少。
ADEA是通过在原始文本中随机插入标点符号从而做到不改变原始句子的顺，同时这个方法也可以避免过拟合。
标点符号： {“.”, “;”, “?”, “:”, “!”,“,”}
实验数据集：

SST-2 (Socher et al., 2013)Standford Sentiment Treebank
CR (Hu and Liu,2004; Ding et al., 2008; Liu et al., 2015) Cus-tomer Reviews Dataset 二分类问题
SUBJ (Pang and Lee,2004) Subjectivity/Objectivity Dataset
TREC (Liand Roth, 2002) Question Classification Dataset
PC (Ganapathibhotla and Liu, 2008) Pros and Cons Dataset

基本模型：CNN，RNN

消融研究：

1.增广的数量
对于所有数据集，当数据集比较小的时候，增量的数量越多，效果提高越多，而完整的数据集仅提高了1%。中型的涨幅介于两者之间(2%至2.5%)。
2.随机初始化的影响
对比了两个数据集不同数据量在21种种子下的平均表现。
3.深度学习模型
比较了基于BERT进行EDA和ADEA的模型效果。