NLP论文笔记:Easy Data Augmentation Techniques for Boosting Performance on Text Classification Task

最新推荐文章于 2023-08-07 15:06:03 发布

JL_Jessie

最新推荐文章于 2023-08-07 15:06:03 发布

阅读量832

点赞数

分类专栏： NLP 文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/m0_37531129/article/details/107913408

版权

NLP 专栏收录该内容

45 篇文章 8 订阅

订阅专栏

代码：eda
EDA 文中提到了4种数据增强技术用于文本分类任务，并用了2种常用的文本分类的深度学习模型在5个benchmark上跑了一下分类(5个banckmark: SST-2, CR, SUBG, TREC, PR)，在跑模型的时候作者将训练集分为3种规模大小从而比较EDA技术在训练数据集规模上的影响。

4种数据增强技术：

同义词替换
随机插入
随机交换
随机删除

5个banckmark:

SST-2
CR
SUBG
TREC
PR (Pro-Con)

训练集3个种数据集规模：

500
2000
5000

结果分析：

在规模小的训练数据集上，效果越明显，2000和5000 的ACC提高0.8%，在500的上面提高3%。
在这里插入图片描述

因为小数据集上容易过拟合，所以作者对比了一下正常训练和带EDA的训练在不同训练集比例上的对比。可以看到最后一个f是5个数据集的平均acc 的结果对比，带EDA的用50%的数据就可以达到88.6%，不带EDA的100%的训练集才能达到88.3%。
在这里插入图片描述

EDA增强产生的文本和原文本对比

因为上面的4种数据增强技术，只是对原句子进行操作，并没有对label进行更改操作，所以作者又分析了一下通过上面的更改看对原句子的语义有没有影响，如果有影响那就不合适了。
作者对Pro-Con这个数据集进行分析，先用不带EDA的方法训练，然后在test set上用EDA使得每个原始的句子生成9个增强的句子，然后再放到网络里面训练。然后从网络最后一层提取出句子的向量。通过t-SNE进行聚类分析，可以看到下图中大三角和大圆圈都是原来的句子，小三角和小圆圈都是数据增强的句子，可以看出来都各自在各自的附近，没有发生标签的偏移，这也就表面上面提到的4种数据增强技术不会影响他们的原始标签。
在这里插入图片描述

消融研究

看看这4种方法哪个起作用跟多，与数据集大小和每个原始数据生成多少增强的数据有没有关系。其中a就是改变的比例。可以看到a=0.5也就是句子里面50%的单词都发生的变化。可以看到4种方法都有提升，对SR，在a小的时候提升更好，替换的多了acc反而会下降, 对RI，插入的单词相对来说影响比较平稳，可能是因为只是随机插入不会影响原来的句子顺序所以相对来说结果比较平稳，对于RS，可以看到a<0.2的时候acc较高，大于0.3之后开始降低了，交换太多次单词相当于随机打乱句子，句子里面单词的前后关系就受影响，RD在a较小时 acc较高，a较大时acc减小，删除太多单词了。
在这里插入图片描述

超参数设置

具体怎么实施这种数据增强技术呢？一个句子里面操作的比较设置多少好？一个句子生成多少个增强句子比较好？
作者做了个实验对比，navg是1个句子生成多少个增强句子。可以看出来根数据集大小有关系。
在这里插入图片描述
作者建议超参数如下：

数据增强技术对比分析

其他增强技术还需要训练一个语言模型比较麻烦，EDA比较简单。
在这里插入图片描述

最讨论和限制性分析

NLP 像来缺少数据增强技术，EDA相当于作为一个驱动和NLP数据增强的基准。
目前EDA的缺点：数据足够的时候，增强的效果有限。上面5个任务中当用全部数据做训练时 acc提高不到1%。数据集小的时候增强效果更好。使用预训练模型时 EDA还没有产生显著的提升.

其他的NLP增强技术可以参考：NLP数据增强综述

JL_Jessie

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
NLP论文笔记:Easy Data Augmentation Techniques for Boosting Performance on Text Classification Task

EDA 文中提到了4种数据增强技术用于文本分类任务，并用了2种常用的文本分类的深度学习模型在5个benchmark上跑了一下分类(5个banckmark: SST-2, CR, SUBG, TREC, PR)，在跑模型的时候作者将训练集分为3种规模大小从而比较EDA技术在训练数据集规模上的影响。4种数据增强技术：同义词替换随机插入随机交换随机删除5个banckmark:SST-2CRSUBGTRECPR (Pro-Con)训练集3个种数据集规模：5002000
复制链接

扫一扫

专栏目录