EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks

最新推荐文章于 2023-08-07 15:06:03 发布

Lenhaoc

最新推荐文章于 2023-08-07 15:06:03 发布

阅读量772

点赞数 3

文章标签：自然语言处理

原文链接：http://arxiv.org/abs/1901.11196

版权

EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks

Abstract

本篇论文提出一个简单的数据增强技术，命名为EDA（Easy Data Augmentation）方法。主要是包括4个简单的操作：同义词替换（SR）、随机插入（RI）、随机交换（RS）、随机删除（RD）。在五个文本分类任务上，EDA方法可以提高卷积神经网络和循环神经网络的性能。EDA对于较小的数据集显示出特别强的结果；平均而言，在5个数据集中，使用EDA进行训练，而仅使用50％的可用训练集，其准确性与使用所有可用数据的正常训练相同。并且还进行了消融实验，并建议了实际使用的参数。

Introduction

图片介绍
表1中简单介绍了利用EDA方法生成的句子。

4种EDA方法的介绍：
在这里插入图片描述

论文种选用了五个基准文本分类任务和两个网络结构（CNN和RNN结构）来对EDA进行评估。
5个基准文本分类任务：
(1) SST-2: Stanford Senti-ment Treebank
(2) CR: cus-tomer reviews
(3) SUBJ: subjectivity/objectivity dataset
(4) TREC: question type dataset
(5) PC: Pro-Con dataset
在这里插入图片描述
结果分析

上图1中（a）-（e）显示了每个数据集在有和没有EDA的情况下的性能，图1（f）显示了所有数据集的平均性能。
文中说使用EDA训练达到平均准确度为88.6％，仅使用了可用训练数据的50％。

看到这篇论文，大家可能会怀疑，经过EDA操作之后的句子是不是还属于原来的标签，论文中也给出了具体的解释。
文中采用了可视化的方法来检查EDA操作是否会显着更改增强句子的含义。首先是在不使用EDA前提下对Pro-con分类任务（PC）进行RNN训练；然后通过在每个原始句子中生成9个扩充句子来将EDA应用于测试集，这些与原始语句一起被送入RNN，从最后一个密集层提取输出。从下图2中可以看到生成的扩充句子的潜在空间表示形式与原始句子的表示空间紧密相关。
在这里插入图片描述
作者建议
作者给出了在实际使用EDA方法的建议，表格的左边是数据的规模 $N_{train}$ , 右边 $\alpha$ 是概率、比率
比如同义词替换中，替换的单词数 $\alpha * l$ , $l$ 是句子长度。随机插入、随机交换类似。随机删除的话 $=\alpha .n_{avg}$ 代表使用EDA方法从每一个句子拓展出的句子数量。
在这里插入图片描述
结果对比

结论
简单的数据扩充操作可以提高文本分类任务的性能。尽管有时改进很少，但在较小的数据集上进行训练时，EDA可以显着提高性能并减少过度拟合。

参考：https://blog.csdn.net/zycxnanwang/article/details/102249154
Github地址

Lenhaoc

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks

文章目录EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification TasksAbstract功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart
复制链接

扫一扫