EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks

EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks

Abstract

本篇论文提出一个简单的数据增强技术,命名为EDA(Easy Data Augmentation)方法。主要是包括4个简单的操作:同义词替换(SR)、随机插入(RI)、随机交换(RS)、随机删除(RD)。在五个文本分类任务上,EDA方法可以提高卷积神经网络和循环神经网络的性能。EDA对于较小的数据集显示出特别强的结果;平均而言,在5个数据集中,使用EDA进行训练,而仅使用50%的可用训练集,其准确性与使用所有可用数据的正常训练相同。并且还进行了消融实验,并建议了实际使用的参数。

Introduction

图片介绍
表1中简单介绍了利用EDA方法生成的句子。

4种EDA方法的介绍:
在这里插入图片描述

论文种选用了五个基准文本分类任务和两个网络结构(CNN和RNN结构)来对EDA进行评估。
5个基准文本分类任务:
(1) SST-2: Stanford Senti-ment Treebank
(2) CR: cus-tomer reviews
(3) SUBJ: subjectivity/objectivity dataset
(4) TREC: question type dataset
(5) PC: Pro-Con dataset
在这里插入图片描述
结果分析
在这里插入图片描述
上图1中(a)-(e)显示了每个数据集在有和没有EDA的情况下的性能,图1(f)显示了所有数据集的平均性能。
文中说使用EDA训练达到平均准确度为88.6%,仅使用了可用训练数据的50%。

看到这篇论文,大家可能会怀疑,经过EDA操作之后的句子是不是还属于原来的标签,论文中也给出了具体的解释。
文中采用了可视化的方法来检查EDA操作是否会显着更改增强句子的含义。首先是在不使用EDA前提下对Pro-con分类任务(PC)进行RNN训练;然后通过在每个原始句子中生成9个扩充句子来将EDA应用于测试集,这些与原始语句一起被送入RNN,从最后一个密集层提取输出。从下图2中可以看到生成的扩充句子的潜在空间表示形式与原始句子的表示空间紧密相关。
在这里插入图片描述
作者建议
作者给出了在实际使用EDA方法的建议,表格的左边是数据的规模 N t r a i n N_{train} Ntrain, 右边 α \alpha α是概率、比率
比如同义词替换中,替换的单词数 n = α ∗ l n = \alpha * l n=αl, l l l是句子长度。随机插入、随机交换类似。随机删除的话 p = α . n a v g p =\alpha .n_{avg} p=α.navg代表使用EDA方法从每一个句子拓展出的句子数量。
在这里插入图片描述
结果对比
在这里插入图片描述
结论
简单的数据扩充操作可以提高文本分类任务的性能。尽管有时改进很少,但在较小的数据集上进行训练时,EDA可以显着提高性能并减少过度拟合。

参考:https://blog.csdn.net/zycxnanwang/article/details/102249154
Github地址

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值