文本分类数据集_EDA:文本分类数据增强方法

EDA是一种用于文本分类任务的数据增强方法,包括同义词替换、随机插入、随机交换和随机删除四种操作。实验证明,EDA能有效提升模型在五个通用数据集上的性能,特别是在小数据集上效果更显著。虽然对句子进行EDA操作后可能改变其原始形式,但实验显示,经过EDA处理的句子与原句在模型预测上的输出在高维空间中仍保持相近。作者提供了关于如何根据数据规模选择合适EDA策略的建议。
摘要由CSDN通过智能技术生成

d2a403051705e7dd02c907de84cf85e5.png

EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks

概述

文章提出了一种文本分类任务中数据增强的方法:EDA,EDA中包括四种操作,SR、RI、 RS、RD。

实验显示,在五个通用的文本分类数据集上,使用EDA方法增强语料,模型都有一定性能上的提升。

尤其在语料不足的情况下,性能提升得越多。

EDA中的四种操作

分别是,同义词替换随机插入随机交换随机删除。详细操作如下图

d2ae9692df541f8c9928b08172cd89ff.png

经过EDA方法操作后,原有句子的label还会是对的吗?

看论文的过程中,其实心中一直有一个疑问,经过EDA操作的句子,label还会是对的吗

作者在论文中回答了这一点,作者做了一个实验,用原有的训练集训练模型(未经过数据增强),

之后在测试集中使用EDA方法,拓展测试集,将原有的测试集和拓展出的语料,喂进模型中,

发现原有测试集和拓展出的语料,最后线性层的输出,在高维空间中,距离很小。如下图所示。

00a40b673fd0518aedda0ec8ac92a272.png

作者的建议

作者给出了在实际使用EDA方法的建议,表格的左边是数据的规模

, 右边
是概率、比率

比如同义词替换中,替换的单词数

是句子长度。随机插入、随机替换类似。

随机删除的话

代表使用EDA方法从每一个句子拓展出的句子数量。

f3dc1401b20d901425b72f39d3320f54.png
原论文地址​arxiv.org jasonwei20/eda_nlp​github.com
b7dd77cdf48bec4fa5f59cf658df2d12.png
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值