文本分类数据集_EDA：文本分类数据增强方法

最新推荐文章于 2024-07-30 11:11:01 发布

weixin_39612057

最新推荐文章于 2024-07-30 11:11:01 发布

阅读量1k

点赞数

文章标签：文本分类数据集

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39612057/article/details/111575996

版权

EDA是一种用于文本分类任务的数据增强方法，包括同义词替换、随机插入、随机交换和随机删除四种操作。实验证明，EDA能有效提升模型在五个通用数据集上的性能，特别是在小数据集上效果更显著。虽然对句子进行EDA操作后可能改变其原始形式，但实验显示，经过EDA处理的句子与原句在模型预测上的输出在高维空间中仍保持相近。作者提供了关于如何根据数据规模选择合适EDA策略的建议。

摘要由CSDN通过智能技术生成

EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks

概述

文章提出了一种文本分类任务中数据增强的方法：EDA，EDA中包括四种操作，SR、RI、 RS、RD。

实验显示，在五个通用的文本分类数据集上，使用EDA方法增强语料，模型都有一定性能上的提升。

尤其在语料不足的情况下，性能提升得越多。

EDA中的四种操作

分别是，同义词替换，随机插入，随机交换，随机删除。详细操作如下图

经过EDA方法操作后，原有句子的label还会是对的吗？

看论文的过程中，其实心中一直有一个疑问，经过EDA操作的句子，label还会是对的吗

作者在论文中回答了这一点，作者做了一个实验，用原有的训练集训练模型(未经过数据增强)，

之后在测试集中使用EDA方法，拓展测试集，将原有的测试集和拓展出的语料，喂进模型中，

发现原有测试集和拓展出的语料，最后线性层的输出，在高维空间中，距离很小。如下图所示。

作者的建议

作者给出了在实际使用EDA方法的建议，表格的左边是数据的规模

, 右边

是概率、比率

比如同义词替换中，替换的单词数

是句子长度。随机插入、随机替换类似。

随机删除的话

代表使用EDA方法从每一个句子拓展出的句子数量。

原论文地址arxiv.org jasonwei20/eda_nlpgithub.com

weixin_39612057

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。