自然语言处理的数据增强分析☞Easy Data Augmentation

最新推荐文章于 2024-08-12 21:37:19 发布

想远行的猪

最新推荐文章于 2024-08-12 21:37:19 发布

阅读量990

点赞数

分类专栏：论文自然语言处理文章标签：论文自然语言处理

本文链接：https://blog.csdn.net/tcd1112/article/details/101539277

版权

EDA（Easy Data Augmentation）是用于文本分类任务的一种数据增强技术，包括同义词替换、随机插入、随机交换和随机删除。通过这四种方法，EDA能有效防止过拟合，特别是在小数据集上，提升模型性能。尽管生成的某些句子可能不自然，但引入噪声有助于训练更健壮的模型。论文展示了EDA在多种文本分类任务上的优势，尤其是在训练数据有限时。

摘要由CSDN通过智能技术生成

自然语言处理的EDA-最简单数据增强探索性数据分析
论文原文详情：Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks

论文英文代码：代码

中国大哥做的中文扩展代码：代码

数据增强常用于计算机视觉。翻折、旋转或镜像一幅图片，改变相应的标记便是可以的。然而，在自然语言处理中，情况完全不同。改变一个词有可能改变整个句子的意思。
即使相同的字读音不同就可以改变该句子的意思
EDA：简单数据增广技术，可以大大提升文本分类任务的性能
在EDA Github repository有简单的实现代码）。EDA包含四个方向，能极好地防止过拟合，并训练出更强健的模型：
　　同义词替换(Synonym Replacement, SR)：在句子中随机选取n个非停用词。对每个选取的词，用它的随机选取的同义词替换。
　　随机插入(Random Insertion, RI)：在句子中任意找一个非停用词，随机选一个它的同义词，插入句子中的任意位置。重复n次。
　　随机交换(Random Swap, RS)：任意选取句子中的两个词，交换位置。重复n次。
　随机删除(Random Deletion, RD)：对于句子中概率为p的每一个词，随机删除。