自然语言处理的数据增强分析☞Easy Data Augmentation

EDA(Easy Data Augmentation)是用于文本分类任务的一种数据增强技术,包括同义词替换、随机插入、随机交换和随机删除。通过这四种方法,EDA能有效防止过拟合,特别是在小数据集上,提升模型性能。尽管生成的某些句子可能不自然,但引入噪声有助于训练更健壮的模型。论文展示了EDA在多种文本分类任务上的优势,尤其是在训练数据有限时。
摘要由CSDN通过智能技术生成

自然语言处理的EDA-最简单数据增强探索性数据分析
论文原文详情:Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks

论文英文代码:代码

中国大哥做的中文扩展代码:代码

    数据增强常用于计算机视觉。翻折、旋转或镜像一幅图片,改变相应的标记便是可以的。然而,在自然语言处理中,情况完全不同。改变一个词有可能改变整个句子的意思。
    即使相同的字读音不同就可以改变该句子的意思
    EDA:简单数据增广技术,可以大大提升文本分类任务的性能
    在EDA Github repository有简单的实现代码)。EDA包含四个方向,能极好地防止过拟合,并训练出更强健的模型:
  同义词替换(Synonym Replacement, SR):在句子中随机选取n个非停用词。对每个选取的词,用它的随机选取的同义词替换。
  随机插入(Random Insertion, RI):在句子中任意找一个非停用词,随机选一个它的同义词,插入句子中的任意位置。重复n次。
  随机交换(Random Swap, RS):任意选取句子中的两个词,交换位置。重复n次。
    随机删除(Random Deletion, RD):对于句子中概率为p的每一个词,随机删除。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值