自然语言处理的EDA-最简单数据增强探索性数据分析
论文原文详情:Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
论文英文代码:代码
中国大哥做的中文扩展代码:代码
数据增强常用于计算机视觉。翻折、旋转或镜像一幅图片,改变相应的标记便是可以的。然而,在自然语言处理中,情况完全不同。改变一个词有可能改变整个句子的意思。
即使相同的字读音不同就可以改变该句子的意思
EDA:简单数据增广技术,可以大大提升文本分类任务的性能
在EDA Github repository有简单的实现代码)。EDA包含四个方向,能极好地防止过拟合,并训练出更强健的模型:
同义词替换(Synonym Replacement, SR):在句子中随机选取n个非停用词。对每个选取的词,用它的随机选取的同义词替换。
随机插入(Random Insertion, RI):在句子中任意找一个非停用词,随机选一个它的同义词,插入句子中的任意位置。重复n次。
随机交换(Random Swap, RS):任意选取句子中的两个词,交换位置。重复n次。
随机删除(Random Deletion, RD):对于句子中概率为p的每一个词,随机删除。