数据增强可以算作是做深度学习算法的一个小trick。该介绍主要出自论文:EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
论文中的中文文本分类数据增强的代码实现可参考EDA_NLP_for_Chinese,当然在实际使用中可以根据具体情况再做修改。文中介绍的代码是我个人对该源码的根据我个人书写习惯进行的修改。
论文简介
主要内容
这篇论文中作者提出所谓的简单数据增强(Easy Data Augmentation, EDA),包括了四种方法:同义词替换、随机插入、随机交换、随机删除。作者使用了CNN和RNN分别在五种不同的文本分类任务中做了实验,实验表明,EDA提升了分类效果。作者也表示,平均情况下,仅使用50%的原始数据,再使用EDA进行数据增强,能取得和使用所有数据情况下训练得到的准确率。
文中作者提出通用的NLP数据增强技术,命名为EDA。同时作者表示,他们是第一个给数据增强引入文本编辑技术的