本人主要关注NLP与深度学习这个交叉领域,因此本文从NLP领域涉及的目标场景出发,介绍文本数据增强的概念、相关技术手段以及展望。
本文目录:
1.文本数据增强理论介绍
1.1数据增强是什么
1.2 数据增强的应用场景
2.典型技术方案
2.1 通用EDA
2.2 基于TF-IDF的非核心词替换
2.3 回译
2.4 上下文文本生成
3.总结与展望
1.文本数据增强理论介绍
1.1 数据增强是什么
数据增强,是指对(有限)训练数据通过某种变换操作,从而生成新数据的过程。而文本数据增强则是针对文本数据进行操作。简而言之,就是利用数据增强这种手段扩大数据规模。
数据增强技术大体可分为以下两类:
• 句子层面增强:即在保持语义不变的情况下,变换文本的表达形式,例如回译、文本复述等手段;
• 词层面增强:即按照某种策略对文本局部进行调整,例如同义词替换、随机删除等。
1.2 数据增强的应用场景
(1)少样本学习场景
利用深度学习训练模型有时会遇到训练样本的数据量不能满足模型训练需求的情形,这就是少样本学习场景,这种场景较大概率会导致模型欠拟合。针对这种场景问题,研究学者和工程师自然而然想到了利用数据增强技术生成新样本进而扩充训练集,在有效降低人工成本的基础上促进模型性能的提升。近几年来也有许多研究验证了这种方法的有效性。
(2)半监督学习场景
从上一篇‘