做图像的同学都知道图像的数据扩充可以带来巨大的提升,包括:
- 裁剪、旋转、缩放等等。
那么在NLP中都有哪些数据扩充的策略呢?
这个很简单,就是替换文中的某些词汇,而不改变文本原由的意思。一般的操作是:
- 我们从句子中随机抽取一个或者多个单词,使用同义词对其进行替换。在英语中,常用的有WordNet等英语数据库来查找同义词。
词Embedding替换的策略和近义词有些类似,直接计算词embedding的距离,然后用距离最近的N个词的embedding进行替换。该策略在TinyBert等论文中有提及。
BERT、ROBERTA和ALBERT等模型已经在大量的文本上进行了训练,我们可以使用其进行文本的扩充,随机Mask个文本中的某个单词,然后使用模型对其进行预测。
使用MLM的好坏取决于Mask的Mask的质量。
该策略的思路是先将原先的文本转化为其它回家的语义,然后再转化回来得到新的重新翻译之后的文本。该策略经常在一些小数据集的文本上被使用。
该转换的策略也非常简单,例如下面的就是She's ——> She has.
我们将拼写错误添加到句子中的一些随机词中。这些拼写错误可以通过编程方式添加,也可以使用常见拼写错误的映射。
QWERTY键盘错误注入是直接模拟键盘输入出错的策略,
该方法由Xie等人在他们的论文中提出。这种思想是使用占位符标记替换随机单词。论文使用“_”作为占位符标记。
句子Shuffliing的策略就是对整个句子进行shuffle,切换句子的位置。
该策略是Luque在关于TASS2019情感分析的论文中介绍的,例如在tweet的文本情感中,一个tweet被分成两半,并且具有相同标签(正/负)的两个随机tweet被随机分开。假设是,即使结果不符合语法和语义,新的文本仍然会保留相同的情感。