文本数据增强方法总结

最新推荐文章于 2024-10-06 17:39:45 发布

欢桑

最新推荐文章于 2024-10-06 17:39:45 发布

阅读量1.3k

点赞数 3

文章标签：人工智能自然语言处理深度学习

原文链接：https://blog.csdn.net/Flying_sfeng/article/details/121691380?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522169560942016800215026099%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=169560942016800215026099&biz_

版权

我们知道，在NLP领域，特别是工业界中，标签数据是很难获得的，很多时候会面临数据量太小的问题，这个时候，文本数据增强可以有效地帮我们缓解这个问题。我本人在今年的科大讯飞AI大赛中也使用了下文提到的一些方法，并提升了5个百分点左右（后续的文章会详细介绍，请持续关注…），可以说效果是相当明显，所以说数据增强方法绝对是值得大家花点时间学习的。

本篇文章，我们将介绍常用的文本数据增强方法，并提供相应的参考文献以及使用案例。

文章目录

1. Easy Data Augmentation(EDA)
2. An Easier Data Augmentation(AEDA)
3. Back translation
4. Masked Language Model
5. Random Noise Injection
6. Instance Crossover Augmentation
7. Syntax-tree Manipulation
8. MixUp for Text
9. Conditional Pre-trained Language Models
10. 工具介绍

1. Easy Data Augmentation(EDA)

EDA是一种简单但非常有效的方法，具体包括随机替换，随机插入，随机交换，随机删除等。
在这里插入图片描述
代码也很简单: EDA code

2. An Easier Data Augmentation(AEDA)

AEDA方法很简单，就是在句子中间添加标点符号以此来增强数据。整篇文章正文只有一段，所谓大道至简。中了EMNLP2021 Findings。
在这里插入图片描述
代码同样很简单: AEDA code

3. Back translation

Back translation即回译：将文本翻译成另外一种语言，然后再翻译回来。同时，我们也可以翻译成多个语言，从而得到多条回译样本。
在这里插入图片描述
实现代码: 回译代码

4. Masked Language Model

掩码语言模型（Masked Language Model），即利用预训练好的BERT, Roberta等模型，对原句子进行部分掩码，然后让模型预测掩码部分，从而得到新的句子。
使用方法也很简单：
在这里插入图片描述
但是，这种方法存在的一个问题是，决定要屏蔽文本的哪一部分并不简单。可以考虑使用启发式来确定掩码部分，否则，生成的文本可能无法保留原始句子的含义。具体请参考paper：Generating adversarial examples for text classification

5. Random Noise Injection

Random Noise Injection方法的思想是在文本中注入噪声，来生成新的文本，最后使得训练的模型对扰动具有鲁棒性。

Spelling error injection
在这种方法中，我们在句子中添加一些随机单词的拼写错误。可以通过编程方式或使用常见拼写错误的映射来添加这些拼写错误。
QWERTY Keyboard Error Injection
这种方法试图模拟在 QWERTY 键盘布局上打字时由于键之间非常接近而发生的常见错误。
Unigram Noising
其思想是使用从 unigram 频率分布中采样的单词进行替换。这个频率基本上就是每个单词在训练语料库中出现的次数。

6. Instance Crossover Augmentation

在该方法中，一条 tweet 被分成两半，然后两个相同情绪类别（正/负）的 tweets 各自交换一半的内容。这么做的假设是，即使结果在语法和语义上不健全，新的文本仍将保留原来的情绪类别。
在这里插入图片描述
这种方法对准确性没有影响，并且在 F1-score 上还有所提升，这表明它帮助了模型提升了在罕见类别上的判断能力，比如 tweet 中较少的中立类别。