NLP数据增强方法总结

快乐小码农

已于 2022-03-30 18:17:30 修改

阅读量2.1k

点赞数 2

分类专栏：机器学习Machine Learning 自然语言处理NLP AI 文章标签：自然语言处理深度学习人工智能

于 2022-02-18 16:04:08 首次发布

本文链接：https://blog.csdn.net/u012744245/article/details/123005508

版权

AI 同时被 3 个专栏收录

59 篇文章

订阅专栏

自然语言处理NLP

31 篇文章

订阅专栏

机器学习Machine Learning

17 篇文章

订阅专栏

文章目录

- NLP数据增强
- - 1. UDA (Unsupervised Data Augmentation)【推荐】
  - 2. EDA (Easy Data Augmentation)

NLP数据增强

1. UDA (Unsupervised Data Augmentation)【推荐】

参考：
[1]: https://github.com/google-research/uda “Unsupervised Data Augmentation”
[2]: https://arxiv.org/abs/1904.12848 “Unsupervised Data Augmentation for Consistency Training”

一个半监督的学习方法，减少对标注数据的需求，增加对未标注数据的利用。

在这里插入图片描述

UDA使用的语言增强技术——Back-translation：回译能够在保存语义不变的情况下，生成多样的句式。

UDA关键解决的是如何根据少量的标注数据来增加未标注数据的使用？

对给定的标注数据，可以根据监督学习方法学习到一个模型 $M=p_{\theta}(y|x)$ 。对未标注数据，进行半监督学习：参考标注数据分布，对未标注数据添加噪声后学习到的模型 $p_{\theta}(y|\hat{x})$ 。为了保证一致性的训练（consistency training)，需要尽量减少标注数据和未标注数据的分布差异，即最小化两个分布的KL散度： $\quad D_{KL} (p_{\theta}(y|x)||p_{\theta}(y|\hat{x}))$ 。而 $\hat{x}=q(x,\epsilon)$ 是对未标注数据添加噪声后得到的增强数据。那么如何添加噪声 $\epsilon$ ，来得到增强的数据集 $\hat{x}$ ？

valid noise: 可以保证原始未标注数据和扩展的未标注数据的预测具有一致性。
diverse noise: 在不更改标签的情况下对输入进行大量修改，增加样本多样性，而不是仅用高斯噪声进行局部更改。
targeted inductive biases: 不同的任务需要不同的归纳偏差。

UDA论文中对图像分类、文本分类任务做了实验，分别用到不同的数据增强策略：

Image Classification: RandAugment
Text Classification: Back-translation回译，保持语义，利用机器翻译系统进行多语言互译，增加句子多样性。
Text Classification: Word replacing with TF-IDF ，回译可以保证全局语义不变，但无法控制某个词的保留。对于主题分类任务，某些关键词在确定主题时具有更重要的信息。新的增强方法：用较低的TF-IDF分数替换无信息的单词，同时保留较高的TF-IDF值的单词。

2. EDA (Easy Data Augmentation)

参考：
[1]: https://github.com/zhanlaoban/EDA_NLP_for_Chinese “EDA_NLP_for_Chinese”
[2]: https://arxiv.org/abs/1901.11196 “EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks”
[3]: https://github.com/jasonwei20/eda_nlp “EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks”

EDA 的4个数据增强操作：