NLP中数据增强综述

最新推荐文章于 2024-08-12 21:23:23 发布

choose_c

最新推荐文章于 2024-08-12 21:23:23 发布

阅读量1.5k

点赞数 1

分类专栏：深度学习自然语言处理文章标签：自然语言处理深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/choose_c/article/details/116769154

版权

自然语言处理同时被 2 个专栏收录

43 篇文章 6 订阅

订阅专栏

33 篇文章 0 订阅

订阅专栏

目录

什么是数据增强

目标和权衡

技术和方法

小资源语言

类别不平衡

少样本学习

数据-文本生成

开放域和有条件生成

多模态任务

挑战和未来方向

A Survey of Data Augmentation Approaches for NLP https://arxiv.org/abs/2105.03075

摘要

小资源领域，新任务，和大规模神经网络需要大量的训练数据。但由于离散的自然语言数据问题，nlp数据增强还有很大的挑战。

介绍

NLP中数据增强不被重视或者没有被太多研究，是因为离散的自然语言，排除了连续的噪声，很难维持不变性。由于预训练模型的兴起，更多的任务和更多的领域被发掘，所以很多小资源的场景需要更多的数据，数据增强的地位越来越高，尤其是很多非分类任务，如跨域任务和生成任务。

背景

什么是数据增强

DA(data augmentation)是增加训练数据的多样性而不是直接收集数据。大多数策略要么是简单修改已有数据副本，或者是创建合成数据，旨在使用增强的数据作为正则并减少过拟合。由于nlp中的输入空间是离散的，生成有意义的文本数据并不那么简单。

目标和权衡

一个理想的DA方法既能简单实现又能提高模型效果，这是一方面的权衡；另一方面是增强的数据分布与原始数据既不能太相似又不能相差太大。

DA的解释

有很多对于DA的解释：1.有噪声的训练可以简化为正则化；2.DA可以增加分类器的正边距，但仅限于例子以指数级增长时；3.DA可以帮助特征平均和方差正则化；4.在保持数据分布近似不变的情况下，DA通过对群的轨道求平均值来减少方差；

技术和方法

基于规则

1.特征空间增强；

2.EDA,词级别的随机变换；

paper地址: https://arxiv.org/abs/1901.11196

github实现: https://github.com/jasonwei20/eda_nlp

3.UDA，有监督方法用于无监督数据；

github实现：https://github.com/google-research/uda

4.基于依赖树变形；

基于插值

1.Mixed Sample Data Augmentation(图像)：

mixup，cutmix，cutout，copy-paste

seq2mixup(nlp):https://arxiv.org/pdf/2011.09039.pdf，switchout

基于模型

1.backtranslation(回译)；

2.contextual augmentation(MLM)；

3.semantic text exchange,replacement entity；

4.text generate(GPT2);

5.outher approaches...

应用

小资源语言

典型的低资源语言为机器翻译，然而，有很多方法可以利用高资源语言对于低资源语言，特别是如果低资源语言具有相似的语言特性。

性别偏见

conuteractual DA(CDA)解决性别偏见，将性别实体交换。

类别不平衡

解决类别不平衡问题使用欠过采样方法，SMOTE(同步少数过采样技术)方法和EDA是其中流行的方法。

少样本学习

数据增强方法可以通过在新的类别中加入更多数据缓解少样本学习问题。

对抗样本

生成对抗样本是使用无害标签欺骗nlp模型。

任务

摘要

回译；UDA；混合合成和真实数据。

问答

回译；XLDA，跨语言DA；BERT。

序列标注

DAGA，两步DA；依赖树变形；seqmix。

解析任务

数据重组；同步上下文语法(SCFG),GRAPPA；依赖树同POS任务。

语法纠错

在带噪语料中学习错误模式。

机器翻译

使用增强方法替换两个源中的词。

数据-文本生成

数据到文本NLG是指需要对结构化或半结构化数据输入进行自然语言描述的任务。E2E-NLG和WebNLG是两个流行的方法。

开放域和有条件生成

用一套DA方法在低资源域上对GPT-2进行精细化实验为了提高生成的连续体的质量，他们称之为GENAUG。

对话

大多数对话的DA方法侧重于面向任务的对话；句子级别和词级别的DA方法，lightweight augmentation，seq2seq DA；。。。。

多模态任务

挑战和未来方向

总结

在本文中，我们提出了一个全面的自然语言处理（NLP）数据扩充的结构化调查。我们提供了一个数据扩充的背景知识及其实现方法工作，讨论了NLP的主要方法论代表性数据扩充技术，以及触及数据扩充技术流行的NLP应用程序和任务。最后，我们概述了当前的挑战和未来的研究方向，并指出还有很大的发展空间为了进一步探索。总的来说，我们希望我们的论文可以作为NLP研究人员决定使用哪些数据增强技术，以及激发更多的兴趣和在这方面的工作。

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。