数据增强技术：Easy Data Augmentation and Neural Sentence Editing

最新推荐文章于 2023-08-07 15:06:03 发布

BGoodHabit

最新推荐文章于 2023-08-07 15:06:03 发布

阅读量966

点赞数 2

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/BGoodHabit/article/details/105493903

版权

NLP 专栏收录该内容

28 篇文章 19 订阅

订阅专栏

数据增强技术

当小数据情况下，一定程度上Data augmentation会提升模型的预测效果，而在NLP领域，数据扩增技术主要可以归纳为如下两种：

对原始句子进行编辑（替换，删除，插入等）操作，生成新的句子
利用generative model对原始句子encode再decode生成新的句子

以上两种方案，分别选取了一篇代表论文进行阐述

对原始句子进行编辑操作的数据扩增

论文：EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
github：EDA

主要编辑操作如下：
在这里插入图片描述

同义词替换（synonym replacement）：从句子中随机选择n个非停用词，对每一个词随机用它的同义词替换
随机插入（random insertion）：从句子中随机选择一个词用它同义词去随机插入到句子中，重复n次
随机交换（randow swap）：从句子中随机选择两个词，交换它们的位置，重复n次
随机删除（randow deletion）：以概率 $p$ 随机删除句子中的词

利用generative model生成新句子的数据扩增

论文：Fast Cross-domain Data Augmentation through Neural Sentence Editing
使用generative model生成新句子，达到data augmentation的作用，论文的核心结构图如下：
在这里插入图片描述
主要三大部分，如上图所示：
第一部分：对输入句子 $x_1$ to $x_3$ ，用transformer机构进行encode编码生成原始句子的向量表示
第二部分：基于Generating Sentences from a Continuous Space
（VAE）概率模型生成编辑隐向量 $z$
第三部分：基于transformer结构（Attention Is All You Need
）对输入句子 $x_1$ to $x_3$ 以及句子的隐向量 $z$ 表示，利用解码器decode生成新句子（ $y_1$ to $y_3$ ）

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
数据增强技术：Easy Data Augmentation and Neural Sentence Editing

数据增强技术论文：EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks增强技术方法同义词替换（synonym replacement）：从句子中随机选择n个非停用词，对每一个词随机用它的同义词替换随机插入（random insertion）：从句子中随机选...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。