NLP十大数据扩充策略

最新推荐文章于 2023-11-03 14:49:43 发布

炼丹笔记

最新推荐文章于 2023-11-03 14:49:43 发布

阅读量581

点赞数

文章标签：自然语言处理机器学习深度学习大数据 nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_52122378/article/details/118724373

版权

做图像的同学都知道图像的数据扩充可以带来巨大的提升,包括：

裁剪、旋转、缩放等等。

那么在NLP中都有哪些数据扩充的策略呢？

这个很简单，就是替换文中的某些词汇，而不改变文本原由的意思。一般的操作是：

我们从句子中随机抽取一个或者多个单词，使用同义词对其进行替换。在英语中，常用的有WordNet等英语数据库来查找同义词。

词Embedding替换的策略和近义词有些类似，直接计算词embedding的距离，然后用距离最近的N个词的embedding进行替换。该策略在TinyBert等论文中有提及。

BERT、ROBERTA和ALBERT等模型已经在大量的文本上进行了训练，我们可以使用其进行文本的扩充，随机Mask个文本中的某个单词，然后使用模型对其进行预测。

使用MLM的好坏取决于Mask的Mask的质量。

该策略的思路是先将原先的文本转化为其它回家的语义，然后再转化回来得到新的重新翻译之后的文本。该策略经常在一些小数据集的文本上被使用。

该转换的策略也非常简单，例如下面的就是She's ——> She has.

我们将拼写错误添加到句子中的一些随机词中。这些拼写错误可以通过编程方式添加，也可以使用常见拼写错误的映射。

QWERTY键盘错误注入是直接模拟键盘输入出错的策略，

该方法由Xie等人在他们的论文中提出。这种思想是使用占位符标记替换随机单词。论文使用“_”作为占位符标记。

句子Shuffliing的策略就是对整个句子进行shuffle，切换句子的位置。

该策略是Luque在关于TASS2019情感分析的论文中介绍的，例如在tweet的文本情感中，一个tweet被分成两半，并且具有相同标签（正/负）的两个随机tweet被随机分开。假设是，即使结果不符合语法和语义，新的文本仍然会保留相同的情感。

十大NLP数据扩充策略

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
NLP十大数据扩充策略

做图像的同学都知道图像的数据扩充可以带来巨大的提升,包括：裁剪、旋转、缩放等等。那么在NLP中都有哪些数据扩充的策略呢？这个很简单，就是替换文中的某些词汇，而不改变文本原由的意思。一般的操作是：我们从句子中随机抽取一个或者多个单词，使用同义词对其进行替换。在英语中，常用的有WordNet等英语数据库来查找同义词。词Embedding替换的策略和近义词有些类似，直接计算词embedding的距离，然...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。