NLP十大数据扩充策略

做图像的同学都知道图像的数据扩充可以带来巨大的提升,包括:

  • 裁剪、旋转、缩放等等。

v2-a3cf0484d2694331b7d84e4162b0a028_b.jpg

那么在NLP中都有哪些数据扩充的策略呢?

v2-419aacabcb18cbc242aaf3fb92ab6757_b.jpg

v2-2c54b478789b4860cbbabade3ded7e22_b.jpg

这个很简单,就是替换文中的某些词汇,而不改变文本原由的意思。一般的操作是:

  • 我们从句子中随机抽取一个或者多个单词,使用同义词对其进行替换。在英语中,常用的有WordNet等英语数据库来查找同义词。

v2-1d9882edd3015e44efa45bd5fe5c7b70_b.jpg

v2-5d1267a4c6c1aeb920311e16f2cdf46c_b.jpg

词Embedding替换的策略和近义词有些类似,直接计算词embedding的距离,然后用距离最近的N个词的embedding进行替换。该策略在TinyBert等论文中有提及。

v2-266dfc1fe245b454c4a30ee0cc06d76f_b.jpg

v2-ab8a5784af27357b652a3fed63ddb0df_b.jpg

BERT、ROBERTA和ALBERT等模型已经在大量的文本上进行了训练,我们可以使用其进行文本的扩充,随机Mask个文本中的某个单词,然后使用模型对其进行预测。

v2-4b02b37858282423b18e73e5dd766969_b.jpg

使用MLM的好坏取决于Mask的Mask的质量。

v2-9809f0dd2140415d73a308a20b80b1d0_b.jpg

该策略的思路是先将原先的文本转化为其它回家的语义,然后再转化回来得到新的重新翻译之后的文本。该策略经常在一些小数据集的文本上被使用。

v2-705263f3c7cfbc5debe92ba884ac532e_b.jpg

v2-6b3c6edbc40da24f93701eec387543f5_b.jpg

该转换的策略也非常简单,例如下面的就是She's ——> She has.

v2-7464cd7f036b4d38a2e713d13d6108f6_b.jpg

v2-cca9aae5d62e0dcdffa845a859db058e_b.jpg

v2-e074128d44979ad27c0e7e9bca23b97b_b.jpg

我们将拼写错误添加到句子中的一些随机词中。这些拼写错误可以通过编程方式添加,也可以使用常见拼写错误的映射。

v2-b588ebd23ec5a4e42198c78cf96c5a0b_b.jpg

v2-429552a7e828f4a253b3b09c87272d86_b.jpg

QWERTY键盘错误注入是直接模拟键盘输入出错的策略,

v2-c8aa1332d7d6d05ff145aa232f3d3931_b.jpg

v2-318233a597bae7b404bf14fdd6472959_b.jpg

该方法由Xie等人在他们的论文中提出。这种思想是使用占位符标记替换随机单词。论文使用“_”作为占位符标记。

v2-819c54a002194b70c23a6259b88be9c0_b.jpg

v2-da6b247698dfca4541a3a4c8df37f0a2_b.jpg

句子Shuffliing的策略就是对整个句子进行shuffle,切换句子的位置。

v2-df9c065dd9a0f414f009ae597cc44047_b.jpg

v2-08b5c0f8f32bb30e8e1d3ead923fb13b_b.jpg

该策略是Luque在关于TASS2019情感分析的论文中介绍的,例如在tweet的文本情感中,一个tweet被分成两半,并且具有相同标签(正/负)的两个随机tweet被随机分开。假设是,即使结果不符合语法和语义,新的文本仍然会保留相同的情感。

v2-6a6ee0625efa11de34cff77cef8cef83_b.jpg

v2-36935c300eb2ca7c6b80d769dfc0bda4_b.jpg
十大NLP数据扩充策略

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值