ACL'22 | 快手+中科院提出一种数据增强方法：Text Smoothing，非常简单且有效尤其在数据不足的情况下...-CSDN博客

本文链接：https://blog.csdn.net/qq_27590277/article/details/124487067

每天给你送来NLP技术干货！

论文：Text Smoothing: Enhance Various Data Augmentation Methods on Text Classification Tasks

录取：ACL2022

链接：https://arxiv.org/pdf/2202.13840.pdf

大家都知道，数据增强的方法有很多，比如EDA方法(增删改插)，回译(Back Translation，就是翻译到一种语言，再翻译回来)，CBERT(通过BERT寻找语义相关的替换词)，GPT2context(给一个提示(prompt)生成相关文本)等。

比如一个情感分类的一个例子：

The quality of this shirt is average

这里average就起决定性作用，但是针对于训练数据量少的任务来说，像normal、middle等词汇不会都能出现在训练集里的，那么怎么办呢？之前的数据增强方法感觉有点hard，有没有稍微soft的方法，于是作者通过label smoothing的灵感想到了text是否也可以来做smoothing？

于是作者提出了一种Text Smoothing的方法，具体如下：

其实该方法借鉴了CBERT的灵感，就是通过mask language model (MLM)的方法，将文本输入并得到每一个token对应的在vocab size维度预测的概率，这里区别于CBERT的是没有mask任何一个token，以及不是选择最佳候选token来替换，而是通过mixup的方法，将所有的概率融合到一起，具体如下：

其中mixup融合公式为：

其中ti为BERT的正常的one-hot输入，最后将所有概率归一为新的embedding形成新的representation，最终参与训练的每条文本只使用其洗呢representation即可。

实验

本文在低资源的公开数据集上得到了非常好的效果，远高于其他方法。

使用的数据统计：

纯Text Smoothing方法：

Text Smoothing方法结合其他方法：

效果非常好吧？

总之，该方法非常适用于数据量较小的任务，感兴趣的可以尝试下~

最近文章

EMNLP 2022 和 COLING 2022，投哪个会议比较好？

一种全新易用的基于Word-Word关系的NER统一模型，刷新了14种数据集并达到新SoTA

阿里+北大 | 在梯度上做简单mask竟有如此的神奇效果

下载一：中文版！学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套！  后台回复【五件套】
下载二：南大模式识别PPT  后台回复【南大模式识别】

投稿或交流学习，备注：昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

整理不易，还望给个在看！