【无标题】

最新推荐文章于 2024-08-30 11:21:20 发布

big_matster

最新推荐文章于 2024-08-30 11:21:20 发布

阅读量366

点赞数

分类专栏：知识图谱文章标签：机器学习深度学习人工智能

本文链接：https://blog.csdn.net/kuxingseng123/article/details/129131140

版权

知识图谱专栏收录该内容

16 篇文章 0 订阅

订阅专栏

介绍

作者提出了一个简单使用的文本数据增强手段，Easy Data Augmentation(EDA)。尽管已经有人提出了一些树增强手段，比如将英文文本翻译成法语，然后再翻译成英文，但是这样的手段并不是很常用，于是作者提出自己简单的数据增强手段——EDA

EDA

Synonym Replacement (SR)
随机从句子中选择 $n$ 个词(非停用词)，然后从它们的同义词中随机挑选一个替换掉原词。
Random Insertion(RI)
随机地从句子中选择一个词（非停用词），再随机地选择它的一个同义词，插入句子的任意一个位置，重复这一操作 $n$
次。
Random Swap
随机从句子中选择两个词，交换他们的位置。重复这一操作 n 次
Random Deletion
以概率 $p$ 随机删除句子里的每个词

在这里插入图片描述

实验与分析

EDA Makes Gains

作者在CNN和RNN模型上实验了EDA的效果，如图所示，在使用EDA后，500个训练样本上的效果提升了3.0%，而完整的数据集上则提升了0.8%

在这里插入图片描述

训练集

作者也做了对比试验，验证了不同的训练集大小对于效果提升的影响。训练集大小分别选用了【1%，5%，10%，20%，30%，40%，50%，60%，70%，80%，90%，100%】，在五个数据集的效果和平均效果如下图所示：
在这里插入图片描述
图(a)-(e)分别对应着SST-2、CR、SUBJ、TREC和PC五种不同的数据集。图(f)是五种数据集上的平均值。可见EDA技术在所有的数据集上都取得了比Baseline更好的效果，但同时我们发现，随着数据集的增大，EDA的效果提升变得不明显。我们注意到，在使用了EDA手段后，模型平均只需要50%的训练数据就可以得到大约88.6%的准确率。

Does EDA conserve true labels?

再做数据增强时，我们只改变了文本，保留了标签不变，但是如果文本经过较大的改变，会使得标签不正确，为了探究EDA处理后的语句是否改变了语义，作者对其进行可视化处理，做法是在没有EDA处理时，训练RNN网络，然后将测试集的句子输入网络，取最后一个全连接层做 $t - SNE$ 聚类。
在这里插入图片描述
结果可见，经过EDA处理后的句子与原句子距离还是很近。大部分经过EDA处理的句子还是保留了正确的标签。