AEDA: An Easier Data Augmentation Technique for Text Classification

最新推荐文章于 2023-11-19 21:24:06 发布

Diobld

最新推荐文章于 2023-11-19 21:24:06 发布

阅读量413

点赞数

文章标签： nlp

本文链接：https://blog.csdn.net/diobld/article/details/124086933

版权

本文提出了一种称为AEDA（一种更简单的数据增强）的技术，通过在文本中随机插入标点符号来增强训练数据，从而提高文本分类任务的性能。实验表明这种方法在多种数据集上优于EDA方法，特别是在使用RNN和BERT模型时。未来的研究将探讨不同标点符号的影响，以及插入位置的选择对性能的影响。

摘要由CSDN通过智能技术生成

论文地址：AEDA: An Easier Data Augmentation Technique for Text Classification

文章目录

论文阅读

论文阅读

论文介绍

本文提出了AEDA（一种更简单的数据增强）技术来帮助提高文本分类任务的性能。为了构建性能良好的文本分类器，训练数据需要足够大，以便模型能够泛化到看不见的数据。简而言之就是对于文本分类任务来说，在句子中插入一些标点符号是最强的数据扩增方法。

AEDA Augmentation

插入标点符号的个数为，从序列1到三分之一中随机选择一个数字表示为执行插入的次数。然后，序列中的位置也被随机指定，与前面步骤中选择的数字相同。最后，对于每个选择的位置，从{“.”, “;”, “?”, “:”, “!”, “,”}中的六个标点符号中随机抽取一个标点符号。
扩充例子如下：
在这里插入图片描述
原论文做了大量文本分类任务的实验，并且与 EDA 方法进行了比较，首先看下面一组图，作者在 5 个数据集上进行了对比（模型为 RNN）

在 BERT 上的效果如下表所示，

总结和未来工作

本文提出了一种简单的文本分类任务的数据增强技术。未来的工作将集中于开发所提出的方法，即哪些标点符号可以产生更大的影响，哪些可以添加或丢弃哪些，以及有多少标点符号可以用来获得更好的性能。此外，还将研究标点符号是否应该随机插入或某些位置更有效的问题。

Diobld

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
AEDA: An Easier Data Augmentation Technique for Text Classification

论文地址：AEDA: An Easier Data Augmentation Technique for Text Classification文章目录论文阅读论文介绍AEDA Augmentation总结和未来工作论文阅读论文介绍本文提出了AEDA（一种更简单的数据增强）技术来帮助提高文本分类任务的性能。为了构建性能良好的文本分类器，训练数据需要足够大，以便模型能够泛化到看不见的数据。简而言之就是对于文本分类任务来说，在句子中插入一些标点符号是最强的数据扩增方法。AEDA Augmentatio
复制链接

扫一扫