AEDA: An Easier Data Augmentation Technique for Text Classification

本文提出了一种称为AEDA(一种更简单的数据增强)的技术,通过在文本中随机插入标点符号来增强训练数据,从而提高文本分类任务的性能。实验表明这种方法在多种数据集上优于EDA方法,特别是在使用RNN和BERT模型时。未来的研究将探讨不同标点符号的影响,以及插入位置的选择对性能的影响。
摘要由CSDN通过智能技术生成

论文地址:AEDA: An Easier Data Augmentation Technique for Text Classification

论文阅读

论文介绍

本文提出了AEDA(一种更简单的数据增强)技术来帮助提高文本分类任务的性能。为了构建性能良好的文本分类器,训练数据需要足够大,以便模型能够泛化到看不见的数据。简而言之就是对于文本分类任务来说,在句子中插入一些标点符号是最强的数据扩增方法。

AEDA Augmentation

插入标点符号的个数为,从序列1到三分之一中随机选择一个数字表示为执行插入的次数。然后,序列中的位置也被随机指定,与前面步骤中选择的数字相同。最后,对于每个选择的位置,从{“.”, “;”, “?”, “:”, “!”, “,”}中的六个标点符号中随机抽取一个标点符号。
扩充例子如下:
在这里插入图片描述
原论文做了大量文本分类任务的实验,并且与 EDA 方法进行了比较,首先看下面一组图,作者在 5 个数据集上进行了对比(模型为 RNN)
在这里插入图片描述
在 BERT 上的效果如下表所示,
在这里插入图片描述

总结和未来工作

本文提出了一种简单的文本分类任务的数据增强技术。未来的工作将集中于开发所提出的方法,即哪些标点符号可以产生更大的影响,哪些可以添加或丢弃哪些,以及有多少标点符号可以用来获得更好的性能。此外,还将研究标点符号是否应该随机插入或某些位置更有效的问题。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值