针对文本数据增强的方法[有代码]

SSMix是一种新的文本分类数据增强方法,通过基于跨度的混合在输入级进行文本增强,保留原始文本位置并利用显著性信息。它优于隐藏级混合方法,适用于文本推断、情感分类和问题类型分类等任务。
摘要由CSDN通过智能技术生成

论文标题:SSMix: Saliency-Based Span Mixup for Text Classification

论文链接:https://arxiv.org/pdf/2106.08062.pdfhttps://link.zhihu.com/?target=https%3A//arxiv.org/pdf/2106.08062.pdf

不需要翻墙论文链接:文献全文 - 学术范 (xueshufan.com)https://www.xueshufan.com/articles/articlesPage/ArticlesFullText?publicationId=3169506265

论文代码:https://github.com/clovaai/ssmixhttps://link.zhihu.com/?target=https%3A//github.com/clovaai/ssmix

论文作者:{soyoungyoon etc.}

论文摘要

数据增强已证明对各种计算机视觉任务是有效的。尽管文本取得了巨大的成功,但由于文本由可变长度的离散标记组成,因此将混合应用于NLP任务一直存在障碍。在这项工作中,我们提出了SSMix,一种新的混合方法,其中操作是对输入文本执行的,而不是像以前的方法那样对隐藏向量执行的。SSMix通过基于跨度的混合,综合一个句子,同时保留两个原始文本的位置,并依赖于显著性信息保留更多与预测相关的标记。通过大量的实验,我们实证验证了我们的方法在广泛的文本分类基准上优于隐藏级混合方法,包括文本隐含、情感分类和问题类型分类。

数据增强的效果已经在各种计算机视觉任务中被证实是有效的。尽管数据增强非常有效,由于文本是由变长的离散字符组成的,所以将mixup应用与NLP任务一直存在障碍。在本篇论文,作者提出了SSMix算法,一种针对输入文本增强的mixup算法,而非之前针对隐藏向量的方法。SSMix通过跨度混合( span-based mixing)在保留原始两个文本的条件下合成一个句子,同时保留两个原始文本的位置,并依赖于显著性信息保留更多与预测相关的标记。通过大量的实验,论文验证了该算法在广泛的文本分类基准上优于隐藏级混合方法,包括文本推断、情感分类和问题类型分类任务。

算法简介

由于数据收集与标志的昂贵成本,数据增强在自然语言处理(NLP)中越来越重要。其中一些已往研究包括基于简单的规则和模型来生成类似的文本。比如通过标准方法或先进的训练方法与原始样本联合进行训练,也有基于混淆(mixup)插值文本和标签进行增强。

Mixup及其变体训练算法成为计算机视觉中常用的正则化方法,用来提高

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>