基于单词角色的选择性文本增强(STA)介绍及理论推导

来源:投稿 作者:zel
编辑:学姐

1. Introduction

这篇文章的应用场景是小样本中的文本分类,其希望通过数据增强来提升模型的performence。

目前已经设计了许多文本增强技术来生成更多的训练数据。

  1. 文本编辑方法基于简单的文本编辑规则 (例如单词替换和插入) 扩展训练数据。

  2. 反翻译技术通过首先将样本翻译成另一种语言,然后再翻译回原始语言,从而生成新样本。

  3. 基于语言模型的方法利用预先训练的语言模型来合成用于训练的新文本。

但是,以前的方法主要以非选择性的方式增强文本,而没有考虑不同单词的不同作用,这可能会导致不希望的增强样本:

  1. 重要的类指示词可能会被更改,导致对原文的含义有一些损害甚至改变原文的标签;

  2. 不重要的词语、嘈杂的词语或误导性词语在扩充后可能会增强,这可能会降低概括能力。

基于上述原因,本文提出了「基于单词角色的数据增强的方法」

「贡献点:」

  1. 基于单词的“角色”进行数据增强,也是进行单词的增删改查,但是,文章认为传统的EDA可能会将帮助文本分类的方面增强,也可能会将不利于文本分类的方面增强,所以就有一定的不确定性。也就是说,第一个贡献点就是定义了单词的角色;

  2. 定义了如何根据“角色”进行数据增强。

2. Method

2.1 word roles recognition

本文从两个维度进行单词的分类,而每个单词在两个维度都有高有低,所以一共可以将单词分为四类。第一维:基于统计的维度,有的单词与类别经常同时出现,有的单词与类别不经常同时出现。统计的公式如下所示:

Gold:高统计相关,高语义相关

Venture:高统计相关,低语义相关

Bonus:低统计相关,高语义相关

Trivial:低统计相关,低语义相关

例子如图:

2.2 数据增强

 例子如下图所示:

选择性替换使样本在保护核心语义的同时有所不同;选择性插入在句子中引入了新单词,同时通过将venture单词排除在外,防止插入潜在的误导性单词;选择性删除侧重于与相应类别具有较低统计或语义关系的单词,从而使样本更干净,更与类别相关;positive selection可以被视为另一种类型的删除操作,其中所有venture和bonus都从文本中删除。这样做,消除了潜在的噪声或误导性单词,这可能有助于文本分类模型学习任务的最类指示功能。

3. Experience

「baseline:」 在本文的主要实验中,比较以下方法。

  • non-aug: 在不使用任何数据增强技术的情况下训练分类器;

  • EDA : 首先从原始文本中随机选择一些标记,然后应用以下文本编辑操作之一: 同义词替换,同义词插入,删除和单词位置交换;

  • EDA-w2v: 原始 EDA 利用 WordNet 进行同义词搜索,这使得许多同义词无法访问。因此,本文使用 Word2Vec 模型实现了一个替代方案,以找到类似的单词;

  • MLM-aug: 利用 DistilBERT-base 的掩蔽语言建模 (MLM) 能力,根据上下文嵌入替换某些单词;Back-Trans: 将序列翻译成另一种语言,然后再翻译成原始语言,使用预先训练的编码器-解码器转换模型。使用在四种语言 (es,zh,ru,de) 的 Tatoeba 语料库上训练的翻译模型作为中间语言。

n 表示从数据集中抽出多少个数据项。

从表中可以看出,文章中的方法大多数表现都优于其他方法。

全局策略根据词汇中的所有单词确定角色划分的阈值,而对于本地策略,该划分基于当前样本中的单词。换句话说,本地策略使用相对视图来区分高分和低分,因此,当出现在另一个样本中时,单词的角色可能会发生变化。

在主要实验中,使用DistilBERT-base作为文本分类器的主干,这是从BERT中提炼出来的轻量级transformer模型。为了验证我们提出的增强方法在较大模型上的有效性,我们还对BERT-base进行了评估,如图3所示。

从上表中可以看出,随着n的增大,提升效果虽然有限,但是也比其他效果要好。

Reference

[1] https://arxiv.org/abs/220

关注下方《学姐带你玩AI》🚀🚀🚀

回复“ACL”获取NLP顶会500多篇高分论文PDF

码字不易,欢迎大家点赞评论收藏!

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值