用于文本分类的数据增强方法

这是一篇发表在AAAI2020上的一篇文章,附上链接:https://aaai.org/ojs/index.php/AAAI/article/view/6233

方法名为LAMBADA(Language Model Based Data Augmentation),核心思路为:

下面看一下每个步骤具体实施的过程:

  1. 选用一个分类算法在训练集上训练一个分类器。分类算法文中用了BERT,SVM和LSTM。记住这个分类器,第四步的时候要用。
  2. 这一步得到一个用于生成句子的模型:把训练集的数据组织成ySEPxEOS的格式,y是类别标签,SEP作为分隔符,x是需要分类的句子,EOS作为结束符。然后微调一个预训练好的语言模型,论文中使用的是GTP-2。这一步的主要目的是,微调之后给定一个类别标签,这个微调过的语料模型就能把后面的内容补全,从而生成对应类别标签y的句子x。
  3. 在上一步得到模型之后,每给模型一个ySEP。这个语言模型就能生成相应类别的句子。这样做的好处是每个类别都能生成数量相当的句子,不会造成类别上的不平衡。这样就可以得到合成的(synthesized)训练集。
  4. 利用第一步得到的分类器,过滤合成训练集中质量比较低的样本,提高构造数据的质量,得到我们最终需要的样本。

总结:

让我感到比较新奇的地方就是:我们之前都是给一个句子,判断句子的类别。这篇文章实现了给一个类别,能生成相应的句子。可能之前也有工作做了这个东西,不过我是没看到。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值