Do Not Have Enough Data? Deep Learning to the Rescue!

Do Not Have Enough Data? Deep Learning to the Rescue!

Abstract

基于自然语言建模和文本生成功能的最新进展,我们提出了一种用于文本分类任务的新型数据增强方法。我们使用功能强大的预训练神经网络模型人工合成新的标记数据,以进行监督学习。我们主要关注标签数据很少的情况。我们的方法被称为基于语言模型的数据增强(LAMBADA),涉及通过对现有(通常很小)的标记数据的初始训练阶段,将最先进的语言生成器微调到特定任务。使用微调的模型并给定类别标签,将生成该类别的新句子。然后,我们的过程将使用对原始数据进行训练的分类器来过滤这些新句子。在一系列实验中,我们证明了LAMBADA可以提高各种数据集上分类器的性能。此外,LAMBADA大大改进了最新的数据扩充技术,特别是适用于数据量少的文本分类任务的技术。

Introduction

数据扩充是处理稀少数据情况的常用策略。它通过从现有训练数据中合成新数据来工作,目的是提高下游模型的性能。该策略已成为改善各种神经网络模型(主要是在计算机视觉和语音识别领域)的性能的关键因素。具体地,对于这些领域,存在用于合成标记数据以改善分类任务的成熟方法。更简单的方法还将转换应用于现有的训练示例,例如裁剪,填充,翻转和沿时间和空间维度移动,因为这些转换通常是保留类的。
但是,对于文本数据,此类转换通常会使文本无效并使文本变形,从而使其在语法和语义上不正确。这使数据扩充更具挑战性。实际上,文本合成甚至弊大于利,因为要合成好的人工文本数据并不是一件容易的事。因此,用于文本的数据增强方法通常涉及用同义词替换单个单词,删除单词或更改单词顺序。
本文提出一个名叫(LAMBADA)的新模型用于合成标记数据来改善文本分类任务。
与LAMBADA训练的模型相比,具有更高的性能:
1)仅在现有数据上训练的基线模型
2)在通过文本数据增强中的最新技术生成的增强语料库上训练的模型。
LAMBADA是基于预训练模型GPT的,通过对现有的小型数据进行微调来使GPT适应我们的需求。然后,我们使用微调的模型来合成新的标记句子。
LAMBADA做出三个方面的贡献:

  1. 统计上提高了分类器的准确性;
  2. 在数据匮乏的情况下胜过最新的数据扩充方法;
  3. 当不存在未标记的数据时,建议使用一种令人信服的替代半监督技术的方法。

In summary, LAMBADA contributes along three main fronts:

  1. Statistically improves classifiers accuracy.
  2. Outperforms state-of-the-art data augmentation methods in scarce-data situations.
  3. Suggests a compelling alternative to semi-supervised techniques when unlabeled data does not exist.

LAMBADA是专门针对小型训练集(甚至是小型训练集)的情况量身定制的,每个类别仅举几个例子。

LAMBADA Method

LAMBADA模型的详细步骤如下表1所示。
在这里插入图片描述
D t r a i n D_{train} Dtrain:需要使用合成数据来补充的数据集
g t u n e d g_{tuned} gtuned:将语言模型g微调为合成带标签的句子的任务,以获得经过微调的语言模型 g t u n e d g_{tuned} gtuned

在这里插入图片描述
基于GPT-2将标签信息与原始文本拼接当作训练数据进行finetune(如下图所示,SEP代表标签和文本的分割,EOS是文本结束的标志),同时也采用一个判别器对生成数据进行了过滤降噪。

参考:https://mp.weixin.qq.com/s/gt-XJCTXJ-4GUizjoqzWvw

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值