Do Not Have Enough Data? Deep Learning to the Rescue!
Abstract
基于自然语言建模和文本生成功能的最新进展,我们提出了一种用于文本分类任务的新型数据增强方法。我们使用功能强大的预训练神经网络模型人工合成新的标记数据,以进行监督学习。我们主要关注标签数据很少的情况。我们的方法被称为基于语言模型的数据增强(LAMBADA),涉及通过对现有(通常很小)的标记数据的初始训练阶段,将最先进的语言生成器微调到特定任务。使用微调的模型并给定类别标签,将生成该类别的新句子。然后,我们的过程将使用对原始数据进行训练的分类器来过滤这些新句子。在一系列实验中,我们证明了LAMBADA可以提高各种数据集上分类器的性能。此外,LAMBADA大大改进了最新的数据扩充技术,特别是适用于数据量少的文本分类任务的技术。
Introduction
数据扩充是处理稀少数据情况的常用策略。它通过从现有训练数据中合成新数据来工作,目的是提高下游模型的性能。该策略已成为改善各种神经网络模型(主要是在计算机视觉和语音识别领域)的性能的关键因素。具体地,对于这些领域,存在用于合成标记数据以改善分类任务的成熟方法。更简单的方法还将转换应用于现有的训练示例,例如裁剪,填充,翻转和沿时间和空间维度移动,因为这些转换通常是保留类的。
但是,对于文本数据,此类转换通常会使文本无效并使文本变形,从而使其在语法和语义上不正确。这使数据扩充更具挑战性。实际上,文本合成甚至弊大于利,因为要合成好的人工文本数据并不是一件容易的事。因此,用于文本的数据增强方法通常涉及用同义词替换单个单词,删除单词或更改单词顺序。
本文提出一个名叫(LAMBADA)的新模型用于合成标记数据来改善文本分类任务。
与LAMBADA训练的模型相比,具有更高的性能:
1)仅在现有数据上训练的基线模型
2)在通过文本数据增强中的最新技术生成的增强语料库上训练的模型。
LAMBADA是基于预训练模型GPT的,通过对现有的小型数据进行微调来使GPT适应我们的需求。然后,我们使用微调的模型来合成新的标记句子。
LAMBADA做出三个方面的贡献:
- 统计上提高了分类器的准确性;
- 在数据匮乏的情况下胜过最新的数据扩充方法;
- 当不存在未标记的数据时,建议使用一种令人信服的替代半监督技术的方法。
In summary, LAMBADA contributes along three main fronts:
- Statistically improves classifiers accuracy.
- Outperforms state-of-the-art data augmentation methods in scarce-data situations.
- Suggests a compelling alternative to semi-supervised techniques when unlabeled data does not exist.
LAMBADA是专门针对小型训练集(甚至是小型训练集)的情况量身定制的,每个类别仅举几个例子。
LAMBADA Method
LAMBADA模型的详细步骤如下表1所示。
D
t
r
a
i
n
D_{train}
Dtrain:需要使用合成数据来补充的数据集
g
t
u
n
e
d
g_{tuned}
gtuned:将语言模型g微调为合成带标签的句子的任务,以获得经过微调的语言模型
g
t
u
n
e
d
g_{tuned}
gtuned。
基于GPT-2将标签信息与原始文本拼接当作训练数据进行finetune(如下图所示,SEP代表标签和文本的分割,EOS是文本结束的标志),同时也采用一个判别器对生成数据进行了过滤降噪。
参考:https://mp.weixin.qq.com/s/gt-XJCTXJ-4GUizjoqzWvw