Do Not Have Enough Data? Deep Learning to the Rescue!

最新推荐文章于 2024-06-18 17:27:29 发布

Lenhaoc

最新推荐文章于 2024-06-18 17:27:29 发布

阅读量683

点赞数

文章标签：人工智能自然语言处理

Do Not Have Enough Data? Deep Learning to the Rescue!

Abstract

基于自然语言建模和文本生成功能的最新进展，我们提出了一种用于文本分类任务的新型数据增强方法。我们使用功能强大的预训练神经网络模型人工合成新的标记数据，以进行监督学习。我们主要关注标签数据很少的情况。我们的方法被称为基于语言模型的数据增强（LAMBADA），涉及通过对现有（通常很小）的标记数据的初始训练阶段，将最先进的语言生成器微调到特定任务。使用微调的模型并给定类别标签，将生成该类别的新句子。然后，我们的过程将使用对原始数据进行训练的分类器来过滤这些新句子。在一系列实验中，我们证明了LAMBADA可以提高各种数据集上分类器的性能。此外，LAMBADA大大改进了最新的数据扩充技术，特别是适用于数据量少的文本分类任务的技术。

Introduction

数据扩充是处理稀少数据情况的常用策略。它通过从现有训练数据中合成新数据来工作，目的是提高下游模型的性能。该策略已成为改善各种神经网络模型（主要是在计算机视觉和语音识别领域）的性能的关键因素。具体地，对于这些领域，存在用于合成标记数据以改善分类任务的成熟方法。更简单的方法还将转换应用于现有的训练示例，例如裁剪，填充，翻转和沿时间和空间维度移动，因为这些转换通常是保留类的。
但是，对于文本数据，此类转换通常会使文本无效并使文本变形，从而使其在语法和语义上不正确。这使数据扩充更具挑战性。实际上，文本合成甚至弊大于利，因为要合成好的人工文本数据并不是一件容易的事。因此，用于文本的数据增强方法通常涉及用同义词替换单个单词，删除单词或更改单词顺序。
本文提出一个名叫（LAMBADA）的新模型用于合成标记数据来改善文本分类任务。
与LAMBADA训练的模型相比，具有更高的性能：
1）仅在现有数据上训练的基线模型
2）在通过文本数据增强中的最新技术生成的增强语料库上训练的模型。
LAMBADA是基于预训练模型GPT的，通过对现有的小型数据进行微调来使GPT适应我们的需求。然后，我们使用微调的模型来合成新的标记句子。
LAMBADA做出三个方面的贡献：

统计上提高了分类器的准确性；
在数据匮乏的情况下胜过最新的数据扩充方法；
当不存在未标记的数据时，建议使用一种令人信服的替代半监督技术的方法。

In summary, LAMBADA contributes along three main fronts:

Statistically improves classifiers accuracy.
Outperforms state-of-the-art data augmentation methods in scarce-data situations.
Suggests a compelling alternative to semi-supervised techniques when unlabeled data does not exist.

LAMBADA是专门针对小型训练集（甚至是小型训练集）的情况量身定制的，每个类别仅举几个例子。