Abstract
由于标注数据的缺乏,直接训练判别式模型效果不是很理想。
本文展示了先在大规模未标注语料上预训练生成式语言模型然后在每个判别式任务上进行fine-tuning可以获得较大的效果提升。
相比于以前的方法,本文在fine-tuning阶段利用了task-aware input transformations, 实现了有效的迁移学习并且只需要很少的模型结构调整。
Introduction
从原始文本中有效学习的能力是缓解NLP依赖于有监督学习的关键。很多领域由于缺乏足够的标注数据,而限制了NLP在该领域的应用。即便是在有一定标注语料的领域,使用预训练模型依然可以获得显著的性能提升。预训练词向量(word2vec, GloVe等)在多种NLP任务中的广泛应用足以说明这一点。
利用无标注文本中word-level之外的信息有一定的挑战性:
- 尚不清楚什么类型的优化目标对于面向迁移学习的文本表示是最有效的
- 尚不明确以何种方式将学习到的表示迁移到目标任务是最有效地
本文提出了一种用于语言理解任务的半监督方法,包括无监督的预训练和有监督的fine-tuning. 目标是学到一种通用的表示,只需微小调整就能迁移到各种不同的任务上。目标任务不需要和预训练任务使用同一领域的语料。具体来说,在预训练阶段,使用语言模型作为训练目标&#