摘要
神经语言理解包含很宽范围的各种任务,比如文本蕴含,问答,语义相似度评估,以及文档分类。尽管大型无标注的文本语料很丰富,对于学习这些具体任务的有标注的数据依然很缺乏,这使得有差别的训练模型以充分表现很具有挑战性。我们证明了这些任务中大的收益可以通过在一个无标注的各式各样的语料上,生成式预训练一个语言模型,紧接着有差别地在每个具体任务上微调来实现。与现有方式相比,我们在微调时使用了任务感知的输入转换来实现有效的转换当模型结构需要细小的改变时。我们证明了我们的方法在大范围内的自然语言理解基线上的有效性。我们的一般任务不可知模型优于使用专门为每个人物设计的架构的鉴别训练模型。在12个任务中的9个有重大提升。举个例子,我们实现了绝对的提升,常识推理方面提升8.9%,问答方面提升5.7%,文本蕴涵方面提升1.5%。