Improving Language Understanding by Generative Pre-Training

背景

自然语言理解包括一系列不同的任务,如文本隐含、问题回答、语义相似性评估和文档分类。尽管大型未标记文本语料库非常丰富,但用于学习这些特定任务的标记数据却很少,这使得经过判别训练的模型很难充分执行。我们证明,通过在不同的未标记文本语料库上生成语言模型的预训练,然后对每个特定任务进行有区别的微调,可以在这些任务上实现巨大的收益。与以前的方法相比,我们在微调过程中使用了任务感知输入转换,以实现有效的传输,同时对模型架构的更改最小。我们在广泛的自然语言理解基准上展示了我们的方法的有效性。我们的通用任务不可知模型优于使用专门为每个任务构建的架构的区别训练模型,在所研究的12个任务中,有9个任务显著提高了现有技术水平。例如,我们在常识推理(Stories Cloze Test)、问答(RACE)和文本隐含(MultiNLI)方面分别获得了8.9%、5.7%和1.5%的绝对改进。

介绍

在自然语言处理(NLP)中,从原始文本中有效学习的能力对于减轻对监督学习的依赖至关重要。大多数深度学习方法需要大量的手动标记数据,这限制了它们在许多缺乏注释资源的领域的适用性[61]。在这些情况下,可以利用未标记数据中的语言信息的模型为收集更多的注释提供了一种有价值的替代方案,这可能既耗时又昂贵。此外,即使在可以进行大量监督的情况下,以无监督的方式学习良好的表示也可以显著提高性能。到目前为止,最令人信服的证据是广泛使用预训练的单词嵌入[10,39,42]来提高一系列NLP任务的性能[8,11,26,45]。
然而,利用未标记文本中的单词级信息是一项挑战,主要有两个原因。首先,目前尚不清楚哪种类型的优化目标在学习对迁移有用的文本表示方面最有效。最近的研究着眼于各种目标,如语言建模[44]、机器翻译[38]和话语连贯性[22],每种方法在不同的任务上都优于其他方法。1其次,对于将这些学习到的表征转移到目标任务的最有效方法,还没有达成共识。现有技术包括对模型架构[43,44]进行特定任务的更改、使用复杂的学习方案[21]和添加辅助学习目标[50]的组合。这些不确定性使得开发有效的语言处理半监督学习方法变得困难。

在本文中,我们探索了一种使用无监督预训练和有监督微调相结合的语言理解任务的半监督方法。我们的目标是学习一种对广泛任务几乎不适应的普遍代表性。我们假设访问未标记文本的大型语料库和具有手动注释的训练示例的几个数据集(目标任务)。我们的设置不要求这些目标任务与未标记的语料库在同一域中。我们采用两阶段的培训程序。首先,我们对未标记的数据使用语言建模目标来学习神经网络模型的初始参数。随后,我们使用相应的监督目标将这些参数调整为目标任务。

对于我们的模型架构,我们使用Transformer[62],它已被证明在各种任务上表现出色,如机器翻译[62]、文档生成[34]和语法解析[29]。与循环网络等替代方案相比,这种模型选择为我们提供了更结构化的内存,用于处理文本中的长期依赖关系,从而在不同任务中实现稳健的传输性能。在传输过程中,我们使用从遍历风格方法[52]派生的特定于任务的输入自适应,该方法将结构化文本输入处理为单个连续的令牌序列。正如我们在实验中所证明的那样,这些适应使我们能够在对预训练模型的架构进行最小更改的情况下进行有效的微调。

我们在四种类型的语言理解任务上评估了我们的方法——自然语言推理、问题回答、语义相似和文本分类。我们的通用任务不可知模型优于采用专门为每个任务构建的架构的区别训练模型,在所研究的12个任务中,有9个任务显著提高了现有技术水平。例如,我们在常识推理(Stories Cloze Test)[40]、问答(RACE)[30]、文本隐含(MultiNLI)[66]和最近引入的GLUE多任务基准[64]上分别实现了8.9%、5.7%、1.5%和5.5%的绝对改进。我们还分析了预先训练的模型在四种不同环境下的零样本行为,并证明它为下游任务获得了有用的语言知识。

相关工作

结论

通过生成预训练与微调,在具有长时间连续文本的不同语料库上进行预训练,之后这些知识被迁移到解决判别任务中。

我们引入了一个框架,通过生成预训练和判别微调,使用单一任务不可知模型来实现强大的自然语言理解。通过在具有长时间连续文本的不同语料库上进行预训练,我们的模型获得了重要的世界知识和处理长期依赖关系的能力,这些知识和能力随后被成功地转移到解决判别性任务中,如问答、语义相似性评估、蕴涵确定和文本分类,在我们研究的12个数据集中的9个数据集上改进了现有技术。长期以来,使用无监督(预)训练来提高判别任务的性能一直是机器学习研究的重要目标。我们的工作表明,实现显著的性能提升确实是可能的,并提示了哪些模型(Transformer)和数据集(具有长范围依赖性的文本)最适合使用这种方法。我们希望这将有助于对自然语言理解和其他领域的无监督学习进行新的研究,进一步提高我们对无监督学习如何以及何时工作的理解。

参考资料

https://www.cnblogs.com/heshizhu/archive/2012/09/23/2699218.html (文本蕴含)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值