预训练语言模型综述

《Pre-trained Models for Natural Language Processing: A Survey》总结

序章

随着深度学习的发展,各种神经网络被广泛应用于解决自然语言处理(NLP)任务,如卷积神经网络(CNNs),递归神经网络(RNNs),基于图的神经网络(GNNs)和注意机制。相比于非神经网络NLP方法严重依赖于离散的手工特征,神经网络方法通常使用低维密集向量(分布式表示)隐式表示语言的语法或语义特征。这些表示在特定的NLP任务中得到学习。因此,神经网络方法使人们更容易开发各种NLP系统。尽管神经网络模型在NLP任务中取得了成功,由于大多数监督NLP任务的数据集非常小,与计算机视觉(CV)领域相比,其性能改进可能不太显著。而且深度神经网络通常具有大量的参数,使得它们在这些小的训练数据上过于拟合,在实际应用中不能很好地推广。所以早期NLP任务的模型构造相对简单(浅层神经网络)。
近年来,大量的研究表明,在大型语料库上的预训练模型(PTMs)可以学习通用语言表示,这有利于后续的NLP任务,避免从头开始训练新模型。第一代PTMs旨在学习好的单词嵌入。由于下游任务不再需要这些模型,因此它们对于计算效率来说影响较少,例如Skip-Gram和GloVe。尽管这些预训练的嵌入可以捕获单词的语义,但它们是上下文无关的,不能捕获上下文中的高级概念,如多义消歧、句法结构、语义信息、语义信息、语义角色,回指等。第二代PTMs专注于学习上下文单词嵌入,如CoVe 、ELMo、OpenAI GPT和BERT。这些学习过的编码器仍然需要通过下游任务在上下文中表示单词。此外,还提出了不同的预训练任务,以学习不同目的的PTMs。
论文的结构:
1.全面审查:论文对NLP的PTMs进行了全面的回顾,包括背景知识、模型架构、训练前任务、各种扩展、自适应方法和应用。
2.新分类法:我们提出了一个用于NLP的PTMs分类法,它从四个不同的角度对现有PTMs进行分类:1.表示类型,2.模型架构,3.预训练任务类型,4.特定场景类型的扩展。
3.资源:我们收集了大量关于PTMs的资源,包括PTMs的开源实现、可视化工具、语料库和纸质清单。
4.未来的方向:我们讨论并分析了现有PTMs的局限性。此外,我们还提出了未来可能的研究方向。

1.背景知识

1.1.语言表示学习

对于自然语言,一个好的表达应该捕捉隐藏在文本数据中的隐含的语言规则和常识,如词汇意义、句法结构、语义角色,甚至语用学。
分布式表示的核心思想是用

  • 3
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值