论文阅读|Pre-trained Models for Natural language Processing: A Survey

本文是一篇对预训练语言模型(PTM)在自然语言处理领域的综述,探讨了PTM的背景、模型架构、预训练任务及应用场景。PTM通过在大规模语料库上学习通用语言表示,改善了NLP任务的性能,包括词嵌入、上下文编码器等。预训练任务包括语言模型(LM)、掩蔽语言模型(MLM)、置换语言模型(PLM)等,这些任务有助于学习语言的通用表示,并避免过拟合。文章还提出了PTM的新分类法,总结了未来研究方向,旨在为NLP任务中PTM的理解、使用和开发提供指导。
摘要由CSDN通过智能技术生成

【导言】这篇综述是复旦大学的邱锡鹏教授对近两年的预训练语言模型(PTM)做的综述,全文有25页,文章很全面,边读边译。文章太长了,一次性读太多有点消化不了,慢慢更新吧。

原文链接:Pre-trained Models for Natural language Processing: A Survey

Pre-trained Models for Natural language Processing: A Survey

摘要:最近,预训练模型(PTM)的出现将自然语言处理(NLP)带入了一个新的领域。在这篇综述中,我们为自然语言预训练模型提供了一个全面概述。我们首先简短介绍一下语言表示学习与其研究历程。然后我们基于四种观点对现有的PTM进行了系统的分类。接下来,我们描述了如何将PTM应用到下游任务。最后,我们概述了PTM的未来的一些潜在发展方向。这篇综述旨在为理解、使用和开发各种适用于NLP任务的PTM提供实践指南。

关键字:深度学习,神经网络,自然语言处理,预训练模型,分布式表示,词嵌入,自监督学习,语言建模

1 介绍

随着深度学习的发展,各种神经网络已广泛用于解决自然语言处理(NLP)任务,例如卷积神经网络(CNN),递归神经网络(RNN) ,图论神经网络(GNN)和注意力机制。这些神经模型的优点之一是它们减轻特征工程问题的能力。非神经NLP方法通常很大程度上依赖于离散的手工特征,而神经方法通常使用低维和密集向量(又称为分布式表示)来隐式表示语言的语法语义特征。 这些表示是在特定的NLP任务中学习的。 因此,神经方法使人们易于开发各种NLP系统。

尽管用于NLP任务的神经模型取得了成功,但与“计算机视觉”(CV)领域相比,性能改进的重要性可能较低。 主要原因是大多有数与监督的NLP任务的当前数据集非常小(机器翻译除外)。 深度神经网络通常具有大量参数,这会使它们过度拟合这些小的训练数据,并且不能很好地推广实践。 因此,许多NLP任务的早期神经模型相对较浅,通常仅包含1-3个神经层。

最近,大量的工作表明,大型语料库上的预训练模型(PTM)可以学习通用语言表示,这对于下游NLP任务很有帮助,并且可以避免从头开始训练新模型。 随着计算能力的发展,深层模型(即Transformer )的出现以及训练手段的不断增强,PTM的体系结构已从浅层发展到深层。第一代PTM可以学习良好的词嵌入。 由于下游任务不再需要这些模型本身,因此对于计算效率而言,它们通常很浅,例如Skip-Gram和GloVe。 尽管这些预先训练的嵌入可以捕获单词的语义,但它们没有上下文,也无法捕获上下文中的高级概念,例如多义歧义消除,句法结构,语义角色,指代。第二代PTM专注于学习上下文词嵌入,例如CoVe,ELMo,OpenAI GPT和BERT。下游任务仍然需要这些学习过的编码器来表示上下文中的单词。 此外,还提出了各种预训练任务来学习PTM,以达到不同的目的。

本篇综述的贡献如下:

1.全面概述。我们为自然语言PTM提供了一个全面概述,包括背景知识、模型架构、预训练任务、各种扩展、适应方法和应用。

2.新分类。我们提出了用于NLP的PTM分类法,该分类法从四个不同的角度对现有PTM进行了分类:1)表示类型;2)模型架构; 3)预训练任务的类型; 4)特定类型场景的扩展。

3.丰富的资源。我们在PTM上收集了丰富的资源,包括PTM的开源实现,可视化工具,语料库和论文清单。

4.未来方向。我们讨论并分析现有PTM的局限性。 另外,我们建议可能的未来研究方向。

其余的章节安排如下。 第2节概述了PTM的背景概念和常用符号。 第3节简要概述了PTM,并阐明了PTM的分类。 第4节提供了PTM的扩展。 第5节讨论如何将PTM的知识转移到下游任务。 第6节提供了PTM的相关资源。 第7节介绍了各种NLP任务中的应用集合。 第8节讨论了当前的挑战并提出了未来的方向。 第9节总结了论文。

2 背景

2.1 语言表示学习

一个好的表示应该表达不是特定任务的通用先验,而是可能对于学习机解决AI任务很有用。在语言方面,良好的表示应能捕捉文本数据中隐含的语言规则和常识知识,例如词汇含义,句法结构,语义角色,甚至语用学。

分布式表示的核心思想是通过低维实值矢量来描述一段文本的含义。并且向量的每个维度都没有相应的意义,而整体则代表一个具体的概念。图1说明了NLP的通用神经体系结构。 词嵌入有两种:非上下文嵌入和上下文嵌入。它们之间的区别在于,单词的嵌入是否会根据其出现的上下文动态变化。

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值