论文阅读|Pre-trained Models for Natural language Processing: A Survey

最新推荐文章于 2024-06-15 19:38:47 发布

Kolunm

最新推荐文章于 2024-06-15 19:38:47 发布

阅读量2.2k

点赞数 1

文章标签：深度学习自然语言处理神经网络

本文链接：https://blog.csdn.net/Kolunm/article/details/105240699

版权

本文是一篇对预训练语言模型（PTM）在自然语言处理领域的综述，探讨了PTM的背景、模型架构、预训练任务及应用场景。PTM通过在大规模语料库上学习通用语言表示，改善了NLP任务的性能，包括词嵌入、上下文编码器等。预训练任务包括语言模型（LM）、掩蔽语言模型（MLM）、置换语言模型（PLM）等，这些任务有助于学习语言的通用表示，并避免过拟合。文章还提出了PTM的新分类法，总结了未来研究方向，旨在为NLP任务中PTM的理解、使用和开发提供指导。

摘要由CSDN通过智能技术生成

【导言】这篇综述是复旦大学的邱锡鹏教授对近两年的预训练语言模型（PTM）做的综述，全文有25页，文章很全面，边读边译。文章太长了，一次性读太多有点消化不了，慢慢更新吧。

原文链接：Pre-trained Models for Natural language Processing: A Survey

Pre-trained Models for Natural language Processing: A Survey

摘要：最近，预训练模型（PTM）的出现将自然语言处理（NLP）带入了一个新的领域。在这篇综述中，我们为自然语言预训练模型提供了一个全面概述。我们首先简短介绍一下语言表示学习与其研究历程。然后我们基于四种观点对现有的PTM进行了系统的分类。接下来，我们描述了如何将PTM应用到下游任务。最后，我们概述了PTM的未来的一些潜在发展方向。这篇综述旨在为理解、使用和开发各种适用于NLP任务的PTM提供实践指南。

关键字：深度学习，神经网络，自然语言处理，预训练模型，分布式表示，词嵌入，自监督学习，语言建模

1 介绍

随着深度学习的发展，各种神经网络已广泛用于解决自然语言处理（NLP）任务，例如卷积神经网络（CNN），递归神经网络（RNN），图论神经网络（GNN）和注意力机制。这些神经模型的优点之一是它们减轻特征工程问题的能力。非神经NLP方法通常很大程度上依赖于离散的手工特征，而神经方法通常使用低维和密集向量（又称为分布式表示）来隐式表示语言的语法语义特征。这些表示是在特定的NLP任务中学习的。因此，神经方法使人们易于开发各种NLP系统。

尽管用于NLP任务的神经模型取得了成功，但与“计算机视觉”（CV）领域相比，性能改进的重要性可能较低。主要原因是大多有数与监督的NLP任务的当前数据集非常小（机器翻译除外）。深度神经网络通常具有大量参数，这会使它们过度拟合这些小的训练数据，并且不能很好地推广实践。因此，许多NLP任务的早期神经模型相对较浅，通常仅包含1-3个神经层。

最近，大量的工作表明，大型语料库上的预训练模型（PTM）可以学习通用语言表示，这对于下游NLP任务很有帮助，并且可以避免从头开始训练新模型。随着计算能力的发展，深层模型（即Transformer ）的出现以及训练手段的不断增强，PTM的体系结构已从浅层发展到深层。第一代PTM可以学习良好的词嵌入。由于下游任务不再需要这些模型本身，因此对于计算效率而言，它们通常很浅，例如Skip-Gram和GloVe。尽管这些预先训练的嵌入可以捕获单词的语义，但它们没有上下文，也无法捕获上下文中的高级概念，例如多义歧义消除，句法结构，语义角色，指代。第二代PTM专注于学习上下文词嵌入，例如CoVe，ELMo，OpenAI GPT和BERT。下游任务仍然需要这些学习过的编码器来表示上下文中的单词。此外，还提出了各种预训练任务来学习PTM，以达到不同的目的。

本篇综述的贡献如下：

1.全面概述。我们为自然语言PTM提供了一个全面概述，包括背景知识、模型架构、预训练任务、各种扩展、适应方法和应用。

2.新分类。我们提出了用于NLP的PTM分类法，该分类法从四个不同的角度对现有PTM进行了分类：1）表示类型；2）模型架构； 3）预训练任务的类型； 4）特定类型场景的扩展。

3.丰富的资源。我们在PTM上收集了丰富的资源，包括PTM的开源实现，可视化工具，语料库和论文清单。

4.未来方向。我们讨论并分析现有PTM的局限性。另外，我们建议可能的未来研究方向。

其余的章节安排如下。第2节概述了PTM的背景概念和常用符号。第3节简要概述了PTM，并阐明了PTM的分类。第4节提供了PTM的扩展。第5节讨论如何将PTM的知识转移到下游任务。第6节提供了PTM的相关资源。第7节介绍了各种NLP任务中的应用集合。第8节讨论了当前的挑战并提出了未来的方向。第9节总结了论文。

2 背景

2.1 语言表示学习

一个好的表示应该表达不是特定任务的通用先验，而是可能对于学习机解决AI任务很有用。在语言方面，良好的表示应能捕捉文本数据中隐含的语言规则和常识知识，例如词汇含义，句法结构，语义角色，甚至语用学。

分布式表示的核心思想是通过低维实值矢量来描述一段文本的含义。并且向量的每个维度都没有相应的意义，而整体则代表一个具体的概念。图1说明了NLP的通用神经体系结构。词嵌入有两种：非上下文嵌入和上下文嵌入。它们之间的区别在于，单词的嵌入是否会根据其出现的上下文动态变化。

最低0.47元/天解锁文章

Kolunm

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
论文阅读|Pre-trained Models for Natural language Processing: A Survey

这篇综述是复旦大学的邱锡鹏教授对近两年的预训练语言模型（PTM）做的综述，文章比较新，边读边译，写点自己的理解。原文链接：Pre-trained Models for Natural language Processing: A SurveyPre-trained Models for Natural language Processing: A Survey摘要：最近，预训练模型（P...
复制链接

扫一扫