预训练语言模型综述

最新推荐文章于 2024-04-29 21:41:59 发布

一只NLP的萌新er

最新推荐文章于 2024-04-29 21:41:59 发布

阅读量4.9k

点赞数 3

本文链接：https://blog.csdn.net/qq_40377498/article/details/105656856

版权

《Pre-trained Models for Natural Language Processing: A Survey》总结

序章

随着深度学习的发展，各种神经网络被广泛应用于解决自然语言处理（NLP）任务，如卷积神经网络（CNNs），递归神经网络（RNNs），基于图的神经网络（GNNs）和注意机制。相比于非神经网络NLP方法严重依赖于离散的手工特征，神经网络方法通常使用低维密集向量（分布式表示）隐式表示语言的语法或语义特征。这些表示在特定的NLP任务中得到学习。因此，神经网络方法使人们更容易开发各种NLP系统。尽管神经网络模型在NLP任务中取得了成功，由于大多数监督NLP任务的数据集非常小，与计算机视觉（CV）领域相比，其性能改进可能不太显著。而且深度神经网络通常具有大量的参数，使得它们在这些小的训练数据上过于拟合，在实际应用中不能很好地推广。所以早期NLP任务的模型构造相对简单（浅层神经网络）。
近年来，大量的研究表明，在大型语料库上的预训练模型（PTMs）可以学习通用语言表示，这有利于后续的NLP任务，避免从头开始训练新模型。第一代PTMs旨在学习好的单词嵌入。由于下游任务不再需要这些模型，因此它们对于计算效率来说影响较少，例如Skip-Gram和GloVe。尽管这些预训练的嵌入可以捕获单词的语义，但它们是上下文无关的，不能捕获上下文中的高级概念，如多义消歧、句法结构、语义信息、语义信息、语义角色，回指等。第二代PTMs专注于学习上下文单词嵌入，如CoVe 、ELMo、OpenAI GPT和BERT。这些学习过的编码器仍然需要通过下游任务在上下文中表示单词。此外，还提出了不同的预训练任务，以学习不同目的的PTMs。
论文的结构：
1.全面审查:论文对NLP的PTMs进行了全面的回顾，包括背景知识、模型架构、训练前任务、各种扩展、自适应方法和应用。
2.新分类法:我们提出了一个用于NLP的PTMs分类法，它从四个不同的角度对现有PTMs进行分类：1.表示类型,2.模型架构,3.预训练任务类型,4.特定场景类型的扩展。
3.资源:我们收集了大量关于PTMs的资源，包括PTMs的开源实现、可视化工具、语料库和纸质清单。
4.未来的方向:我们讨论并分析了现有PTMs的局限性。此外，我们还提出了未来可能的研究方向。

1.背景知识

1.1.语言表示学习

对于自然语言，一个好的表达应该捕捉隐藏在文本数据中的隐含的语言规则和常识，如词汇意义、句法结构、语义角色，甚至语用学。
分布式表示的核心思想是用

最低0.47元/天解锁文章

一只NLP的萌新er

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
3
评论
预训练语言模型综述

《Pre-trained Models for Natural Language Processing: A Survey》总结序章随着深度学习的发展，各种神经网络被广泛应用于解决自然语言处理（NLP）任务，如卷积神经网络（CNNs），递归神经网络（RNNs），基于图的神经网络（GNNs）和注意机制。相比于非神经网络NLP方法通常严重依赖于离散的手工特征，神经网络方法通常使用低维密集向量（分布...
复制链接

扫一扫