自然语言处理(NLP)-预训练模型：别人已经训练好的模型，可直接拿来用【ELMO、BERT、ERNIE（中文版BERT）、GPT、XLNet...】

u013250861

已于 2023-10-27 23:33:05 修改

阅读量2.3k

点赞数

分类专栏： NLP/自然语言处理文章标签：人工智能深度学习生成模型 BERT ELMO

于 2020-12-21 23:05:56 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013250861/article/details/111502200

版权

NLP/自然语言处理专栏收录该内容

32 篇文章 6 订阅

订阅专栏

预训练模型(Pretrained model)：一般情况下预训练模型都是大型模型，具备复杂的网络结构，众多的参数量，以及在足够大的数据集下进行训练而产生的模型.

在NLP领域，预训练模型往往是语言模型，因为语言模型的训练是无监督的，可以获得大规模语料，同时语言模型又是许多典型NLP任务的基础，如机器翻译，文本生成，阅读理解等，常见的预训练模型有BERT, GPT, roBERTa, transformer-XL等.

一、Embeddings from Language Model (ELMO)

在这里插入图片描述

在RNN模型中，每一个Word Embedding的输出是要参考前面已经输入过的数据。所以叫做：Contextualized Word Embedding
不止要考虑每个Word Embedding前文，同时还要考虑后文，所以再从句尾向句首训练。
使用多层Hidder Layer后，每个词最终的 Word Embedding = 该词所有层的 Word Embedding 进行加权平均

在这里插入图片描述

二、BERT/ERNIE：Encoder of Transformer

在这里插入图片描述

BERT stands for “Bidirectional Encoder Representations from Transformers”，用于非中文语言；
ERNIE stands for “Enhanced Representation through Knowledge Integration ”，用于中文；
中文使用“字”作为输入，英文使用单词作为输入。

三、 Generative Pre-Training (GPT)：Decoder of Transformer

在这里插入图片描述

参考资料：
BERT模型详解
 BERT代码阅读
 XLNet原理
 XLNet代码分析
 XLNet代码分析(二)
XLNet代码分析(三)
XLNet代码分析(四)
一文读懂Embedding的概念，以及它和深度学习的关系
 自然语言处理中的语言模型预训练方法（ELMo、GPT和BERT）
【Semantic Embedding】: CDSSM(CLSM)模型
 【Semantic Embedding】: BERT模型3
semantic embedding学习的三种损失函数
 Contextual Word Representations:A Contextual Introduction
中文任务全面超越BERT：百度正式发布NLP预训练模型ERNIE
ERNIE: Enhanced Representation through Knowledge Integration
BERT Rediscovers the Classical NLP Pipeline
What Do You Learn From Context? Probing For Sentence Structure In Contextualized Word Representations
Beto, Bentz, Becas: The Surprising Cross-Lingual Effectiveness of BERT
Language Models are Unsupervised Multitask Learners
Talk to Transformer
XLNET
roBERT

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
自然语言处理(NLP)-预训练模型：别人已经训练好的模型，可直接拿来用【ELMO、BERT、ERNIE（中文版BERT）、GPT、XLNet...】

预训练模型(Pretrained model)：一般情况下预训练模型都是大型模型，具备复杂的网络结构，众多的参数量，以及在足够大的数据集下进行训练而产生的模型. 在NLP领域，预训练模型往往是语言模型，因为语言模型的训练是无监督的，可以获得大规模语料，同时语言模型又是许多典型NLP任务的基础，如机器翻译，文本生成，阅读理解等，常见的预训练模型有BERT, GPT, roBERTa, transformer-XL等.
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。