自然语言处理(NLP)-预训练模型:别人已经训练好的模型,可直接拿来用【ELMO、BERT、ERNIE(中文版BERT)、GPT、XLNet...】

预训练模型(Pretrained model):一般情况下预训练模型都是大型模型,具备复杂的网络结构,众多的参数量,以及在足够大的数据集下进行训练而产生的模型.

在NLP领域,预训练模型往往是语言模型,因为语言模型的训练是无监督的,可以获得大规模语料,同时语言模型又是许多典型NLP任务的基础,如机器翻译,文本生成,阅读理解等,常见的预训练模型有BERT, GPT, roBERTa, transformer-XL等.

一、Embeddings from Language Model (ELMO)

在这里插入图片描述

  • 在RNN模型中,每一个Word Embedding的输出是要参考前面已经输入过的数据。所以叫做:Contextualized Word Embedding
  • 不止要考虑每个Word Embedding前文,同时还要考虑后文,所以再从句尾向句首训练。
  • 使用多层Hidder Layer后,每个词最终的 Word Embedding = 该词所有层的 Word Embedding 进行加权平均

在这里插入图片描述

二、BERT/ERNIE:Encoder of Transformer

在这里插入图片描述

  • BERT stands for “Bidirectional Encoder Representations from Transformers”,用于非中文语言;
  • ERNIE stands for “Enhanced Representation through Knowledge Integration ”,用于中文;
  • 中文使用“字”作为输入,英文使用单词作为输入。

三、 Generative Pre-Training (GPT):Decoder of Transformer

在这里插入图片描述




参考资料:
BERT模型详解
BERT代码阅读
XLNet原理
XLNet代码分析
XLNet代码分析(二)
XLNet代码分析(三)
XLNet代码分析(四)
一文读懂Embedding的概念,以及它和深度学习的关系
自然语言处理中的语言模型预训练方法(ELMo、GPT和BERT)
【Semantic Embedding】: CDSSM(CLSM)模型
【Semantic Embedding】: BERT模型3
semantic embedding学习的三种损失函数
Contextual Word Representations:A Contextual Introduction
中文任务全面超越BERT:百度正式发布NLP预训练模型ERNIE
ERNIE: Enhanced Representation through Knowledge Integration
BERT Rediscovers the Classical NLP Pipeline
What Do You Learn From Context? Probing For Sentence Structure In Contextualized Word Representations
Beto, Bentz, Becas: The Surprising Cross-Lingual Effectiveness of BERT
Language Models are Unsupervised Multitask Learners
Talk to Transformer
XLNET
roBERT

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值