ELMO,BERT,GPT的原理和用法

李宏毅-ELMO, BERT, GPT讲解: 李宏毅-ELMO, BERT, GPT讲解

在ELMO之前word2vec是静态的embdding,静态embedding的特点是同一个词,在不通语境下是同一个embedding。然而这不符合语言学的特点,例如:“太阳就是日”和“我日你大爷”。很明显两个“日”表达的意思并不相同,但是如果使用word2vec做静态embedding,那么神经网络看到的“日”是同样的语意。于是就延伸出带有上下文的embedding(Contextualized word embedding)。这种embeding可以保证同一个字在不同的语境下有不同的embeding。而本文介绍的三个网络都是Contextualized word embedding

ELMO

ELMO的结构

在这里插入图片描述
简单来说就就是一个自回归的双向RNN,其中隐含层的输入被当做词的embedding

ELMO的使用

ELMO在使用时一般可以取出多个隐含层的输出加权做为该词的embedding
在这里插入图片描述
具体权重可以由下游任务去学习得到

BERT

bert实际上使用了Transformer的encoder作为编码器,使用大量文本进行预训练

BERT的训练

在训练时主要解两个任务:
在这里插入图片描述
在这里插入图片描述
bert是一种自编码模型

BERT的使用

简单的分成4中情况:

任务实例下游任务用法
句子分类句子情感分析下游任务直接使用cls标记的embedding
序列标注词性标注,NER下游任务使用每个词输出的embedding
两句话分析关系句子相似度下游任务直接使用cls标记的embedding
SQuAD阅读理解见下图

在这里插入图片描述
黄,蓝向量分别代指起始和结束位置。

GPT

GPT实际上使用了Transformer的decoder作为编码器,使用大量文本进行预训练

GPT的训练

自回归的language model

GPT的使用

不开源

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值