预训练模型 ELMO BERT ERINE GPT

One-Hot

在这里插入图片描述
apple与cat点积为0
cat与dog点积为0
One-Hot方式没有学到词的内在表示

Word Embedding

在这里插入图片描述
在word embedding过程当中,这四个bank会被压缩成同一个向量,但是这四个向量的含义却不一样。

Contextualized Word Embedding

Eac
词嵌入过程当中,考录语境上下文。

Embedding from Language Model(ELMO)

在这里插入图片描述
通过RNN上下文,高烧退了和臣退了当中的“退了”这个词会被压缩成不同向量。

在这里插入图片描述
考虑到逆向,多层RNN拼接。
在这里插入图片描述
不同RNN层产生的向量如何组合,根据不同的任务自动学习组合参数。

Bidirectional Encoder Representations from Transformers(BERT)

在这里插入图片描述
BERT,使用字"潮",“水"比使用词"潮水”,应该效果更好。
在这里插入图片描述
BERT训练方法1,以15%的概率挖空一个词,通过Linear Multi-class Classifier预测改词。
在这里插入图片描述
BERT训练方法2,预测两个句子是不是上下文关系。
在这里插入图片描述
BERT使用案例:情感分析、文档分类
在这里插入图片描述
n到n任务,词性标注,命名实体识别。
在这里插入图片描述
输入两个句子,输出一个分类,自然语言推理。
在这里插入图片描述
在这里插入图片描述
问答,提取问题在文档中的答案。
在这里插入图片描述
跟EMLO一样,BERT分为24层,根据不同的任务,自动训练每一层的组合权重。

Enhanced Representation through Knowledge Integration(ERNIE)

在这里插入图片描述
针对于中文设计,在Bert Masked过程当中,随机盖住一些字,但是在中文环境中,应该为随机盖住一些词。

Generative Pre-Training(GPT)


参数特别巨大。
NERT为Transformer的Encoder,GPT为Transformer的Decoder。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
GPT2因为参数比较多,在使用过程中可以达到Zero-shot Learning。
参考:
https://www.bilibili.com/video/av56235038?from=search&seid=16286882987918084780

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值