ELMO,BERT和GPT的原理和应用总结(李宏毅视频课整理和总结)_bert 视频课

a

1

a_1

a1​和

a

2

a_2

a2​这些权值也是根据具体的任务学习出来的。
在这里插入图片描述

3 Bidirectional Encoder Representations from Transformers (BERT)

3.1 Base Idea

BERT是transformer的encoder,网络架构是一致的。训练transformer需要输出,但是训练BERT只需要收集句子的数据集,不需要annotation(释文),就可以把这个encoder训练出来。BERT实际做的就是给一个句子,然后每一个词汇给一个embedding。

虽然下图使用的中文的词为单位,但是实际上中文用字要更合适。如果输入要表示为独热码,用词为单位这个独热码的维度几乎是无穷尽的,因为词的组合太多了,而如果用字来表示则会好很多。
在这里插入图片描述

3.2 Training of BERT

BERT是怎么训练呢?

  1. Masked LM: 第一个训练的方法 随机把一定比

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值