从Transformer 到 BERT

1. Review ELMo and Transformer
2. Bert
2.1 Bert Structure
2.2 Training Tips
2.3 Applications
3. Anti-Bert
4. Recap

最近在家听贪心学院的NLP直播课。放到博客上作为NLP 课程的简单的梳理。
简介:在18年年底的时候,有一件事情轰动了整个NLP界,它就是大家所熟悉的BERT模型,它刷新了整个文本领域的排行榜,受到了全球的瞩目。之后,很多公司慢慢开始采用BERT作为各种应用场景的预训练模型来提高准确率。在本次讲座里,我们重点来讲解BERT模型以及它的内部机制。(其实核心是Transformer)
1. Review ELMo and Transformer
首先,我们看一下一词多意的问题


Elmo 提供了一个很好的方法 去 解释这种一词多意的问题。
之前的Word2Vec 等都是静态的词向量,而不会根据上下文来更新词向量。
Elmo 的词向量含有上下文的信息,所以同一个词在不同的上下文中 Elmo学习后得到的词向量也是不一样的。

Elmo 采用的是 character CNN 去建立整个单词的表达。
如果这边把LSTM 换成 Transformer 那么跟Bert比较相似了。


Transformer Vs LSTM:

LSTM 是RNN based model, 是一个个迭代的,只有前一个训练完了 才能训练下一个词。
Transformer 可以并行计算,结合positional encoding ,和self attention 机制。


Transformer 最重要的 多头注意力机制。 根据word embedding 获取 Key Qu

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值