1. Review ELMo and Transformer
2. Bert
2.1 Bert Structure
2.2 Training Tips
2.3 Applications
3. Anti-Bert
4. Recap
最近在家听贪心学院的NLP直播课。放到博客上作为NLP 课程的简单的梳理。
简介:在18年年底的时候,有一件事情轰动了整个NLP界,它就是大家所熟悉的BERT模型,它刷新了整个文本领域的排行榜,受到了全球的瞩目。之后,很多公司慢慢开始采用BERT作为各种应用场景的预训练模型来提高准确率。在本次讲座里,我们重点来讲解BERT模型以及它的内部机制。(其实核心是Transformer)
1. Review ELMo and Transformer
首先,我们看一下一词多意的问题
Elmo 提供了一个很好的方法 去 解释这种一词多意的问题。
之前的Word2Vec 等都是静态的词向量,而不会根据上下文来更新词向量。
Elmo 的词向量含有上下文的信息,所以同一个词在不同的上下文中 Elmo学习后得到的词向量也是不一样的。
Elmo 采用的是 character CNN 去建立整个单词的表达。
如果这边把LSTM 换成 Transformer 那么跟Bert比较相似了。
Transformer Vs LSTM:
LSTM 是RNN based model, 是一个个迭代的,只有前一个训练完了 才能训练下一个词。
Transformer 可以并行计算,结合positional encoding ,和self attention 机制。
Transformer 最重要的 多头注意力机制。 根据word embedding 获取 Key Qu