先修知识:
self-attention 到 Transformer:https://blog.csdn.net/weixin_41332009/article/details/114441708
1. BERT简介
Bidirection: BERT的整个模型结构是双向的。
Encoder: 是一种编码器,BERT只是用到了Transformer的Encoder部分。
Representation: 做词的表征。
Transformer: Transformer是BERT的核心内部元素。
BERT的基本思想和 word2vec 中的 CBOW 是一样的,都是给定context,来预测下一个词。BERT的结构是双向结构。
2. BERT的模型结构
BERT的模型结构是Seq2Seq,核心是Transformer encoder。
2.1 Bert模型的输入
BERT的输入包含三个部分:Token Embedding、Segment Embedding、Position Embedding。这三个部分在整个过程中是可以学习的。