BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
1 BERT模型
BERT的全称为Bidirectional Encoder Representations from Transformers,即双向Transformer的Encoder。模型的创新点在于:
- 使用双向的Transformer搭建深度预训练模型
- 在预训练过程中使用Masked LM捕获词语级别的表示
- 在预训练过程中使用Next Sentence Prediction捕获句子级别的表示
BERT的模型如图所示:
从图中可以看出来BERT、OpenAI GPT和ELMo三者之间的区别:
- OpenAI GPT是单向的Transformer模型
- ELMo分别使用自左向右和自右向左的LSTM模型,分别以