BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
1 BERT模型
BERT的全称为Bidirectional Encoder Representations from Transformers,即双向Transformer的Encoder。模型的创新点在于:
- 使用双向的Transformer搭建深度预训练模型
- 在预训练过程中使用Masked LM捕获词语级别的表示
- 在预训练过程中使用Next Sentence Prediction捕获句子级别的表示
BERT的模型如图所示:
从图中可以看出来BERT、OpenAI GPT和ELMo三者之间的区别:
- OpenAI GPT是单向的Transformer模型
- ELMo分别使用自左向右和自右向左的LSTM模型,分别以

本文详细介绍了BERT模型的架构,包括双向Transformer、Masked LM和Next Sentence Prediction任务。BERT通过预训练和Fine-tuning,应用于多种NLP任务,实现了State-of-the-Art的表现。
最低0.47元/天 解锁文章
4688

被折叠的 条评论
为什么被折叠?



