本文的目的是向NLP爱好者们详细解析一个著名的语言模型-BERT。 全文将分4个部分由浅入深的依次讲解。
1.Bert简介
BERT是2018年10月由Google AI研究院提出的一种预训练模型。
BERT的全称是Bidirectional Encoder Representation from Transformers。BERT在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩: 全部两个衡量指标上全面超越人类,并且在11种不同NLP测试中创出SOTA表现,包括将GLUE基准推高至80.4% (绝对改进7.6%),MultiNLI准确度达到86.7% (绝对改进5.6%),成为NLP发展史上的里程碑式的模型成就。
2.关于Bert的模型架构
总体架构:如下图所示, 最左边的就是BERT的架构图,可以很清楚的看到BERT采用了Transformer Encoder block进行连接, 因为是一个典型的双向编码模型。
3.1 关于Bert训练过程中的关键点
1)四大关键词: Pre-trained, Deep, Bidirectional Transformer, Language Understanding
a. Pre-trained: 首先明确这是个预训练的语言模型,未来所有的开发者可以直接继承!
整个Bert模型最大的两个亮点