原创:晋百川
BERT模型自18年10月推出,到目前为止已经有3年多时间了。BERT问世即引起轰动,之后,各种改进版本的预训练模型(Pre-Training Model, PTM)与应用层出不穷。BERT及它的继任者们,确实也不负众望,在多种NLP数据集竞赛榜单,连续多年被各种新出现的预训练模型霸榜,有些榜单,个别模型已经把指标刷到超过人类。今天就带大家聊一下BERT并进行案例实战。
一、BERT介绍
BERT的架构图如图1所示,从架构图我们可以看到BERT分三个模块,分别是Embedding模块、Transformer模块和输出的预微调模块。
(1)Embedding模块:BERT中的该模块是由三种Embedding共同组成而成,如下图所示。
- Token Embeddings 是词嵌入张量,第一个单词是CLS标志,可以用于之后的分类任务。
- Segment Embeddings 是句子分段嵌入张量,是为了服务后续的两个句子为输入的预训练任务。
- Positio