BERT详细解析！！草履虫也能看懂！！！求点赞！！！！-CSDN博客

本文链接：https://blog.csdn.net/m0_68618127/article/details/147403568

浅看了一下BERT的代码，相当于没看。

BERT

论文地址：https://arxiv.org/pdf/1810.04805

BERT只使用到了encoder架构(同时查看句子中的所有单词），base_bert使用了12个encoder堆叠。创新在输入和loss阶段。

整体而言，BERT使用了两种训练策略：

掩码预测模型（MLM）
预测下一句（NSP）

input = token emb + segment emb +position emb

对于这个token emb，使用的是WordPiece分词方法。

对于这个segment emb，主要是为了区分两个句子，句子A的向量值标为0，句子B的向量值标为1.

对于这个position emb，与Transformer不同的是这是一个可学习训练的参数，最大长度固定之后不能外推，只能处理那么长的句子。比如最大长度定为了512，编码维度为768，那么初始化为一个512*768的向量，最多能处理长度为512的句子。如果还想更长就只能将超出的向量随机初始化再进行微调。

MLM

主要可以理解句子内的上下文。

这部分主要是在预训练的过程中对每一个输入序列中的一部分单词mask一下，然后训练模型根据周围单词提供的上下文推测这个被mask的词是什么。

这就导致当BERT用于下游位置微调的时候是没有[mask]标志的，预训练和微调之间不匹配，所以当训练的时候只将80%*15%进行替换为[mask]，10%*15%的概率替换为其他单词，剩下10%的句子不做任何调整。但也只能缓解这个问题，而且只有15%被预测，导致模型收敛速度很慢。

NSP

主要可以理解句子对之间的联系或关系。

预测第二句是否与第一句相连。训练的数据是50%为顺序相连的正样本，50%的数据为随机选择的句子。

传入两个句子如上图。如上图，[cls]是每一个输入的标志，[sep]是两个句子之间的分隔。

分词

（因为BERT使用了WordPiece所以补充一章分词的内容。）

分词主要是为了将输入的文本拆分成一个个词元方便输入学习的任务。分词主要是基于三种维度进行的：词粒度（之前的第一版transformer，将词按照空格来区分，中文的话使用jieba分词工具来区分）、字符粒度（英文按照26个字母，中文按照5000多个常用字，另外再补充一些常用的字符）、子词粒度（subword介于上述两者之间）