最近面试,被问到一些模型的相关细节,所以又重新读了一些论文
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
- 论文地址:Bert论文
细节一:Bert的双向体现在什么地方?
Bert可以看作Transformer的encoder部分。Bert模型舍弃了GPT的attention mask。双向主要体现在Bert的预训练任务一:遮蔽语言模型(MLM)。如:
小 明 喜 欢 [MASK] 度 学 习 。
这句话输入到模型中,[MASK]通过attention均结合了左右上下文的信息,这体现了双向。
attention是双向的,但GPT通过attention mask达到单向,即:让[MASK]看不到 度 学 习这三个字,只看到上文 小 明 喜 欢 。
细节二:Bert的是怎样预训练的?
预训练任务一:遮蔽语言模型(MLM)
将一句被mask的句子输入Bert模型,对模型输出的矩阵中mask对应位置的向量做分类,标签就是被mask的字在字典中对应的下标。这么讲有点抽象,如图: