原文:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding - ACL Anthology
要点总结:
1.BERT通过提出新的预训练目标来解决前面提到的单向约束:“masked language model”(MLM)。The masked language model 从输入中随机地mask 掉一些 tokens ,目标是仅基于其上下文来预测被mask掉的单词的原始单词id 。与从左到右(left-to-right)的语言模型预训练不同,MLM目标 允许 representation 去融合左右上下文,这允许我们预训练深度双向Transformer 。
2. 除了masked language model,我们还引入了“下句预测(next sentence prediction)”任务&#