BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 论文笔记
IntroductionBERT在11项NLP任务中取得如此令人振奋的成绩主要来源与以下的三个方面:(1)BERT使用“遮蔽”语言模型去 pre-trained 深度语言表示。(2)许多pre-trained 模型受限于特种结构、特种模型。BERT使用fine-tuning(微调)模型在众多句子级别或者是单词级别的任务中去得了最先进的效果。(3)BERT使用双向语言模型在11项NL...
原创
2018-11-10 18:28:05 ·
4527 阅读 ·
0 评论