Introduction
BERT在11项NLP任务中取得如此令人振奋的成绩主要来源与以下的三个方面:
(1)BERT使用“遮蔽”语言模型去 pre-trained 深度语言表示。
(2)许多pre-trained 模型受限于特种结构、特种模型。BERT使用fine-tuning(微调)模型在众多句子级别或者是单词级别的任务中去得了最先进的效果。
(3)BERT使用双向语言模型在11项NLP任务中都去得了最先进的效果。
Related Work
众多的实验证明了基于预训练的语言模型效果是真实有效的。预训练的语言模型主要有两种:
(1)基于特征方法的
对于众多的词嵌入技术,他们使用的都是基于特征方法的。其中包括我们熟知的 Word2Vec(https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf),Glove(https://www.aclweb.org/anthology/D14-1162),和基于上下文特征的ELMO语言模型(http://aclweb.org/anthology/N18-1202)。
(2)基于微调方法的
近年来对于基于迁移学习的语言模型吸引了越来越多的目光。它们最大的好处就是在下游任务中只需要重新学习少量的特殊化参数,使得pre-trained的优势能够以非常低的成本应用到更多的任务中去。其中Open AI GPT(https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf)表现的十分出色。