经典文献翻译：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

我们介绍了一种新的语言表示模型BERT，即transformer的双向编码表示。不同于之前的语言表示模型，BERT从未标记文本中通过联合调节所有层中的左右上下文来预训练深层双向表示。因此，只需要一个额外的输出层，就可以对预训练好的模型进行精调（fine-tuned），从而在其他任务上（如问答，语言推理）获得最佳模型，而不需要对特定任务的架构进行大量修改。

BERT在概念上更加简单，而且实验效果更好。在11项NLP任务上取得了最佳表现，包括GLUE分数达到80.5%（绝对精度提升了7.7%）；MultiNLI精确率达到86.7%（绝对精度提升了4.6%）；SQuAD v1.1问答F1值达到93.2%（绝对精度提高1.5）；同时SQuAD v2.0 F1值达到83.1（绝对精度提升了5.1）。

1 Introduction

语言模型预训练对提升很多NLP任务很有效，包括句子级任务：自然语言推理和释义，旨在通过对句子的分析预测句子之间的关系；以及token级任务：命名实体识别、问答，需要在token级上生成细粒度的输出。

有两种策略可以将预训练语言表示应用到下游任务中：基于特征和精调。基于特征的方法，如：ELMO，应用于特定任务框架，将预先训练的表示作为附加特征；精调方法，如：OpenAIGPT，引用最小任务特定参数，并通过简单微调所有参数，将其应用于下游任务。这两种方法运用了共同的目标函数，即使用单向的语言模型去学习一般的语言表示。

我们认为现有技术限制了预训练的能力，特别对于精调的方法。其主要限制是标准的语言模型是单向的，这一点限制了预训练期间可以使用的框架选择。如OpenAIGPT，在transformer的自注意力层上每个词只能读取之前的词（只能从左往右读）。这种限制在句子级别的任务上是次优的，并且将基于精调的方法应用于token级别的任务（QA）是可能非常不好，在问答中，从两个方向合并上下文是至关重要的。

文章用BERT（transformer的双向编码表示）提高了精调。用掩码语言模型（MLM）预训练目标缓解了单向的限制。掩码语言模型从输入中随机地遮掉一部分token，仅基于上下文的单词去预测遮盖单词的原始ID。不同于从左向右的语言模型预训练，MLM能够融合左右上下文，允许预训练一个一个深层双向的Transformer。除了使用掩码语言模型外，还使用了“下句预测”任务来联合预训练文本表示。我们的贡献如下：

我们证明了双向预训练对于语言表征的重要性。不像Radford等人（2018年）使用的单向语言模型进行预训练，BERT使用掩码语言模型实现预训练的深度双向表示。这也与Peters等人（2018a）形成对比，他们使用了一个由独立训练的左至右和右至左LMs的浅层串联。

我们表明，预训练表示减少了对许多精调任务特定体系结构的需求。BERT是第一个基于精调的表示模型，它在大量句子级和token级任务上实现了最先进的性能，优于许多特定于任务的体系结构。

开源了模型和代码。

2 Related Work

2.1 Unsupervised Feature-based Approaches

几十年来，学习广泛适用的单词表示一直是一个活跃的研究领域，包括非神经（Brown等人，1992年；Ando和Zhang，2005年；Blitzer等人，2006年）和神经（Mikolov等人，2013年；Pennington等人，2014年）方法。预训练词嵌入是现代NLP系统的一个组成部分，与从头开始学习的嵌入相比有显著的改进（Turian et al.，2010）。为了预训练词嵌入向量，使用了从左到右的语言建模目标（Mnih和Hinton，2009），以及在左右上下文中区分正确单词和错误单词的目标（Mikolov等人，2013）。

这些方法已被推广到更粗糙的粒度，如句嵌入（Kiros等人，2015；Logeswaran和Lee，2018）或段落嵌入（Le和Mikolov，2014）。为了训练句子表示，之前的工作使用了目标对候选下一句进行排序（Jernite等人，2017；Logeswaran和Lee，2018），根据前一句的表示从左到右生成下一句单词（Kiros等人，2015），或降噪自动编码器衍生目标的噪声（Hill等人，2016）。

ELMo及其前身（Peters et al.，2017，2018a）从不同的维度概括了传统的词嵌入研究。他们从从左到右和从右到左的语言模型中提取上下文相关的特征。每个标记的上下文表示是从左到右和从右到左表示的串联。当将上下文词嵌入与现有任务特定的体系结构相结合时，ELMo提升了几个主要NLP基准（Peters等人，2018a）的技术水平，包括问答（Rajpurkar等人，2016年）、情绪分析（Socher等人，2013年）和命名实体识别（Tjong Kim Sang和De Meulder，2003年）. Melamud等人（2016年）提出通过一项任务学习上下文表征，即使用LSTM从左右上下文预测单个单词。与ELMo类似，他们的模型是基于特征的，而不是深度双向的。Fedus等人（2018年）表明完形填空任务可用于提高文本生成模型的鲁棒性。