BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT模型通过预训练深度双向Transformer表示,解决了以往单向语言模型的局限,实现遮蔽语言模型和下一句预测任务,提升了自然语言处理任务的性能,包括GLUE基准测试、SQuAD问答、命名实体识别等,取得了显著的实证改进。BERT的预训练和微调过程展示出双向表示的重要性,且模型尺寸越大,效果越好。
摘要由CSDN通过智能技术生成

论文地址

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding:https://arxiv.org/pdf/1810.04805.pdf

摘要

我们介绍了一种新的语言表示模型BERT,它表示转换器的双向编码器表示。与最近的语言表示模型不同(Peters et al., 2018; Radford et al., 2018),BERT通过在所有层的上下文联合调节来预训练深层双向表示。因此,只需一个额外的输出层就可以对预先训练好的BERT表示进行微调,以便为各种任务创建最先进的模型,例如问答和语言推断,而无需基本的任务特定架构修改。

BERT概念简单,经验丰富。它在11项自然语言处理任务中获得了最新的技术成果,包括将GLUE的基准值提高到80.4%(7.6%的绝对改进)、多项准确率提高到86.7%(5.6%的绝对改进)、将SQuAD v1.1的问答测试F1提高到93.2(1.5的绝对改进),比human的表现高出2.0。

1 简介

语言模型预训练已经证明对改进许多自然语言处理任务是有效的(Dai和Le,2015; Peters等,2017,2018; Radford等,2018; Howard和Ruder,2018)。这些任务包括句子级任务,如自然语言推理(Bowman et al,2015; Williams et al,2018)和释义(Dolan和Brockett,2005),旨在通过整体分析来预测句子之间的关系,以及令牌级任务,如命名实体识别(Tjong Kim Sang和De Meulder,2003)和SQuAD问题回答(Rajpurkar等,2016),其中模型需要在令牌级别生成细粒度输出。

将预训练语言表示应用于下游任务有两种现有策略:基于特征和微调。基于特征的方法,例如ELMo(Peters等,2018),使用特定于任务的体系结构,其包括预先训练的表示作为附加特征。微调方法,例如Generative Pre-trained Transformer(OpenAI GPT)(Radford等,2018),引入了最小的任务特定参数,并通过简单地微调预训练参数来训练下游任务。在以前的工作中,两种方法在预训练期间共享相同的目标函数,在这些方法中,他们使用单向语言模型来学习一般语言表示。

我们认为当前的技术严重限制了预训练表示的能力,特别是对于微调方法。主要限制是标准语言模型是单向的,这限制了在预训练期间可以使用的体系结构的选择。例如,在OpenAI GPT中,作者使用了从左到右的体系结构,其中每个令牌只能处理Transformer自我关注层中的前一个令牌(Vaswani et al, 2017)。这些限制对于句子级别任务来说是次优的,并且在将基于微调的方法应用于令牌级别任务(例如SQuAD问答)时可能是毁灭性的(Rajpurkar等,2016),在这些任务中,从两个方向合并上下文至关重要。

在本文中,我们通过提出BERT:变换器的双向编码器表示来改进基于微调的方法。 BERT通过提出一个新的预训练目标来解决前面提到的单向约束:“掩盖语言模型”(MLM),受到完形任务的启发(Taylor,1953)。被掩盖的语言模型从输入中随机地掩盖一些标记,并且目标是仅基于其上下文来预测被掩盖的单词的原始词汇id。与从左到右的语言模型预训练不同,MLM目标允许表示融合左右上下文,这允许我们预训练一个深度双向变换器。除了蒙面语言模型,我们还引入了一个“下一句预测”任务,联合预训练文本对表示。

本文的贡献如下:

  • 我们证明了双向预训练对语言表达的重要性。与Radford等人不同。 (2018),其使用单向语言模型进行预训练,BERT使用掩蔽语言模型来实现预训练的深度双向表示。这也与Peters等人(2018年)形成了鲜明对比,Peters等人使用的是一种由独立训练的从左到右和从右到左的LMs的浅层连接。
  • 我们展示了预先训练的表示消除了许多经过大量工程设计的特定于任务的体系结构的需求。BERT是第一个基于微调的表示模型,它在大量的句子级和令牌级任务上实现了最先进的性能,优于许多具有任务特定体系结构的系统。
  • BERT推进了11项NLP任务的最新技术。我们还报告了对BERT的广泛消融,证明了我们模型的双向性质是最重要的新贡献。代码和预先训练的模型将在goo.gl/language/bert上提供。

2 相关工作

预训练通用语言表示有很长的历史,我们将简要回顾本节中最常用的方法。

2.1 基于特征的方法

几十年来,学习广泛适用的词语表达一直是研究的一个活跃领域,包括非神经(Brown et al。,1992; Ando and Zhang,2005; Blitzer et al。,2006)和神经(Collobert and Weston,2008; Mikolov等,2013; Pennington等,2014)方法。预训练的单词嵌入被认为是现代NLP系统不可或缺的一部分,与从头学习的嵌入相比有显着改进(Turian et al。,2010)。这些方法已被推广到较粗糙的粒度,例如句子嵌入(Kiros等,2015; Logeswaran和Lee,2018)或段嵌入(Le和Mikolov,2014)。与传统的单词嵌入一样,这些学习的表示通常也用作下游模型中的特征。 ELMo(Peters等,2017)将传统的词嵌入研究概括为不同的维度。他们建议从语言模型中提取上下文敏感特征。当将上下文字嵌入与现有的任务特定体系结构集成时,ELMo推进了几个主要NLP基准测试的最新技术(Peters等,2018),包括SQUAD上的问答(Rajpurkar等,2016),情绪分析(Socher et al,2013),以及命名实体识别(Tjong Kim Sang和De Meulder,2003)。

2.2 微调方法

从语言模型(LMs)转移学习的最新趋势是在LM目标上预先培训一些模型架构,然后对监督下游任务的相同模型进行微调(Dai and Le, 2015; Howard and Ruder, 2018; Radford et al., 2018)。这些方法的优点是需要从头开始学习很少的参数。至少部分任务可以借助这一优势,比如OpenAI GPT(Radford等,2018)在GLUE基准测试中获得了许多句子级任务的最好结果(Wang et al,2018)。

2.3 从监督数据转移学习

虽然无监督预培训的优点是可以获得几乎无限的数据量,但也有工作表明从具有大型数据集的监督任务中有效转移,例如自然语言推断(Conneau等,2017)和机器翻译(McCann et al。,2017)。在NLP之外,计算机视觉研究也证明了从大型预训练模型转移学习的重要性,其中一个有效的方法是对ImageNet上的预训练模型进行微调(Deng et al.,2009;Yosinski等人,2014)。

3 BERT

我们在本节介绍BERT及其详细实现。我们首先介绍模型体系结构和BERT的输入表示。然后,我们将在3.3节中介绍预训练任务,即本文的核心创新。预培训程序和微调程序分别在第3.4节和第3.5节中详述。最后,第3.6节讨论了BERT和OpenAI GPT之间的差异。

3.1 模型体系结构

BERT的模型架构是一个多层双向Transformer编码器,基于Vaswani等人(2017)中描述的原始实现,并在tensor2tensor库中发布。因为Transformers的使用最近变得无处不在,,而且我们的实现与最初的实现实际上是相同的,我们将省略对模型架构的详尽的背景描述,并将读者推荐给Vaswan

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值