【未填坑没看完】Bert论文综述笔记：A Primer in BERTology: What we know about how BERT works

论文名称：A Primer in BERTology: What we know about how BERT works
作者： Anna Rogers
发表时间：2020/2/7
论文链接：https://arxiv.org/pdf/2002.12327.pdf

摘要

基于变压器的模型现在已在NLP中广泛使用，但是我们仍然对其内部运作还不甚了解。本文描述了迄今为止著名的BERT模型（Devlin等人，2019）的已知情况，综合了40多项分析研究。我们还提供了对模型及其训练方案的拟议修改的概述。然后，我们概述了进一步研究的方向。

1.Introduction

自2017年推出以来，Transformer（Vaswani等人，2017）席卷了NLP，提供了增强的并行化和更好的远程依赖模型化。最著名的基于Transformer的模型是BERT（Devlin et al。，2019），它在众多基准测试中获得了最新的结果，并已集成Google search中，估计可以改善10％的查询

虽然很明显，基于BERT和其他基于Transformer的模型可以很好地工作，但是为什么不清楚，这限制了由假设驱动的体系结构的进一步改进。与CNN不同，“Transformer”的认知动机很小，而且这些模型的规模限制了我们进行预训练和执行消融研究的能力。这解释了过去一年的大量研究，试图理解BERT表现背后的原因。
本文概述了迄今为止所学的知识，重点介绍了仍未解决的问题。我们专注于研究BERT学习的知识的类型，学习方法以及改进它的方法。

2.Overview of BERT architecture

从根本上讲，BERT是一堆Transformer encoder层（Vaswani等人，2017），由多个“头部”组成，即完全连接的神经网络，增强了自我注意机制。对于序列中的每个输入token ，每个head都会计算key, value and query vectors，这些向量用于创建加权表示。同一层中所有head的输出被组合并经过一个完全连接的层。 BERT的每个工作流程都包含一个跳过连接，然后对其进行标准化。
BERT的常规工作流程包括两个阶段：预训练和微调。预训练使用两个半监督任务：掩蔽语言建模（MLM，对随机掩蔽的输入标记的预测）和下一句预测（NSP，预测两个输入句子是否彼此相邻）。在对下游应用进行微调时，通常在最终编码器层的顶部添加一个或多个全连接的层。
输入层的表达计算如下：
BERT首先将给定的单词标记成单词（Wu等，2016b），然后组合三个嵌入层（token, position, and seg-ment）以获得固定长度的向量。特殊的token [CLS]用于分类预测，[SEP]分离输入段。原始的BERT有两个版本：基础版本和大型版本，层数，隐藏大小和注意头数各不相同。
在这里插入图片描述

3.BERT embeddings

与传统的静态嵌入不同（Mikolov等人，2013a; Pennington等人，2014），BERT的表示是上下文化的，即每个输入token都由依赖于特定出现上下文的向量表示。在当前对BERT表示空间的研究中，术语“嵌入”是指给定（通常是最终的）Transformerlayer的输出向量。
Wiedemann等（2019）发现BERT的上下文嵌入形成了与词义相对应的清晰明了的簇，这证实了这些表示的基本分布假设成立。然而，Mickus等人（2019）指出，相同单词的representations 可能取决于NSP的目标，取决于其出现在句子中的位置。
Ethayarajh（2019）测量了相同单词的嵌入在每一层中的相似程度，发现后来的BERT层产生了更多特定于上下文的表示形式。他们还发现BERT embeddings在向量空间中占据了一个狭窄的圆锥体，并且这种影响从低层到高层逐渐增加。也就是说，如果嵌入方向一致（各向同性），则两个随机词的余弦相似度将比预期的高得多。

4. What knowledge does BERT have?

许多研究已经研究了BERT权重编码的知识类型。流行的方法包括对BERT的MLM进行间隙填充探查，自我注意权重分析以及使用不同的BERT表示作为输入的探测分类器。

4.1Syntactic knowledge句法知识

Lin等（2019）表明，BERT表示是分层的而不是线性的，即除了单词顺序信息外，还存在类似于语法树结构的东西。 Tenney等（2019b）和Liu等（2019a）还显示，BERT嵌入对有关词性，句法块和角色的信息进行编码。但是，BERT的语法知识是不完整的，因为探测分类器无法恢复句法树中遥远的父节点的标签（Liu等人，2019a）。

就如何重新表达语法信息而言，似乎语法结构并不是直接在自我注意权重中编码的，而是可以转化为反映它的。 Htut et al（2019）也无法从BERT头中提取完整的解析树，even with the gold annotations for the root。 Jawahar等（2019）包括从自注意权重中直接提取的依赖树的简要说明，但未提供定量评估。但是，休伊特（Hewitt）和曼宁（Manning）（2019）能够学习转换矩阵，该矩阵可以成功地恢复PennTreebankdata的大部分斯坦福依赖关系形式主义（见图2） Jawahar等（2019）尝试使用Tensor Product Decomposition Networks（McCoy et al，2019a）近似BERT表示，得出的结论是依赖树是5种分解方案中的最佳匹配项（尽管报告的MSE差异很小）。
在这里插入图片描述
关于BERT的MLM的句法能力，Goldberg（2019）表明BERT在执行完形填空任务时考虑了主语-谓语协议。即使在主语和动词之间有干扰词的句子和无意义的句子也是如此。 Warstadtet等人对负极性项目（NPI）的研究表明，BERT能够更好地检测到NPI（例如“ ever”）的存在和允许使用它们的词（例如“是否”），而不是违反范围。

上述句法知识的证据是基于这样的事实，即BERT不会“理解”否定并且对格式错误的输入不敏感。特别是，即使单词顺序混乱，句子被删节，主题和宾语移走，其预测也不会改变（ Ettinger，2019）。这与最近关于对抗性攻击的发现相符，模型受到了无意义的输入的干扰（Wallace et al。，2019a），并表明BERT对句法结构的编码并不表明它实际上依赖于该知识，

4.2Semantic knowledge语义知识

迄今为止，更多的研究致力于BERT的句法知识而不是语义现象。但是，我们确实从MLM探索性研究中获得证据，证明BERT具有一些语义知识（Ettinger，2019）。 BERT甚至能够将与正确的人语义相关的语义角色的不正确填充者偏爱不相关的角色（例如，“to tip a chef”should be better than “to tip a robin”, but worsethan “to tip a waiter” ）

Tenney等人（2019b）表明，BERT可以对有关实体类型，关系，语义角色和原型的信息进行编码，因为该信息可以通过探测分类器进行检测。

BERT难以解决数字的表示问题。加法和数字解码任务表明 BERT不能很好地表示浮点数，也无法从训练数据中泛化（Wallace等人，2019b）。另一个问题是BERT的单词标记化，因为相似值的数量可以划分为实质上不同的单词块。

4.3World knowledge生活常识

BERT的MLM组件很容易通过填入空格来适应归纳知识（例如“Cats like to chase [ _ _ _ ]”）。至少有一个证明Bert中常识的研究，但是大部分的证据都来自使用Bert提取常识的实践中。
在这里插入图片描述
Petroni等(2019)研究表明，对于某些翻译类型，vanilla BERT与基于知识库的方法相比具有竞争力(图3)。Davison等人(2019)认为，它更适用于不可见的数据。然而，为了检索BERT中的knowledge，我们需要好的模板句，并且有关于自动提取和扩充它们的工作。
但是，BERT无法基于其常识进行推理。 Forbes等人（2019）显示BERT可以“猜测”许多物体的承受能力和属性，但没有有关它们之间相互作用的信息（例如，t “knows” that people can walk into houses, and that houses are big, but it cannot infer that houses are bigger than people）。ZHOU(2020年）以及Richardson和Sabharwal（2019年）也表明，性能随着必要的推理步骤数而下降。在同一时间，Poerner等人（2019）显示BERT在事实类知识检索中的某些成功源于学习刻板印象，例如它也可以预测一个具有意大利语名字的人是意大利语，即使实际上是不正确的。

5. Localizing linguistic knowledge语言知识本地化

5.1Self-attention heads

Attention被广泛认为有助于理解Transformer模型，并且提出了一些研究建议对注意头类型进行分类：
• attending to the word itself, to previous/nextwords and to the end of the sentence (Ra-ganato and Tiedemann, 2018);
• attending to previous/next tokens,[CLS],[SEP], punctuation, and “attending broadly”over the sequence (Clark et al., 2019);
• the 5 attention types shown in Figure 4 (Ko-valeva et al., 2019).
在这里插入图片描述
据克拉克等（2019），“注意力权重具有明确的含义：当计算预测当前单词的下一个表示形式时，一个特殊单词将被加权多少”。但是，Kovaleva等人（2019）表明，大多数注意力集中的头部不会直接编码任何非平凡的语言信息，因为只有不到一半的头部具有``heterogeneous异构’'模式。该模型中的许多模型都对vertical 垂直模式进行了编码（attentionto[CLS],[SEP], and punctuation tokens），这与Clark等人的观察一致。这种明显的冗余必定与过度参数化问题有关（请参阅第7节）。
Attention to[CLS]很容易解释为对聚合语句级表示的关注，但是BERT也对[SEP]和标点符号给予很大关注。克拉克等人假设，句号和逗号几乎与[CLS]和[SEP]一样频繁，并且该模型学会了依赖它们。他们还建议，[SEP]的功能可能是“无操作”之一，如果它的模式不适用于当前情况，则该信号会忽略头部。[SEP]从第5层开始引起越来越多的关注，但其对预测的有很大的重要性。如果此假设正确，则应重新考虑排除[SEP]和[CLS]token的注意力探测研究（例如Lin等人（2019）和Htut等人（2019））。

一些BERT heads似乎专门研究某些类型的句法关系。Htut等人（2019）和Clark等人报告说，在某些句法位置中，有很多BERT 头比随机基准词更多地参与了测试。虽然这些研究中使用的数据集和方法不同，但他们俩都发现，有些关注的是角色内的文字，而不是位置基线。在这两项研究之间，nsubj，advmod和amod的证据有所不同。总体结论也得到了Voita等人的支持在机器翻译上下文中的基本Transformer数据支持。胡佛（2019）假设甚至复杂的依存关系比如的dobj都是由头的组合而不是单个头编码的，但是这项工作仅限于定性分析。

克拉克等人和Htut等人得出结论，没有一个单头拥有完整的语法树信息，这与部分语法知识提供的证据相符（见4.1小节）。

注意力的权重是主语-动词一致和反身性假语的较弱指标.BERT的自我注意权重不是在应该关联的标记之间充当强有力的指针，而是接近统一的注意基线，但是对心理语言学数据对不同类型的干扰物具有一定的敏感性。

Lin等的研究结果表明，注意权重是主语-动词一致和反身性假语的较弱指标。BERT的自我注意权重与其应作为相关标记之间的有力指示，但其接近于统一的注意基线，但对不同的注意点具有一定的敏感性带有心理语言学数据的干扰物类型。

Clark、 Kovaleva等人（2019）确定了可以直接用作分类器的BERT头，可以与基于规则的系统相提并论地进行核心干涉解析。

即使注意头专门跟踪语义关系，他们也不一定有助于BERT在相关任务上的表现。 Koval-eva等。（Baker et al。，1998）（2019）确定了BERT的两个heads，其中自我注意图与核心框架语义关系的注释紧密对齐。尽管这种关系本来应该有助于推理等任务，但是头部消融研究表明，这些头部对于BERT在GLUE任务上的成功并非至关重要。