论文阅读:Unified Named Entity Recognition as Word-Word Relation Classification

标题

Unified Named Entity Recognition as Word-Word Relation Classification

统一命名实体识别映射为词与词的关系分类

作者

Jingye Li,1,∗ Hao Fei,1,* Jiang Liu,1 Shengqiong Wu,1, Meishan Zhang,2 Chong Teng,1 Donghong Ji,1 Fei Li1.

1 武汉大学网络科学与工程学院教育部航空航天信息安全与可信计算重点实验室

2 哈尔滨工业大学(深圳)计算与智能研究所

Abstract

到目前为止,命名实体识别(NER)涉及三种主要类型,包括平面的(flat)、重叠的(overlapped)(也即嵌套)和不连续的(discontinuous)NER,它们大多是单独研究的。最近,人们对统一NER越来越感兴趣,即用一个模型同时处理上述三种工作。目前表现最好的方法主要包括基于跨度的(span-based)模型和序列到序列的(sequence to sequence)模型,然而不幸的是,前者只关注边界识别,后者可能存在暴露偏差。在本文的工作中,我们提出了一种新的替代方案,将统一NER建模为词-词关系分类,即W2NER。该架构使用相邻词(Next-Neighboring-Word,NNW)和词尾-词头-* (Tail-Head-Word-*,THW-*)关系,对实体词之间的相邻关系进行有效建模,解决了统一NER的核心瓶颈问题。基于W2NER方案,我们开发了一个神经网络框架,在该网络中统一NER被建模为词对的二维网格。然后,我们提出了多粒度2D卷积,以更好地细化网格表示。最后,使用协预测器来充分推理词与词的关系。我们在14个广泛用于flat、overlapped和discontinuous的基准数据集(8个英文数据集和6个中文数据集)上进行了大量的实验,我们的模型超过了目前所有表现最好的baseline,推动了统一NER的最先进性能。

1 Introduction 引言

命名实体识别(NER)长期以来一直是自然语言处理(NLP)领域的一项基本任务,因为它具有各种各样的基于知识的应用,例如关系提取(Wei et al 2020;Li et al 2021b)、实体链接(Le and Titov 2018;Hou et al2020)等。对NER的研究始于从flat NER(Lample et al . 2016;Strubell et al . 2017),后来演变为overlapped NER (Yu et al . 2020;Shen et al . 2021),再到最近的不连续NER (Dai et al . 2020;Li et al . 2021a)。

具体来说,flat NER只是从文本中检测涉及范围及其语义类别,而在overlapped NER和不连续NER中问题要复杂的多:overlapped实体包含相同的标记,而不连续实体包含不相邻的跨度,如图1所示。

图1:(a)用于说明三种类型NER的示例,e1是一个flat实体,e2是一个不连续实体,它们在“aching in”跨度内重合。(b)我们将三个NER子任务形式化为词-词关系分类,其中邻接词(NNW)关系表示某个连续的词对是一个实体的一部分(例如,aching→in),词尾-词头-* (THW-*)关系表示词尾到词头的连接是一个“*”类型实体的边缘。

以前的多类型NER方法大致可以分为四大类:1)序列标记,2)基于超图的方法,3)序列到序列的方法和4)基于跨度的方法。 大多数初步工作将NER形式化为序列标记问题(Lample等人2016;Zheng等人2019;Tang等人2018;Strakova´等人2019),为每一个标记分配一个标签。然而,很难为所有NER子任务设计一个统一的标记方案。然后,基于超图的模型被提出(Lu和Roth 2015;Wang和Lu 2018;Katiyar和Cardie 2018),用来表示所有实体跨度,然而,它在推理过程中同时存在虚假结构和结构模糊问题。最近,Yan等人(2021)提出了一种序列到序列(Seq2Seq)模型来直接生成各种实体,不幸的是,该模型可能存在解码效率问题和某些Seq2Seq架构的常见缺陷,例如暴露偏差。基于跨度的方法(Luan等人2019;Li等人2021a)是统一NER的另一种最先进的方法,该方法列举所有可能的跨度并进行跨度级分类。然而,基于跨度的模型可能受到最大跨度长度的影响,并且由于其枚举性而导致模型相当复杂。因此,设计一个有效的统一NER系统仍然具有挑战性。

现有的大多数工作主要关注如何准确识别实体边界,也即NER的核心问题,尤其是对flat NER来说(Strakova et al´2019;Fei等人2021)。然而,在仔细反思这三种NER的共同特征后,我们发现统一NER的瓶颈更多地在于实体词之间相邻关系的建模。这种邻接相关性本质上描述了部分文本片段之间的语义连接,这对overlapped NER和不连续的NER起着尤其关键的作用。如图1(a)所示,由于其组成词都是自然相邻的,因此很容易检测到“aching in legs”这一扁平提及。但是,要找出“aching in shoulders”这一不连续实体,就必须有效地捕捉“aching in”和“shoulders”相邻片段之间的语义关系。

在上述观察的基础上,我们在本文中研究了一种统一NER的替代形式,即具有新颖的词-词关系分类架构的W2NER。我们的方法对实体边界识别和实体词之间的相邻关系进行了有效建模,从而解决了统一NER问题。具体而言,W2NER对两种类型的关系进行预测,包括邻接词(NNW)和词尾-词头-*(THW-*),如图1(b)所示。NNW关系用来进行实体词识别,指示两个自变量单词在同一实体中是否相邻(例如,aching→in),而THW-*关系处理实体边界和类型检测,揭示两个自变量单词是否分别是“*”实体的尾部和头部边界(例如,legs→aching,Symptom)。

在W2NER方案的基础上,我们进一步提出了统一NER的神经网络框架(见图3)。首先,BERT(Devlin等人2019)和BiLSTM(Lample等人2016)用于提供化单词的上下文表示,在此基础上,我们构建了单词对的二维(2D)网格。然后,我们设计了多粒度的2D卷积来细化词对表示,有效地捕捉了近词对和远词对之间的相互作用。最终由co-predictor对单词-单词关系进行推理,并产生所有可能的实体提及。该协预测器联合使用双仿射分类器和多层感知机分类器以获得互补优势。

我们在14个数据集上进行了广泛的实验,包括2个英文和4个中文的flat NER数据集,3个英文和2个中文的overlapped NER数据集,以及3个英文的不连续NER数据集。与flat NER的12个baselines、overlapped NER的7个baselines和不连续NER的7个baselines相比,我们的模型在所有数据集上都取得了最好的性能,成为统一NER最新的SoTA方法。我们的贡献如下:

  • 我们提出了一种创新方法,将统一NER映射为词-词关系分类,充分考虑了实体的边界词和内部词之间的关系。

  • 我们为统一的NER开发了一个神经网络框架,在该框架中,我们新提出了一种多粒度的2D卷积方法,用于充分捕捉远近词之间的相互作用。

  • 我们的模型在全部的14个数据集上提高了NER的当前SoTA性能。

2 NER as Word-Word Relation Classification 命名实体识别映射为词与词的关系分类

三种NER可以按以下方法形式化:给定一个输入句子,包括N个标记或单词X={x1;x2;...;xN},该任务旨在提取每个词对(xi;xj)之间的关系R,这里的R是预定义的,包括NONE、Next-Neighboring-Word(NNW)和Tail-Head-Word-*(THW-*)。以下是对这几种关系的解释,为了更好地理解,我们还举了一个如图2所示的例子。

  • NONE,表示该词对没有本文定义的任何关系。
  • 下一个相邻单词:NNW关系表示单词对属于一个实体,并且网格的某行中的单词在网格的某列中有一个连续的单词。
  • 词尾-词头-*:THW关系表示网格中某行的词是实体的词尾,某列的词是实体的词头。“*”表示实体类型。

通过这样的设计,我们的框架能够同时识别falt、overlapped和不连续的实体。如图2所示,利用NNW关系,很容易就能解码出“aching in legs” 和 “aching in shoulders”两个实体;利用THW也能解出 (legs→aching, Symptom) 和(shoulders→aching, Symptom)两个实体.此外,NNW和THW关系对NER也有其他影响。例如,NNW关系将同一不连续实体的片段相关联(例如,“aching in”和“shoulders”),它们也有利于识别实体词(相邻)和非实体词(非相邻)。THW关系有助于识别实体的边界,这在最近的NER研究中发挥了重要作用(Zheng et al 2019;Fei等人2021;Shen等人2021)。

图2:我们的NER关系分类方法的一个示例。我们用网格来可视化每个单词对之间的关系。NNW表示下一个相邻词的关系,THWS表示存在于“症状”实体中的尾-头词关系。为了避免关系实例的稀疏性,在上三角区域和下三角区域标记NNW和THW关系。

3 Unified NER Framework 统一命名实体识别的框架

图3:总体NER架构。CLN和MLP分别表示条件层规范化和多层感知器。+和×分别表示元素加法和连接操作。

我们的框架的结构如图3所示,主要由三部分组成。首先,广泛使用的预训练语言模型BERT(Devlin et al. 2019)和双向LSTM(Lample等人2016)被用作编码器以从输入句子中产生基于上下文的单词表示。然后使用卷积层来构建和细化词对的网格表示,用于以后的词-词关系分类。之后,利用包含双仿射分类器和多层感知器的协预测层(Li et al 2021b)来联合推理所有词对之间的关系。

Encoder Layer 编码层

我们利用BERT(Devlin等人2019)作为我们模型的输入,因为它已被证明是NER(Wang等人2021)和关系分类(Li等人2021b)中表示学习的最先进模型之一。给定一个输入句子X={x1;x2;...;xN},我们将每个标记或单词xi转换为词片段,然后将它们送到预训练的BERT模块中。在BERT计算之后,每个单词可能涉及几个片段的矢量表示。在这里,我们使用Max Pooling,基于词片段表示来产生单词表示。为了进一步增强上下文建模,我们遵循先前的工作(Wadden等人2019;Li等人2021a),采用双向LSTM(Lample等人2016)生成最终的单词表示,即H={h1, h2, ..., hn}∈R^(N×dn)其中dh表示单词表示的维数。

Convolution Layer 卷积层

我们采用卷积神经网络(CNNs)作为单词表示的细化器,因为CNNs天生适合于网格上的二维卷积,并且在处理关系决定工作上也表现出非常突出的作用(Zeng 等2014年;Wang等2016)。我们的卷积层包括三个模块,包括一个带有规范化的条件层(Liu et al 2021),用于生成词对网格的表示;一个BERT型的网格表示构建,以丰富词对网格的表示;以及一个多粒度膨胀卷积,用于捕获近词和远词之间的相互作用。

Conditional Layer Normalization 条件层规范化

由于我们的框架的目标是预测词对之间的关系,因此重要的是生成一个高质量的词对网格表示,可以将其视为一个三维矩阵,这里的Vij表示词对(xi;xj)的表示。因为NNW和THW关系都是有方向性的,即从某一行的单词xi到某一列的单词xj,如图2所示(如:aching→in and legs→aching),词对(xi;xj)的表示Vij,可以被看作是xi的表示hi和xj的表示hj的组合,该组合应该表示xj以xi为条件。受Liu 等人.(2021)的启发,我们采用条件层规范化(Conditional Layer Normalization, CLN)机制来计算Vij:

其中,hi是生成层归一化的增益参数和偏置的条件。µ和σ为hj各元素的平均值和标准差,记为:

式中的hjk表示hj的第k个维度。 

BERT-Style Grid Representation Build-Up:BERT型的表示网格构建

众所周知,BERT (Devlin et al . 2019)的输入由三部分组成,即标记嵌入、位置嵌入和片段嵌入,分别对词、位置和句子信息建模。受BERT的启发,我们使用类似的思想丰富了词对网格的表示,其中张量表示单词信息,张量表示每对单词之间的相对位置信息,张量表示用于区分网格中上下三角形区域的区域信息。然后,我们将三种嵌入连接起来,并采用多层感知器(MLP)来降低它们的维度,并混合这些信息,以获得网格的位置区域感知表示。整个过程可表述为:

Multi-Granularity Dilated Convolution:多粒度膨胀卷积

受TextCNN (Kim 2014)的启发,我们采用了具有不同膨胀率 l (例如,l ∈ [1;2;3])的多个二维膨胀卷积(DConv)来捕捉不同距离的单词之间的相互作用,因为我们模型的目的是预测这些单词之间的关系。一个膨胀卷积中的计算可以表述为:

 其中表示膨胀率为 l 的膨胀卷积输出,σ为GELU激活函数(Hendrycks and Gimpel 2016)。之后我们可以得到最终的词对网格表示:

Co-Predictor Layer:协预测器层

在卷积层之后,我们得到词对的网格表示Q,将其用于MLP来预测每对词之间的关系。然而,之前的工作(Li et al . 2021b)表明,可以让MLP预测器与双仿射预测器协同工作,以增强关系分类。因此,我们同时采用这两个预测器,分别计算词对关系分布(xi;xj),并将它们组合为最终的预测。

Biaffine Predictor:双仿射预测器

双仿射预测器的输入为编码器的输出,这可以被看作当前深度学习研究中广泛使用的残差连接。给定单词表示H,我们使用两个MLP分别计算主体(xi)和客体(xj)的单词表示si和oj。然后,使用双仿射分类器来计算一对主客体(xi, xj)之间的关系得分:

其中U、W、b为可训练参数,si、oj分别表示第i个、第j个单词的主体和客体表示。这里的是R中预定义关系的得分。

MLP Predictor:MLP预测器

基于词对的网格表示Q,我们利用Qij,使用MLP计算词对(xi, xj)的关系得分:

其中是R中预定义的关系的分数。单词对(xi;xj)的最终关系概率yij是通过结合双仿射预测器和MLP预测器的得分来计算的:

Decoding:解码

我们的模型预测的是单词和它们之间的关系,这可以被认为是一个有向词图。解码的目标是使用NNW关系在图中找到从一个单词到另一个单词的特定路径。每个路径对应一个实体提及。除了NER的类型和边界识别外,THW关系还可以作为消歧的辅助信息。图4演示了从容易到困难的四种解码情况。

  • 在例(a)中,两条路径“A→B”和“D→E”对应平面实体,THW关系表示平面实体的边界和类型。

  • 在例(b)中,如果没有THW关系,我们只能找到一条路径,因此“BC”缺失。相比之下,借助THW关系,很容易识别出“BC”嵌套在“ABC”中,这说明了THW关系的必要性。

  • 案例(c)展示了如何识别不连续实体。可以找到两条路径:“A→B→C”和“A→B→D”,NNW关系有助于连接不连续的跨度“AB”和“D”。

  • 考虑到一个复杂而罕见的情况(d),要解码出正确的实体“ACD”和“BCE”是不可能的,因为我们只使用NNW关系可以在这个模糊的情况下找到4条路径。相比之下,只使用THW关系可以识别连续实体(例如“ABCD”),而不能正确识别不连续实体(例如“ACD”)。因此,我们可以协同使用这两种关系来获得正确的答案。

图4:单词序列“ABCDE”的四种解码情况。(a)“AB”和“DE”为平面实体。(b)平面实体“BC”嵌套在“ABC”中。(c)实体“ABC”与不连续实体“ABD”重叠。(d)两个不连续的实体“ACD”和“BCE”重叠。蓝色和红色箭头表示NNW和THW关系。

Learning:学习

对于每个句子X={x1;x2;...;xN},我们的训练目标是最小化与gold label对应的负对数似然损失,可表示为:

 其中N是句子中的单词数,为二进制向量,表示单词对(xi,xj)的gold relation label,yij为预测概率向量。r表示预定义关系集R中的第r个关系。

4 Experimental Settings 实验环境

Datatsets 数据集

为了评估我们的框架在三种NER子任务上的性能,我们在14个数据集上进行了实验。

Flat NER Datasets:

CoNLL-2003(英文),OntoNotes 5.0(英文),OntoNotes 4.0(中文),MSRA(中文),Weibo(中文),Resume(中文)。

我们使用了与之前的工作相同的实验环境。

Overlapped NER Datasets:

ACE 2004(中英文),ACE 2005(中英文),GENIA(英文)。

对于GENIA,我们遵循Yan等人(2021)使用五种类型的实体,并将训练/开发/测试分为8.1:0.9:1.0。对于英文的ACE 2004和ACE 2005,我们使用与Lu和Roth(2015)相同的数据分割。对于中文的ACE 2004和ACE 2005,我们将训练/开发/测试分为8.0:1.0:1.0。

Discontinuous NER Datasets 

CADEC(英文), ShARe13(英文), ShARe14(英文)。

所有这些数据集都来自生物医学或临床领域的文档。我们使用Dai等人(2020)提供的预处理脚本进行数据分割。这些数据集中大约10%的实体是不连续的。

Baselines

  • Tagging-based methods 基于标记的方法:采用不同的标记方案为每个token分配一个标记
  • Span-based methods 基于跨度的方法:枚举所有可能的跨度并将它们组合成实体
  • Hypergraph-based approaches 基于超图的方法:利用超图来表示和推断实体提及
  • Seq2Seq methods 序列到序列的方法:在解码器端生成实体标签序列、索引或词序列
  • 其他方法:与上述方法不同,例如基于过渡的(transition-based)和基于派系的(clique-based)方法。

5 Experimental Results 实验结果

Results for Flat NER:

我们在六个数据集上评估我们的框架。如表1所示,我们的模型在CoNLL 2003和OntoNotes 5.0数据集上分别获得了93.07% F1和90.50% F1的最佳性能。特别的,我们的模型在OntoNotes 5.0上的F1比另一个统一NER框架(Yan等,2021)高出0.23%。中文数据集的结果如表2所示,其中baselines均为基于标注的方法。我们发现我们的模型在OntoNotes 4.0、MSRA、Resume和Weibo上分别比之前的SoTA结果高出0.27%、0.01%、0.54%和1.82%。

表1:英文平面NER数据集的结果。“ ”表示我们使用他们的代码重新实现。我们将模型运行5次,并报告平均值。
表2:中文平面NER数据集的结果。所有的baselines都是序列标记方法或其变体。

 

Results for Overlapped NER:

表3展示了3个英文重叠NER数据集的结果。我们的W2NER模型优于以前的工作,包括基于标注(tagging-based ),基于跨度(span-based),基于超图(hypergraph-based)和序列对序列(sequence-to-sequence)的方法,实现了F1得分的SoTA性能,ACE2004、ACE2005和GENIA成绩分别为87.52%、86.79%和81.39%。对于ACE2004和ACE2005的中文语料库,我们复制了Yu et al(2020)和Shen et al(2021)提出的SoTA模型,并将其结果列于表5。我们的模型分别显著优于两个基线0.53%和0.42%。

表3:英文重叠NER数据集的结果
表5:中文重叠NER数据集的F1得分。带“*”的模型表示使用它们的代码来适应目标数据集。

 

Results for Discontinuous NER:

表4显示了我们的模型与其他baselines在三个不连续NER数据集上的比较。如图所示,我们的模型优于之前的最佳模型(Fei 等人2021;Wang等人2021),在CADEC、ShARe13和ShARe14数据集中的F1分别提高了0.81%、0.02%和0.45%,取得了新的SoTA结果。

由于上述数据集也包括平面实体,我们进一步研究了我们的模型在仅识别重叠或不连续实体方面的性能,如图5所示。我们可以看出,基于派系(clique-based)的模型(Wang等人2021)比Seq2Seq模型(Yan等人2021)和基于过渡(transition-based)的方法(Dai等人2020)表现出更好的性能。最重要的是,对于重叠和不连续的NER,我们的系统相对于所有其他基线都实现了最佳结果。

表4:不连续NER数据集的结果
图5:ShARe14上重叠(a)和不连续提及(b)的结果。

 

Model Ablation Studies 消融实验:

我们在CoNLL2003、ACE2005和CADEC数据集上消融了我们模型的每个部分,如表6所示。首先,在没有区域和距离嵌入的情况下,我们观察到三个数据集的性能略有下降。通过去除所有卷积,性能也明显下降,这验证了多粒度膨胀卷积的有用性。此外,在去除具有不同膨胀率的卷积之后,性能也下降,尤其是对于膨胀率为2的卷积。

比较共同预测层中的biaffine和MLP,我们发现尽管MLP起着主导作用,但biafffine也能带来至多0.5%的提升。最后,当去除NNW关系时,所有数据集上的F1都会下降,尤其是在CADEC上(4.2%)。这是因为CADEC数据集也包含不连续实体,如果没有NNW关系,不连续跨度将被错误地识别为连续跨度,如图4(d)所示。因此,正如我们之前所说的那样,对NNW关系的消融实验结果也证明了它的重要性。

表6:模型消融实验(F1s)。DConv(l=1)表示膨胀率为1的卷积。

6 Related Work on NER 命名实体识别的相关工作

Sequence Labeling Approaches 序列标记方法

NER通常被认为是一个序列标注的问题,从预先设计的标记方案(例如,BIO)中为每个token分配一个标签。目前的主流工作将CRF(Lafferty等人2001;Finkel等人2005)与神经结构相结合,如CNN(Collobert等人2011;Strubell等人2017)、双向LSTM(Huang等人2015;Lample等人2016)和Transformer(Yan等人2019;Li等人2020b)。然而,这些方法既不能直接求解重叠的NER,也不能直接求解不连续的NER。Ju等人(2018)通过动态堆叠平面NER层,提出了嵌套NER的神经模型。Tang等人(2018)将BIO标签方案扩展到BIOHD,以解决不连续提及的问题。

Span-based Approaches 基于跨度的方法

已经有几项研究将NER视为跨度级分类,即列举所有可能的跨度,并确定它们是否是有效的提及和类型。Yu等人(2020)利用双仿射注意力(Dozat和Manning,2017)来衡量提及文本跨度的可能性。李等人(2020a)将NER重新表述为机器阅读理解(MRC)任务,并且提取实体作为答案跨度。Shen等人(2021)实现了一个两阶段辨识器,通过过滤器和回归器生成跨度建议,然后将其分类到相应的类别中。李等人(2021a)将不连续的NER转换为从基于跨度的实体片段图中找到完整子图,并获得有竞争力的结果。但是,由于穷举的性质,这些方法受到最大跨度长度和模型复杂度大的影响,尤其是对于大跨度实体。

Hypergraph-based Approaches 基于超图的方法

Lu和Roth(2015)通过用指数表示可能的提及,首次提出了重叠NER的超图模型。随后,后续的工作对该方法进行了广泛探索(Muis和Lu 2016;Katiyar和Cardie 2018;Wang和Lu 2018)。例如,Muis和Lu(2016)扩展了不连续NER的方法,Wang和Lu(2018)利用深度神经网络来增强超图模型。

Sequence-to-Sequence Approaches 序列到序列方法

Gillick等人(2016)首先将Seq2Seq模型应用于NER,将句子作为输入,并输出所有实体的起始位置、跨度长度和标签。Strakova等人(2019)将Seq2Seq´架构用于具有增强型BILOU方案的重叠NER。费等人(2021)将Seq2Seq与指针网络用于不连续NER。Yan等人(2021)的最新尝试通过基于BART的Seq2Seq模型和指针网络来解决统一的NER(Lewis等人,2020),生成一个所有可能实体的开始-结束索引和类型的序列。不幸的是,Seq2Seq架构存在潜在的解码效率问题以及暴露偏差问题。

Differences between Our Approach and Previous Approaches    我们的方法与之前方法的差异

大多数现有的NER工作主要考虑更准确的实体边界识别。在这项工作中,我们探索了统一NER的不同任务建模,即词-词关系分类形式。我们的方法可以有效地对实体的边界词和内部词之间的关系进行建模。此外,我们的2D网格标记方法可以基本上避免当前性能最好的baselines中的缺点,例如,基于跨度和序列到序列的模型。

7 Conclusion 结论

在本文中,我们提出了一种新的基于词-词关系分类的统一NER框架,用来同时处理统一的NER。单词对之间的关系被预定义为下一个相邻单词关系和词尾词头关系。我们发现,我们的框架对各种NER非常有效,它在14个广泛使用的基准数据集上实现了SoTA性能。此外,我们提出了一种新的骨干模型,该模型由BERT-BiLSTM编码器层、用于构建和细化词对的网格表示的卷积层、以及用于联合推理关系的共同预测器层组成。通过消融研究,我们发现我们的卷积中心模型表现良好,并且提出的几个模块——如协预测器和网格表示——也是有效的。我们的框架和模型易于遵循,这将促进NER研究的发展。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值