【论文笔记】统一NER模型-W²NER

词对关系分类的统一NER模型-W²NER

请添加图片描述

论文题目:
Unifed Named Entity Recognition as Word-Word Relation Classifcation
收录会议:
AAAI-2022
论文链接:
https://doi.org/10.1609/aaai.v36i10.21344
代码链接:
https://github.com/ljynlp/w2ner

abstract

到目前为止,NER已经涉及到三种主要类型,包括Flat、Overlapped、Discontinuous。他们大多是单独研究的。最近,人们对统一NER越来越感兴趣,用一个模型同时处理上述三个任务。目前表现最好的方法主要包括基于span的模型和序列到序列的模型,不幸的是,前者只关注边界识别,后者可能会受到暴露偏差的影响。在这项工作中,本文提出了一种新的替代方法,将统一的NER建模为词-词关系分类,即W²NER。该体系结构通过有效地用邻接词(NNW)和尾首词-(THW-)关系建模实体词之间的相邻关系,解决了统一NER的核心瓶颈。基于W²NER方案,本文开发了一个神经框架,其中统一NER被建模为单词对的二维网格。然后,本文提出了多粒度2D卷积,以更好地改进网格表示。最后,使用一个共同预测器来充分推理词-词关系。本文对平面、重叠和不连续NER(8个英文和6个中文数据集)的14个广泛使用的基准数据集进行了广泛的实验,其中本文的模型击败了当前所有表现最好的baseline,推动了统一NER的最先进性能。

1. Introduction

命名实体识别(NER)长期以来一直是自然语言处理(NLP)的一项基本任务,因为它具有各种各样的基于知识的应用,例如,关系提取、实体链接等。对NER的研究最初是从FlatNER逐渐演变而来的,后期发展到OverlappedNER,以及最近的DiscontinuousNER。具体来说,FlatNER只是从文本中检测提及span及其语义类别,而在OverlappedNER和DiscontinuousNER中变得更为复杂,即包含相同tag的重叠的实体以及具有span的不连续实体,如图1所示。
以前用于多类型NER的方法可以大致分为四大类:1)sequence labeling,2)hypergraph-based,3)sequence-to-sequence 和 4)span-based的方法。大多数初始工作将NER形式化为序列标记问题,为每个token分配一个标签。然而,很难为所有NER子任务设计一个标记方案。然后提出了基于hypergraph的模型来表示所有实体span,然而在推理过程中,这些实体span既可能存在错误的结构,也存在结构歧义问题。最近,Yan等人(2021)提出了一种序列对序列(Seq2Seq)模型来直接生成各种实体,不幸的是,该模型可能存在解码效率问题和Seq2Seq架构的某些常见缺点,例如暴露偏差。Span-based方法是另一种SoTA方法,其主要思想是即列举所有可能的span,并确定它们是否是有效的实体和类型。然而,Span-based的模型可能受到最大span长度的约束,并且由于枚举的性质导致相当大的模型复杂性。因此,设计一个有效的统一NER系统仍然具有挑战性。
现有的大部分工作主要集中在如何准确地识别实体边界,即NER的核心问题,特别是Flat的核心问题。然而,在仔细反思所有三种NER类型的共同特征后,本文发现统一NER的瓶颈更多在于实体词之间相邻关系的建模。这种邻接关系本质上描述了部分文本段之间的语义连通性,尤其是对重叠和不连续的文本段起着关键作用。如图1(a)所示,可以毫不费力地检测到扁平提到的“腿疼”,因为它的组成词都是自然相邻的。但是,为了检测出不连续的实体“肩膀疼痛”,有效地捕获“疼痛”和“肩膀”相邻部分之间的语义关系是必不可少的。
在上述观察的基础上,本文研究了一种具有新颖的词-词关系分类架构的可选统一NER形式主义,即W²NER。
请添加图片描述

本文的方法通过有效地建模实体边界识别以及实体词之间的相邻关系来解决统一的NER。具体来说,W²NER对两种类型的关系进行预测,包括下一个邻接词(NNW)和尾首词-*(THW-*),如图1(b)所示。NNW关系处理实体词识别,表明两个参数词在一个实体中是否相邻(例如,aching→in),而THW-*关系处理实体边界和类型检测,揭示两个参数词是否分别是“*”实体的尾部和头部边界(例如,legs→aching,Symptom)。
基于W²NER方案,本文进一步提出了统一NER的神经框架(参见图3)。首先,BERT(Devlinetal.2019)和BiLSTM(Lampleetal.2016)用于提供上下文化的单词表示,在此基础上本文构建了一个二维(2D)的词对网格。之后,本文设计了多粒度2D卷积来改进词对表示,有效地捕获了近词对和远词对之间的相互作用。一个共同预测器最终对词-词关系进行推理,并产生所有可能的实体提及,其中biaffine和多层感知器(MLP)分类器被联合使用,以获得互补的好处。
本文在14个数据集上进行了广泛的实验,包括平面NER的2个英文和4个中文数据集,重叠NER的3个英文和2个中文数据集,不连续NER的3个英文数据集。与FlatNER的12条baseline、重叠NER的7条baseline、不连续NER的7条baseline相比,本文的模型在所有数据集上都取得了最好的性能,成为统一NER的新的SoTA方法。本文的贡献包括:

  • 提出UWNER的创新方法,充分考虑实体边界以及实体内部词对关系
  • 开发新的神经网络结构,新提出多粒度2D卷积方法,用于充分捕获远近词之间的关系
  • 推动NER在多个数据集上的SoTA性能

2. NER as Word-Word Relation Classifcation

请添加图片描述

Flat, overlapped, discontinuous NER 可以被如下定义:
给定包含N个token的输入语句 X = x 1 , x 2 , … , x N X={x_1, x_2, \ldots, x_N} X=x1,x2,,xN,任务目标是获取每个词对 ( x i , x j ) (x_i, x_j) (xi,xj) 的预定义的关系 R R R, 包括以下关系:

  • NONE,表示该词对没有本文中定义的任何关系
  • next-neighbour-word:NNW关系表示该词对于实体提及,网格某一行中的单词在网格某一列中有一个连续的单词。
  • tail-head-word-*:THW关系表示网格某一行的单词是实体提及的尾部,网格某一列的单词是实体提及的头部。“*”表示实体类型。

3. Unifed NER Framework

请添加图片描述

W²NER框架主要有三部分组成,包括Encoder Layer,Convolution Layer和Co-Predictor Layer。Encoder Layer 主要基于BERT和LSTM模型来获得输入句子中得到上下文词表示;Convolution Layer用来建立和精炼词对矩阵,用于后续的word-word关系分类;Co-Predictor Layer包括一个双线性层和多层感知机,用以共同用于推理token对的关系。

3.1 Encoder Layer

该层将输入的语句 X = x 1 , x 2 , … , x N X={x_1, x_2, \ldots, x_N} X=x1,x2,,xN 进行分词,输入BERT,利用BERT计算出的向量表示经过最大池化以及BiLSTM处理后生成最终向量表示 H = h 1 , h 2 , … , h N H={h_1, h_2, \ldots, h_N} H=h1,h2,,hN

3.2 Convolution Layer

由于CNN适用于网格上的二维卷积及关系确认,该层采用CNN用于表示细化。该层包括三个模块,即Conditional Layer Normalization(CLN),BERT-Style Grid Representation Build-Up和Multi-Granularity Dilated Convolution。

3.2.1 Conditional Layer Normalization

该模块主要是生成词对网格表示,是一个三维的矩阵 V ∈ R N × N × d h V\in R^{N\times N\times d_h} VRN×N×dh, V i j V_{ij} Vij即为词对 ( x i , x j ) (x_i, x_j) (xi,xj)的表示。
V i j = C L N ( h i , h j ) = γ i j ⊙ ( h j − μ σ ) + λ i j γ i j = W α h i + b α , λ i j = W β h i + b b e t a μ = 1 d h ∑ k = 1 d h h j k , σ = 1 d h ∑ k = 1 d h ( h j k − μ ) 2 V_{ij} = CLN(h_i, h_j) = \gamma_{ij} \odot (\frac{h_j-\mu}{\sigma}) + \lambda_{ij} \\ \gamma_{ij} = W_{\alpha}h_i+b_{\alpha}, \lambda_{ij} = W_{\beta}h_i+b_{beta} \\ \mu=\frac{1}{d_h}\sum_{k=1}^{d_h}h_{jk}, \sigma=\sqrt{\frac{1}{d_h}\sum_{k=1}^{d_h}(h_{jk}-\mu)^2} Vij=CLN(hi,hj)=γij(σhjμ)+λijγij=Wαhi+bα,λij=Wβhi+bbetaμ=dh1k=1dhhjk,σ=dh1k=1dh(hjkμ)2

3.2.2 BERT-Style Grid Representation Build-Up

采用BERT的思想,类似于BERT的输入包括三个部分(token/position/segment embeddings ),该模块设计了单词对表征向量V(Word Embedding),单词对的位置向量 E d E^d Ed(Distance Embedding)和区分上下三角矩阵向量 E t E^t Et(Region Embedding)用以获取更有效的文本向量表示,最终经过MLP得到position-region-aware表示:
C = M L P ( [ V ; E d ; E t ] ) C = MLP([V;E^d;E^t]) C=MLP([V;Ed;Et])

3.2.3 Multi-Granularity Dilated Convolution

该层主要受到TextCNN的启发,将多重空洞卷积引用到NER任务中,并且使用了不同的膨胀率,来得到不同距离下单词之间的交互信息,获得更有效的局部特征。如下为获取最终词对网格表示Q的表述:
Q = [ Q 1 , Q 2 , Q 3 ] Q l = σ ( D C o n v l ( C ) ) σ 为 G E L U 激活函数 Q = [ Q_1, Q_2, Q_3] \\ Q_l = \sigma(DConv_l(C)) \\ \sigma 为GELU激活函数 Q=[Q1,Q2,Q3]Ql=σ(DConvl(C))σGELU激活函数

3.3 Co-Predictor Layer

在卷积层之后,本文获得词对网格表示Q,它用于使用MLP预测每对词之间的关系。然而,之前的工作已经表明,MLP预测器可以通过与biaffine预测器
合作进行关系分类而得到增强。因此,本文同时采用这两个预测器来计算词对(xi,xj)的两个独立关系分布,并将它们组合为最终预测 y i j = S o f t m a x ( y i j ′ + y i j ′ ′ ) y_{ij}=Softmax(y^{'}_{ij}+y^{''}_{ij}) yij=Softmax(yij+yij′′)

3.3.1 Biaffne Predictor

在本模块,输入给定词块表示H,使用两个MLP得到主客体的词表示 s i s_i si o j o_j oj, 然后再用Biaffne分类器计算关系得分 y i j ′ y^{'}_{ij} yij
s i = M L P 2 ( h i ) o j = M L P 3 ( h j ) y i j ′ = s i ⊤ U o j + W [ s i ; o j ] + b s_i = MLP_2(h_i) \\ o_j = MLP_3(h_j ) \\ y^{'}_{ij} = s_i^⊤Uo_j + W[s_i; o_j ] + b si=MLP2(hi)oj=MLP3(hj)yij=siUoj+W[si;oj]+b

3.3.2 MLP Predictor

此处采用MLP计算关系得分:
y i j ′ ′ = M L P ( Q i j ) y^{''}_{ij} = MLP(Q_{ij}) yij′′=MLP(Qij)

3.4 Decoding

请添加图片描述

基于Co-Predictor Layer的预测结果,本文已经得到了单词和单词之间的关系标签预测结果,可以将其看作一个有向图模型。解码目的是要找到起始词到结束词的特定路线,每条回路对应一个识别出来的实体。具体如图6所示,示例a中AB和DE都是识别出来的扁平实体;示例b中BC实体嵌套在ABC实体中;示例c中存在非连续实体ABD,且与实体ABC存在重复字段;示例d中存在非连续实体ACD 和 BCE, 两个实体之间存在重复字段。

3.5 Learning

损失函数如下:
L = − 1 N 2 ∑ i = 1 N ∑ j = 1 N ∑ r = 1 ∣ R ∣ y ^ i j r log ⁡ y i j r L=-\frac{1}{N^2}\sum_{i=1}^N\sum_{j=1}^N\sum_{r=1}^{|R|}\hat{y}_{ij}^r\log y_{ij}^r L=N21i=1Nj=1Nr=1Ry^ijrlogyijr

4. Experimental Settings

4.1 Datasets

4.1.1 Flat NER

CoNLL-2003 OntoNotes5.0(Pradhanetal 2013b)in English,OntoNotes4.0(Weischedeletal.2011), MSRA(Levow 2006), Weibo (Peng and Dredze 2015; He and Sun 2017), and Resume (Zhang and Yang 2018) in Chinese

4.1.1 Overlapped NER

ACE 2004 (Doddington et al. 2004), ACE 2005 (Walkeret al. 2011), GENIA (Kim et al. 2003).

4.1.1 Discontinuous NER

CADEC (Karimiet al. 2015), ShARe13 (Pradhan et al.2013a) and ShARe14(Mowery et al. 2014)

4.2 Baselines

  • Tagging-based methods,如 BIO (Lample et al.2016), BIOHD (Tang et al.2018), and BIEOS (Li et al.2020b; Ma et al. 2020).
  • Span-based methods(Yu et al. 2020; Li et al. 2021a)
  • Hypergraph-based approaches (Lu and Roth 2015; Wang and Lu 2018; Katiyar and Cardie 2018).
  • Seq2Seq methods(Strubell et al. 2017),(Yan et al. 2021; Fei et al. 2021)
  • transition-based (Dai et al. 2020) and clique-based (Wang et al. 2021) approaches

5. Experimental Results

请添加图片描述
请添加图片描述请添加图片描述
论文中的实验数据说明了W²NER在开源的中文和英文的扁平化NER数据集,嵌套NER数据集以及非连续数据集的效果验证上存在较大优势,且相比于其他嵌套NER模型,非连续模型以及统一框架,W²NER在训练和推理速度上也存在较大优势。

6. Conclusion

本文提出了一种基于词-词关系分类的统一NER框架,同时解决了统一NER的问题。词对之间的关系被预先定义为下一邻词关系和尾-头-词关系。本文发现本文的框架对于各种NER是相当有效的,它在14个广泛使用的基准数据集上达到了SoTA性能。此外,本文提出了一种新的骨干模型,该模型由BERT-BiLSTM编码器层、用于构建和精炼词对网格表示的卷积层和用于联合推理关系的共同预测层组成。通过消融研究,本文发现本文的以卷积为中心的模型表现良好,并且提出的几个模块(如协预测器和网格表示丰富工作)也很有效。本文的框架和模型易于遵循,这将促进NER研究的发展。
积层和用于联合推理关系的共同预测层组成。通过消融研究,本文发现本文的以卷积为中心的模型表现良好,并且提出的几个模块(如协预测器和网格表示丰富工作)也很有效。本文的框架和模型易于遵循,这将促进NER研究的发展。
总得来说,W²NER模型基本可以取得命名实体识别的最优效果,如果觉得它速度达不到要求的话,可以结合前期分析,可以尝试去除双向LSTM,同时结合模型蒸馏方法在保证其效果损耗不大的前提下,进一步提升其预测速度。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值