【论文解读 NAACL 2019 | DyGIE】A General Framework for Information Extraction using Dynamic Span Graphs

论文题目:A General Framework for Information Extraction using Dynamic Span Graphs

论文来源:NAACL 2019 Google AI Language, 华盛顿大学

论文链接:https://www.aclweb.org/anthology/N19-1308/

代码链接:https://github.com/luanyi/DyGIE

关键词:信息抽取,dynamic span graph, ELMo,Bi-LSTM



1 摘要

本文解决的是信息抽取(IE)问题。

本文提出了一个用于IE任务的框架DyGIE,该框架使用动态构建的span graph,实现了span表示的共享

图中的节点选取的是最可信的实体spans,并使用权重为置信度的关系类型以及共指关系连接这些节点。动态的span graph允许共指关系关系类型在图上进行传播,以迭代地更新span的表示。这和已有的用于IE多任务的框架不同,在那些框架中不同任务之间的交互仅仅体现在共享的第一层LSTM。

在多个数据集上进行实验,本文的框架在多个IE任务上超越了state-of-the-art。

作者还进一步发现span枚举(enumeration)有助于检测出嵌套的(nested)span实体。


2 引言

大多数IE任务需要识别出phrase spans并对其分类,有一些可能是嵌套的。例如,实体识别需要为phrase span分配一个实体标签。关系抽取(RE)是为spans对分配关系类型标签。共指消解是将指向同一个实体的spans聚成一类。直觉上我们认为,从一个任务学习到的知识也许有助于其他任务的学习

(1)已有的方法

1)pipeline的方法

先检测出实体,然后使用检测到的实体spans用于关系抽取和共指消解。

2)联合学习

为了避免pipeline方法级联产生的误差,最近的一些工作对实体和关系/实体和共指关系等等进行联合建模,或者是进行多任务的学习。这些模型依赖于第一层LSTM来在不同任务间共享span的表示,并且通常是针对具体领域设计的。


(2)作者提出

本文提出了DyGIE(Dynamic Graph IE)框架,通过使用动态构建的span graph共享spans的表示,可以处理多个IE任务。并且spans的表示是利用从关系和共指信息得到的上下文的信息进行更新优化的。

图中的节点从一束(beam)高可信度的提及(metions)中动态选择的,根据关系类型和共指信息的可信程度对边分配权重

图1的例子显示了实体、关系和共指信息上下文的功用。只关注第二个句子的信息是不能预测出“This thing”和“it”的实体标签的。然而,由于父节点“car”的类型为VEH,因此也预测这两个实体类型为VEH。类似地,“Tom”在Starbucks,根据“Mark”和“Tom”的关系可以推断出“Mark”也在Starbucks。


(3)与已有的方法相比

1)已有的大多数处理多任务的方法仅仅在局部上下文间共享span的表示。本文的方法通过在共指链接关系链接传播信息利用了丰富的上下文相关的span的表示

2)先前的基于BIO的实体识别系统为每个text span最多只分配一个实体,本文的框架枚举并表示了所有可能的spans来识别出重叠的实体


(4)贡献

1)引入动态的span graph框架,进行全局上下文信息的传播;

2)在4个数据集上超越了state-of-the-art

3)本文的方法可以检测出有重叠spans的实体


3 模型

(1)问题定义

输入是将文档表示成单词的序列 D D D,从 D D D中得到所有可能的句子内的单词序列spans(最长为 L L L S = { s 1 , . . . , s T } S={\{s_1, ..., s_T}\} S={s1,...,sT}

输出有3种:1) S S S中所有span的的实体类型 E E E;2)位于同一句子中的所有span对( S × S S\times S S×S)的关系 R R R;3) S S S中所有span跨句的共指连接 C C C

考虑两个基本的任务

1)实体识别:对每个span s i s_i si,预测出最合适的实体类型标签 e i e_i ei

2)关系抽取:对所有的span对 ( s i , s j ) (s_i, s_j) (si,sj),预测出最合适的关系类型 r i j r_{ij} rij

此外,还有一个额外的有监督的辅助任务:共指消解,用于模型的训练。这一任务是对每个span s i s_i si预测出最合适的父节点 c i c_i ci


(2)本文的模型

提出了一个统一的信息抽取框架DyGIE,在多个任务上对实体、关系和共指信息进行识别和分类。

1)DyGIE模型首先枚举出每个句子中所有的text span,并计算每个span的局部上下文相关的向量空间表示。

2)然后使用动态的span图对它们进行建模,将全局的信息整合到span的表示中。

具体来说是,在每个训练步骤中,模型识别出最可能表示实体的text spans,并将这些spans作为图中的节点

根据图中节点间预测出的共指链接关系链接构建图中的有可信度权重的边

然后,使用从相邻的关系类型和共指实体传播来的信息,对spans的表示进行更新优化

优化后的span表示用于多任务框架,以对实体类型、关系类型和共指链接进行预测。


3.1 模型架构

DyGIE模型架构如图2所示。本节是对框架进行概述,图的构建优化过程的具体细节在下一小节中介绍。

(1)Token Representation Layer

对输入tokens应用了Bi-LSTM。每个token的输入都是字符表示、GLoVe词嵌入和ELMo嵌入的拼接。经过Bi-LSTM得到输出的token表示。


(2)Span Representation Layer

对于每个span s i s_i si,通过拼接

1)BiLSTM输出的 s i s_i si的左边和右边end points的表示;

2)基于attention的soft “head word”;

3)span宽度特征的嵌入,

得到初始的向量表示 g i 0 g^0_i gi0


(3)Coreference Propagation Layer

从span的初始表示 g i 0 g^0_i gi0开始,在每次迭代 t t t中:

1)首先为每个span s i s_i si计算一个更新向量(update vector) u C t \mathbf{u}^t_C uCt

2)然后,使用 u C t \mathbf{u}^t_C uCt更新当前的表示 g i t g^t_i git,得到span的表示 g i t + 1 g^{t+1}_i git+1

3)重复 N N N得到最终的span表示 g i N g^N_i giN,这个表示就共享了spans间的上下文信息(在共指图中是父节点的可能性),和[1]中的过程相似。


(4)Relation Propagation Layer

共指关系传播层的输出 g i N g^N_i giN作为本层的输入。类似于共指关系传播过程,在每次迭代 t t t中,首先为每个span计算更新向量 u R t \mathbf{u}^t_R uRt;然后使用它计算 g i t + 1 g^{t+1}_i git+1。重复此过程 M M M就可以整合源于多个关系路径的信息。


(5)Final Prediction Layer

使用关系图层的输出 g i N + M g^{N+M}_i giN+M,来预测实体标签 E E E和关系标签 R R R

对于实体,将 g i N + M g^{N+M}_i giN+M输入给前向神经网络(FFNN),为每个span s i s_i si生成每个类别的分数 P E ( i ) \mathbf{P}_E(i) PE(i)

对于关系,将 g i N + M g^{N+M}_i giN+M g j N + M g^{N+M}_j gjN+M拼接起来作为FFNN的输入,为spans s i s_i si s j s_j sj生成每类关系的分数 P R ( i , j ) \mathbf{P}_R(i, j) PR(i,j)

对于共指信息,对共指图层的输出 ( g i N , g j N ) (g^N_i, g^N_j) (giN,gjN)进行计算,得到span pair ( s i , s j ) (s_i, s_j) (si,sj)的分数。


3.2 动态图的构建和span表示的优化

动态的span图通过软(soft)共指链接和关系链接,以促进更广泛的上下文传播,从而优化span的表示。

图中节点spans s i s_i si在第 t t t次迭代中的向量表示为 g i t ∈ R d g^t_i\in \mathbb{R}^d gitRd。图中边的权重由共指分数和关系分数决定(3.1节中计算得到)。

本小节介绍共指链接和关系链接是如何更新span的表示的

(1)共指传播(Coreference Propagation)

定义一个beam B C B_C BC由最可能出现在共指链中的 b c b_c bc个span组成

定义矩阵 P C t \mathbf{P}^t_C PCt表示在第 t t t次迭代中,共指可信度的得分 P C t \mathbf{P}^t_C PCt大小为 b c × K b_c\times K bc×K,其中 K K K为考虑的父节点数量的最大值。

对于共指关系图,图中的边是单向的,将当前span s i s_i si和其在共指beam中潜在的父节点 s j s_j sj连接起来,其中 j < i j<i j<i s i s_i si s j s_j sj连边的权重由在当前迭代中的共指可信度得分 P C t ( i , j ) P^t_C(i, j) PCt(i,j)决定。

通过聚合邻居span的表示 g j t g^t_j gjt,并使用共指分数 P C t ( i , j ) P^t_C(i, j) PCt(i,j)作为权重,得到span的更新向量 u C t ( i ) ∈ R d \mathbf{u}^t_C(i)\in \mathbb{R}^d uCt(i)Rd

其中 B C ( i ) B_C(i) BC(i) s i s_i si K K K个父节点span组成的集合。 P C t ( i , j ) P^t_C(i, j) PCt(i,j)计算如下:

其中 V C t ( i , j ) V^t_C(i, j) VCt(i,j)是通过拼接span的表示 [ g i t , g j t , g i t ⊙ g j t ] [g^t_i, g^t_j, g^t_i\odot g^t_j] [git,gjt,gitgjt]计算得到的标量分值。其中 ⊙ \odot 表示元素级别的相乘。然后将拼接后的向量输入到FFNN中,得到标量分值 V C t ( i , j ) V^t_C(i, j) VCt(i,j)


(2)关系传播(Relation Propagation)

对于每个句子,定义一个beam B R B_R BR,由 b r b_r br个最有可能有关联的实体spans组成。

和共指关系图不同,此处关系图中边的权重捕获了不同关系类型的信息。因此,在第 t t t次迭代中,我们使用一个张量 V R t ∈ R b R × b R × L R \mathbf{V}^t_R\in \mathbb{R}^{b_R\times b_R\times L_R} VRtRbR×bR×LR来捕获每种关系类型 L R L_R LR的分值

也就是说,关系图中的边连接了关系beam B R B_R BR中两个实体spans s i s_i si s j s_j sj V R t ( i , j ) \mathbf{V}^t_R(i, j) VRt(i,j)是将 [ g i t , g j t ] [g^t_i, g^t_j] [git,gjt]作为FFNN的输入,得到的长为 L R L_R LR的关系分值向量。

通过聚合关系图中的相邻span的表示,得到关系更新向量 u R t ( i ) ∈ R d \mathbf{u}^t_R(i)\in \mathbb{R}^d uRt(i)Rd

其中 A R ∈ R L R × d \mathbf{A}_R\in \mathbb{R}^{L_R\times d} ARRLR×d是可训练的线性映射矩阵 f f f是非线性函数,目的是选择出最重要的关系

由于关系beam中只有一小部分的实体真的和目标实体有连接,在所有可能的span pair间进行传播会在新的表示中引入大量的噪声。因此,选择ReLU函数作为非线性函数 f f f,通过将所有的负关系分数置为0,来移除不相关的关系

与共指关系的连接不同,关系图中通过某一关系相连的两个span的表示可以不相似。因此需要使用矩阵 A R \mathbf{A}_R AR,根据关系的类型对span的嵌入 g j t g^t_j gjt进行转换


(3)使用门机制更新span的表示

为了计算下一次迭代 t ∈ { 1 , . . . , N + M } t\in {\{1,..., N+M}\} t{1,...,N+M}的span的表示,作者定义了一个门向量 f x t ( i ) ∈ R d , x ∈ { C , R } \mathbf{f}^t_x(i)\in \mathbb{R}^d, x\in {\{C, R}\} fxt(i)Rd,x{C,R},来权衡对先前span表示 g i t g^t_i git的保留以及对共指关系/关系的更新向量 u x t ( i ) \mathbf{u}^t_x(i) uxt(i)新信息的引入。计算如下:

其中, W x f ∈ R d × 2 d \mathbf{W}^f_x\in \mathbb{R}^{d\times 2d} WxfRd×2d是可训练的参数, g g g是元素级别的sigmoid函数。


3.3 训练

损失函数定义为3个任务对数似然的加权和:

其中, E ∗ , R ∗ , C ∗ E^*, R^*, C^* E,R,C分别是真实的实体类型、关系和共指关系; D \mathcal{D} D是所有训练文档 D D D的集合;超参数 λ E , λ R , λ C \lambda_E, \lambda_R, \lambda_C λE,λR,λC控制了每个任务的重要程度


4 实验

(1)实验任务

  • 实体和关系的联合抽取需要对实体的head span进行预测;
  • 有重叠问题的实体抽取:需要对整个text的span进行预测,并预测出实体标签

(2)数据集

1)实体和关系的联合抽取

ACE2004, ACE2005, SciERC, Wet Lab Protocol Corpus

2)有重叠问题的实体抽取

ACE2004, ACE2005, GENIA

(3)对比方法

见实验结果的表2表4

(4)实验结果

1)实体和关系的联合抽取

模型在测试集上进行实体和关系的联合抽取,F1值如表2所示:

2)识别出有重叠问题的实体

在一些应用中,正确识别出重叠的实体对于正确理解文档内容很重要。例如,在生物医药领域,BRCA1突变载体可以指代一个临床患者,这里的BRCA1是基因名。在3个数据集上对有重叠问题的实体进行抽取,实验结果如表4所示:

3)消融实验验证图传播方法的有效性

表5表6展示了图传播方法在实体和关系联合抽取任务上的有效性。其中-CorefProp和-RelProp分别将 N N N M M M设为了0,分别指不使用共指关系传播和关系传播;Base是不使用任何传播方法的基本模型。

表5中可以看出,对于ACE05数据集,共指关系传播更有助于实体的识别。

表6中可以看出,对于SciIE数据集,共指关系传播对于实体和关系的抽取,作用均不明显(去掉它准确率下降得很少)。从表5表6两个表看出,关系传播在两个领域上的实体抽取和关系抽取均起到了增强的作用。

也就是说,共指关系传播更有助于实体抽取任务,关系传播更有助于关系抽取任务。

更多消融实验的细节见论文


6 总结

本文提出了DyGIE框架,用于多种信息抽取(IE)任务。在多个领域的数据集上进行实验,本文的框架在实体识别关系抽取任务上取得了state-of-the-art

本文的主要贡献在于提出了动态span图(dynamic span graph)的方法,该方法使得模型从更广泛的上下文中学得有用的信息,从而增强了不同任务间的交互

与许多IE框架不同,本文的模型不需要使用句法分析工具对数据进行预处理,避免了预处理方法带来的误差,并且在多个IE任务(实体抽取,关系抽取,有重叠的实体抽取)上实现了性能的显著提升。

在计算和存储复杂度方面,增加的共指关系传播和关系传播需要的计算量很小,存储空间的消耗由beam search控制。

未来工作:使用该框架处理更多的IE任务,例如事件抽取任务(该工作已实现,详见DyGIE++那篇论文)。


本文解决的是IE任务,针对3个任务:实体抽取、关系抽取、有重叠问题的实体抽取

本文的亮点在于提出了动态的span图(dynamic span graph),主要体现在“动态”二字上。已有的方法都是预先定义了图中的节点(在RE任务前选择出候选的实体),并且在学习过程中不再改变。本文的方法不再使用固定的实体集合作为构建图所需的输入。本文的模型使用beam pruning(束剪枝)策略动态地选取高质量的spans,并将选取出来的spans作为图中的节点

论文中没有介绍beam pruning策略,具体见[1~ 3],这一思想是受这几篇论文启发的。

除此之外,DyGIE还使用了共指关系传播关系传播,以捕获更广泛的上下文的信息,并且实现了多任务的span表示的共享。通过span表示的共享,针对某一具体的IE任务,模型可以从其他的任务中学习到有用的知识,有助于目标任务的学习。

为了识别出有重叠问题的实体,作者采用了枚举的方法:枚举出每个句子中所有的text span,并计算每个span的局部上下文相关的向量空间表示。为了减少枚举产生的不相关的span pair引入的噪声,作者使用了ReLU函数去掉了不相关的关系。


参考文献

[1] Kenton Lee, Luheng He, and Luke Zettlemoyer. 2018. Higher-order coreference resolution with coarse-tofine inference. In NAACL.

[2] Kenton Lee, Luheng He, Mike Lewis, and Luke S. Zettlemoyer. 2017. End-to-end neural coreference resolution. In EMNLP.

[3] Luheng He, Kenton Lee, Omer Levy, and Luke Zettlemoyer. 2018. Jointly predicting predicates and arguments in neural semantic role labeling. In ACL.

  • 3
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值