【读】关系抽取—（3）A Walk-based Model on Entity Graphs for Relation Extraction

最新推荐文章于 2020-03-15 16:47:44 发布

imsuhxz

最新推荐文章于 2020-03-15 16:47:44 发布

阅读量1.4k

点赞数

分类专栏：关系抽取

关系抽取专栏收录该内容

7 篇文章 0 订阅

订阅专栏

本文转载自：http://www.paperweekly.site/papers/notes/509

最近阅读了A Walk-based Model on Entity Graphs for Relation Extraction这篇文章，该工作来自于曼彻斯特大学，发表在ACL2018。

文章提出了一种新的基于图的神经网络关系提取模型。该模型将句子中的实体看成是一个全连接图中的节点，节点之间的边表示实体与上下文的位置关系。为了考虑两个实体之间的不同关系路径，模型为每个实体对构建多条不同长度的路径。通过迭代的方式不断合并这些路径，最终将获得表示两个实体间关系的一条直连路径。文章在没有使用任何外部工具的情况下，在ACE 2005 dataset上对模型进行了测试，并将结果与SPTree系统进行了对比。实验结果显示，这篇文章提出的模型与当前最先进的SPTree系统相比，两者的性能没有明显的统计学差异。下面是我对这篇论文的阅读笔记。

1 引言

当一句话中存在多种关系时，不同关系之间往往会存在一定的联系，即目标实体对的关系可能会受到同一个句子中其他实体间关系的影响。例如，如下图中虚线所示：“Toefting”既可以通过介词“in”以直接的方式与 “capital”建立关系，也可以通过“teammates”以间接的方式与“capital”建立关系。因此，在进行关系提取（RE）时需要同时考虑这些关联关系，借此来对实体之间的依赖关系建模。然而，现有的大多数RE模型在提取关系时往往会忽略不同关系间的这种关联性。

PER：the person entity

GPE：the geopolitical entity

SDP：the shortest dependency path

针对这一情况，这篇文章提出了一种基于实体图的神经关系提取模型，该模型用图的方式来表达一句话中多个实体间存在的多种关系：句子中的实体被表示为图中的节点，实体间的关系则构成图的定向边，模型用一个实体及其上下文来初始化一条边，这样，任意两个实体之间就会形成由多个边连接组成的、长度不等的多条路径。模型通过迭代的方式，将两个实体之间多条路径逐渐聚合为一条直连路径，该直连路径即对应于实体关系的最终表示。

2 模型

文章提出的模型由5层组成，如下图所示：嵌入层（embedding layer），BLSTM层（BLSTM Layer），边表示层（edge representation layer），路径融合层（walk aggregation layer），分类层（classification layer）。

模型的输入为句子中单词的词嵌入，利用这些词嵌入生成实体对的向量表达形式。实体对的表示向量包含以下信息：目标实体对、目标实体对的上下文单词、上下文单词与实体对的相对位置以及实体对之间的路径。在分类器中，这些表示向量将被用于预测实体对的关系类型。

嵌入层：负责生成维度分别为n_w、n_t、n_p向量，分别对应于单词、实体的语义类型、目标实体对的相对位置。单词和语义类型分别映射为实值向量w和t。目标实体对的相对位置由句子中单词的位置来决定。以第1节中的例子为例，“teammates”与“capital”的相对位置为-3，“teammates”与“Toefting”的相对位置为+16。文章利用实值向量p表示这些相对位置。

BLSTM层：每个句子的词嵌入将输入到一个双向长短期记忆网络（BLSTM）中，BLSTM输出一个新的词嵌入h，该词嵌入考虑了单词的序列信息。对于句子中的每一个单词t，其在BLSTM中前向网络和反向网络的输出将被连接成一个n_e维向量，即e_t=[(h_t;) ⃗(h_t ) ⃖ ]。

在这个BLSTM层中，我们避免编码目标对相关信息。这样做有两个优点:(1)减少了计算成本，因为这种计算是根据句子的数量而不是对的数量重复进行的;(2)我们可以在句子的对之间共享序列层。第二个优点尤其重要，因为它使模型能够间接地学习同一句子中相关对之间的隐藏依赖关系。

边表示层：BLSTM输出的词嵌入在这一层将被进一步分为两个部分：（i）目标实体对的表示向量以及（ii）目标实体对特定上下文的表示向量。目标实体对的上下文可以用句子中除已知实体外的其余全部单词来表示。实体对的具体表示方法如下：

一个目标实体对包含两个实体e_i和ej。如果一个实体由I个单词组成，则求这I个单词的BLSTM向量的平均值，用该平均值作为实体的BLSTM向量，即 e=1/|I| ∑(i∈I)▒e_i 其中I表示组成实体e的单词的数量。

首先，为每对实体创建一个表示向量，然后构造每个实体对的上下文的表示向量。实体e_i的表示向量由以下几部分连接而成：实体的BLSTM向量e_i，实体类型的表示向量t_i，以及实体e_i与e_j相对位置的表示向量p_ij。类似的，对于实体e_j用p_ji表示其与实体e_i的相对位置。最终，实体对可以表示为：V_i=[e_i;t_i;p_ij ]和V_j=[e_j;t_j;p_ji ]。

然后，构建上述实体对上下文的表示向量。对于目标实体对(e_i,e_j ) 上下文的每一个单词ω_z，其表示向量由以下几部分连接而成：单词ω_z的BLSTM向量e_z，单词ω_z的语义类型的表示向量t_z，单词ω_z与实体e_i、e_j的相对位置的表示向量（ω_z与e_i的相对位置表示p_zi，ω_z与e_j的相对位置表示p_zj）。综上，目标实体对的上下文单词的最终表示为：V_ijz=[e_z;t_z;p_zi;p_zj ]。对于每一个句子，其所有实体对的上下文表示向量可以用一个3维矩阵C表示，矩阵的行和列分别对应实体，矩阵的深度对应上下文单词。

之后，通过注意力机制将每对目标实体的上下文表示向量聚合为一个向量。根据(Zhou et al. 2016)提出的方法，计算目标实体对上下文单词的权重，然后计算它们的加权平均值， u=q^T tanh(C_ij ) α=softmax(u) (1) c_ij=C_ij α^T 其中，q∈R^(n_d ),n_d=n_e+n_t+2n_p表示可训练的注意力向量，α表示加权向量，c_ij∈R^(n_d )为实体对上下文表示向量加权平均后的结果。

最后，将目标实体对的表示向量与其上下文的表示向量（∈R^(n_m )）连接起来。通过使用一个全连接线性层W_s∈R^(n_m×n_s )，其中n_s<n_m，以此来降低结果向量的维度。该向量即为节点i和j之间的边（或单位路径）：v_ij^((1) )=W_s [V_i;V_j;c_ij ]∈R^(n_s )。

路径融合层：模型的主要目的是通过使用实体之间的间接关系来判断实体之间的直接关系。因此，本层的目标是：将实体对之间的多个不同长度的路径融合成一条路径。为了达成这一目标，模型将一个句子表示成一个有向图，其中图的节点表示句子中的实体，图中的边表示两个节点（实体）之间的关系。目标实体之间的单位长度路径表示为v_ij^((1) )，以此作为一个基本的构建模块，可进一步用于创建和聚合两个实体之间长度为l(l≥1)的路径。基于路径的算法可以看成两步处理过程：路径构建和路径融合。在第一步处理过程中，通过一种改进的非线性变换将图中两个连续边联合起来， f(v_ik^((λ) ),v_kj^((λ) ) )=σ(v_ik^((λ) )⨀(W_b v_kj^((λ) ) )) (2) 其中，v_ij^((λ) )∈R^(n_b )表示实体e_i和e_j之间长度为λ的路径，⨀表示元素乘法，σ表示sigmoid非线性函数，W_b∈R^(n_b×n_b )为一个可训练的权值矩阵。等式(2)得到一个长度为2λ的路径。在路径融合步骤中，模型将初始路径（长度为λ）和扩展路径（长度2λ）线性地结合起来， v_ij^((2λ) )=βvij^((λ) )+(1-β) ∑(k≠i,j)▒f(v_ik^((λ) ),v_kj^((λ) ) ) (3) 其中，β为权重，用于表示路径的重要程度。综上，当λ=1时，利用等式(3)可创建一个长度为2的路径。之后，取λ=2，再次使用等式(3)创建一个长度为4的路径。不断重复上述过程直到达到预期的最大路径长度，即2λ=l。

分类层：在整个网络的最后一层，将上一层的输出输入到一个使用softmax函数的全连接层， y=softmax(W_r v_ij^((l) )+b_r ) (4) 其中，W_r∈R^(n_b×n_r )是权值矩阵，n_r表示关系类型的总数目，b_r表示偏置向量。

3 实验

文章在ACE 2005的关系提取任务数据集上对提出的模型进行了测试。

上表所示为模型与SPTree系统在ACE2005数据集上性能的比较，第一行为SPTree系统得分，第二行为基线模型得分，第三行为使用了注意力机制的基线模型得分，余下三行为文章提出的模型使用不同长度路径时的得分。表中显示了准确率P、召回率R和F1得分三项指标。

准确率指标P：虽然准确率并没有随着基于路径的图模型的使用以及路径长度的增加而线性提高，甚至还要低于基线模型，但模型在不同路径长度下的准确率P均与SPTree系统十分接近，证明基于路径的图模型在关系提取任务中的有效性，只是性能还有待提升。

召回率指标R：模型召回率随着路径的增加而逐渐提高，直到路径增加到l=8时发生回落。说明增加路径长度是提升真正例识别数量的一种有效手段，也从侧面验证了通过实体的间接关系来识别目标实体对直接关系的可行性和有效性。

F1得分：图中，基线模型的F1得分为61.4%，在所有模型中为最低。通过使用注意力机制可以将其F1得分提升1.3个百分点至62.7%。在此基础之上，使用基于路径的模型，模型F1得分随着路径长度的增加而增加，l=4时模型F1得分最高为64.2%，当路径长度增加至8时F1得分出现回落。若仅从F1得分指标看，文章模型在关系提取任务中的性能已与当前比较先进的算法十分接近。

下表所示为，在拥有不同实体数量的句子中，使用不同长度路径时模型的F1得分。其中，第一行表示路径长度，第一列表示句子中实体的数量。观察可知，当句子中实体数量较少时，基于路径的图模型与普通模型相比优势并不明显，甚至还略显不如。但当句子中的实体数量较多时，基于路径的图模型与普通模型相比性能提升明显，说明基于路径的图模型适用于处理句子中实体数量较多的情况。

除了上述实验之外，文章还将模型与(Nguyen and Grishman 2015)提出的CNN模型进行了对比。实验中，将路径长度设置为l=4，得到的P/R/F1(%)分别为65.8/58.4/61.9，而CNN模型相应的得分分别为71.5/53.9/61.3。对比发现，文章模型的的F1得分高于CNN模型0.6个百分点。

4 总结

当前，在关系提取任务中使用最多的是RNNs及其各种改进算法，但这些方法都没有考虑句子中关系之间的依赖性，在处理句子中存在多个实体对的情况时没有充分利用实体间的间接关系。与这些方法不同，这里介绍的文章，采用基于路径的实体图模型，在识别目标实体对的关系时充分使用实体间的间接关系。虽然，也有一些其他的算法，也是针对句子中存在多种关系的情况(Gupta et al., 2016 ; Miwa and Sasaki, 201421; Li and Ji, 2014 )。但是，这些算法无法对已知实体路径建模。而文章通过实验，证明了基于路径的图模型在关系提取任务中的可行性和有效性。虽然从实验结果看，其性能与当前最先进的算法相比还存在一定差距，但是将基于路径的图模型引入关系提取任务是一种新的思路，对此类模型的研究目前尚未大规模展开，因而模型性能暂时不佳也实属正常，这就为我们下一步开展后续工作提供了研究思路和提升空间。整体而言，这篇文章的启发性意义大于其模型的实用意义。期待下一步在此思路的基础上进一步提升模型性能。

LINK

A Walk-based Model on Entity Graphs for Relation Extraction

imsuhxz

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【读】关系抽取—（3）A Walk-based Model on Entity Graphs for Relation Extraction

本文转载自：http://www.paperweekly.site/papers/notes/509 最近阅读了A Walk-based Model on Entity Graphs for Relation Extraction这篇文章，该工作来自于曼彻斯特大学，发表在ACL2018。文章提出了一种新的基于图的神经网络关系提取模型。该模型将句子中的实体看成是一个全连接图中的节点，节点...
复制链接

扫一扫

专栏目录