Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme阅读总结

Purpose

本文首先提出了一种新的标注模式,它包含了实体的信息和它们之间的关系,将联合抽取转换为标注问题。接着基于此研究了不同的基于LSTM的端到端模型对三元组建模,直接抽取实体和关系。另外,还通过添加一个偏置参数来调整解码方法,使其更适合这些特殊标注。

Background

联合实体关系抽取与Open IE不同,关系词是从预定义的关系集中抽取出来的,可能不会在给定的句子中出现,这在知识抽取和自动构建知识库中是一个十分重要的问题。

Pipeline

传统方法以pipeline的方式进行实体和关系抽取,这种分离的框架虽然使得任务更易于处理,每个组件更加灵活,但也带来了一些问题:忽略了两个子任务的相关性;NER的结果会影响RE的表现,可能造成error delivery。

Joint Extraction

(Li and Ji, 2014; Miwa and Sasaki, 2014; Yu and Lam, 2010; Ren et al., 2017)等人提出的联合模型基于特征工程,严重依赖NLP工具包,也可能造成错误的传播。(Miwa and Bansal, 2016)提出的基于神经网络的端到端抽取模型虽然可以在单一模型中用共享参数表示实体和关系,但还是单独抽取实体和关系,产生信息的冗余。

End-to-end

端到端方法将输入的句子映射到向量空间后产生序列,在机器翻译和序列标注任务中被广泛应用。大多数方法使用BiLSTM编码输入的句子,不过解码的方式并不相同,如CRF、LSTM等。

Methods

The Tagging Scheme

Tag “O"代表"Other”,即该单词独立于与抽取结果。除此之外,其他的tag包含三个部分:单词在实体中的位置、关系类型、关系角色。使用"BIES"(Begin, Inside, End, Single)来表示单词在实体中的位置信息;关系类型信息从预定义的关系集中获得;关系角色用"1"和"2"来表示,即代表该单词属于三元组的第一或第二个实体。因此,tag的总数为

Nt = 2 * 4 * |R| + 1
其中|R|表示预定义关系集的大小。 下面是一个例子。

在这里插入图片描述

From Tag Sequence To Extracted Results

从上图可以看出,“Trump"和"United States"共享相同的关系"Country-President”,将其放入同一个三元组中,根据关系角色判断最终结果为{United States, Country-President, Trump}。另外,如果一个句子中包括两个或多个有相同关系的三元组,就根据就近原则将实体两两组合。在本文中只考虑一个实体属于一个三元组的情况,重叠关系的识别在以后的工作中进行。

The End-to-end Model

基于神经网络的端到端模型在序列标注任务中已被广泛应用,本文研究了一个端到端模型来生成标注序列,包括BiLSTM层编码输入的句子和基于LSTM的解码层,该解码层带有偏置参数,用来增强实体标注的相关性。
在这里插入图片描述BiLSTM编码层
嵌入层将one-hot编码转换成embdding vector,接下来是平行的前向LSTM和后向LSTM。对每个单词 ωt ,前向LSTM会考虑 ω1 到 ωt 之间的上下文信息。同理,后向LSTM会考虑 ωn 到 ωt 之间的上下文信息。最终组合为编码信息


在这里插入图片描述

LSTM解码层
接收来自BiLSTM层的输入,将结果输入最后的softmax层归一化,预测单词标签


在这里插入图片描述

W y为 softmax 矩阵,N t为总标签数,T t为预测标签的向量。

偏置目标函数
训练模型来最大化数据的对数似然,使用的优化方法是由Hinton提出的RMSprop方法。偏置目标函数可定义为:
在这里插入图片描述
其中|D|是训练集大小,Lj是句子xj的长度, y t j y_t^{j} ytj是单词t在句子xj中的标签, p t j p_t^{j} ptj是归一化的标签的概率。I(O)是一个条件函数(switching function),用于区分tag为"O"或其他时的损失。


在这里插入图片描述

α是偏置权重,α越大,关系标注对模型的影响越大。

评估数据集
训练集采用远程监督数据NYT,测试集采用人工标注确保质量。训练集包含353k个三元组,测试集包含3880个三元组,关系集大小为24。采用精确率、召回率和F1分数评估结果。当一个三元组的关系类型和两个实体的头部偏移(个人认为可以理解为位置)都正确时,这个三元组被认为是正确的。从测试集中随机抽取10%的数据作为验证集。对每个实验运行10次取平均值。

超参数
词嵌入使用在NYT训练集上训练的word2vec,维度为300,dropout = 0.5。编码层的LSTM单元为300,解码层的LSTM单元为600。偏置参数α = 10。

补充:
ground-truth在机器学习中比较常见,指的是正确的标注,即"标准答案","正确答案"。
mention是自然文本中表达实体或关系的片段。

Results

本文将提出的方法与管道方法、联合抽取方法及基于本文的标注模式的端到端模型方法进行比较。
在这里插入图片描述可以看出文中的方法比最好的CoType的F1分数提升了3%,另外可以看出,联合抽取模型比管道模型效果要好,标注模型比大部分联合抽取方法效果好。同时也证明了本文提出的标记方法在联合抽取任务中的有效性。
相比传统方法,端到端模型的精确率显著提高,但只有LSTM-LSTM-Bias能够更好的平衡精确率和召回率。原因可能是这些端到端模型都使用了BiLSTM对输入的句子进行编码,使用不同的模型进行解码,而神经网络模型可以更好的拟合这些数据。因此,他们能够很好的学到训练集的共同特征,这可能会导致拓展性降低。作者还发现基于本文的标注方法,LSTM-LSTM模型比LSTM-CRF模型表现更好,因为LSTM能够学习长期依赖关系,而CRF擅长捕捉整个标签序列的联合概率。相关标签之间的距离可能比较远。LSTM-LSTM-Bias增加了一个偏置权重,增强了实体标注的影响,削弱了无意义标注的影响,因此,本文的方法比常见的LSTM解码方法效果更好。

Analysis and Discussion

Error Analysis

为了探究影响端到端模型结果的因素,作者分析了预测三元组每个元素时的表现。E1和E2代表预测两个实体的表现,如果实体的头部偏移正确,则认为实体正确。如果两个实体都正确,则认为(E1, E2)正确。
在这里插入图片描述如表2所示,(E1, E2)相比E1和E2具有更高的精度,但召回结果低于E1和E2。这表明预测时一些实体没有组成实体对,它们只得到E1却没有识别出对应的E2,或只得到E2却没有识别出对应的E1。另外,与表1相比,(E1,E2)的F1提升了3%,这表明测试集有3%的数据因为关系类型的错误而被错误预测

Analysis of Biased Loss

为了进一步分析偏置目标函数对结果的影响,作者可视化了每个端到端模型预测的单一实体的比例,结果表明本文的模型具有较低的单一实体的比例,可以有效的关联两个实体,相比于另外两个模型,对关系标注的关注更多。
在这里插入图片描述
作者还尝试将偏置参数α由1改变至20,预测结果如下图,如果α太大,会影响预测的准确性,如果α太小,会导致召回率下降。当α = 10时,LSTM-LSTM-Bias能够平衡精确率和召回率,能够获得最高的F1分数。
在这里插入图片描述

Case Study

在这里插入图片描述为了阐述端到端方法的优缺点,选择了几个有代表性的例子,每个实例包含三行,第一行是标准答案,第二行和第三行是抽取结果。
S1表示的是两个相互关联的实体距离较远的情况,使得更难发现它们之间的关系。本文的模型采用了偏差目标函数增强了实体之间的相关性,结果显示LSTM-LSTM-Bias模型可以提取两个相关的实体,而LSTM-LSTM模型只能提取"Florida"的一个实体,不能检测到实体" Panama City Beach “。
S2是一个负样本,说明这些方法可能会错误的预测一个实体,” a center of "的模式很容易误导模型。该问题可以通过在训练数据中添加这类表达模式的样本来解决
S3是模型可以正确预测实体,但关系角色是错误的

Conclusions

本文提出了一种新的标记方案,并研究了不同的端到端模型来联合抽取,实验证明了该模型的有效性,但在重叠关系的识别上仍有不足。未来工作中,作者计划用多个分类器代替softmax层,这样一个单词就可以有多个标签,即一个单词可以在多个三元组中。另外,尽管该模型能够增强实体标签的影响,两个对应实体之间的关联仍需要改进。

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值