一、Background
实体和关系的联合抽取是从非结构化文本中同时抽取提到的实体以及实体之间的关系。如图一所示。与开放域的信息抽取不同,从给定句子中抽取关系词;而在这个任务中, 关系词来源于预定义好的关系集中,可能在句子中并没有直接出现,是隐含关系,需要模型挖掘出来。
传统的方法是pipeline做的:首先抽取实体然后识别它们的关系。这种分离的框架使得任务更容易处理,每个组件也变得更灵活。但pipeline方法忽略了两个任务的相关性。命名实体识别的结果会影响关系抽取模型的性能,导致错误传播。
与pipeline方法不同,联合抽取方法是在一个模型中同时抽取实体及实体间的关系。这种方法可以有效地整合实体和关系的信息,在这个任务上也达到了state-of-the-art的效果。然而,目前大多数联合方法太依赖特征工程。后续也有端到端的方法,但是分离地抽取实体和关系,产生信息冗余。
二、Motivation
- pipeline方法会有错误传播,忽略了两个任务的相关性;
- joint方法依赖特征工程,分离地抽取实体及其关系;
因此,作者提出一个端到端的以及新颖的标注机制来解决以上问题。作者设计了一个标注机制同时结合实体和关系的信息,基于这个标注机制,联合抽取方法可以转化为序列标注问题。我们可以用神经网络来建模,不依赖于特征工程。
三、Model
作者提出了一种新的标注方法和具有偏向目标函数的端到端模型, 以共同抽取实体及其关系。
3.1 The Tagging Scheme
标注方法如图二所示。每个单词都分配了一个标签,有助于提取结果。‘O’表示‘Other’标签,这意味着相应的单词与提取的结果无关。除了‘O’之外,其它标签包含三部分:实体中的单词位置,关系类型,关系角色。NER使用‘BIES’(Begin,Inside,End,Single)标注机制。关系类型是预定义集合中的。关系角色用数字‘1’和‘2’表示,‘1’表示三元组的第一个实体,‘2’表示三元组的第二个实体。因此总的标签数为:
N
t
=
2
∗
4
∗
∣
R
∣
+
1
N_t=2*4*|R|+1
Nt=2∗4∗∣R∣+1,|R|是预定义关系集的大小。
3.2 From Tag Sequence To Extracted Results
从图二的例子中,我们可以得到两个三元组:(United States,Country-President,Trump),(Apple Inc, Company-Founder, Steven Paul Jobs)。如果句子中包含两个或两个以上的三元组有相同的关系,比如例子中的‘Country-President’关系变为‘Company-Founder’,那么句子中就会有四个实体存在相同的关系。‘United States’与‘Trump’距离更近,‘Apple Inc’与‘Jobs’距离更近,所以最终结果为:(United States,Company-Founder,Trump),(Apple Inc, Company-Founder, Steven Paul Jobs)
&emsp:在论文中,作者只考虑一个实体属于一个三元组的情况,对于关系重叠作为未来的工作。
3.3 The End-to-end Model
在最近的研究中,基于神经网络的端到端模型已经广泛用于序列标注任务。在本文中,作者研究了一个端到端模型来生成标签序列,如图3所示。包含双向LSTM层、基于LSTM的解码层,偏向loss。
- The Bi-LSTM Encoding Layer: 通过双向LSTM捕获每个单词的语义信息。
- The LSTM Decoding Layer: 作者采用LSTM结构来生成标签序列。当预测单词
w
t
w_t
wt的标签时,解码层的输入是:双向LSTM的隐藏层状态
h
t
h_t
ht ,上一个标签向量
T
t
−
1
T_{t-1}
Tt−1,上一个门控单元
c
t
−
1
c_{t-1}
ct−1,解码层的上一个隐藏层状态
h
t
−
1
h_{t-1}
ht−1。
最终的softmax层基于标签预测矢量 T t T_t Tt计算标准化实体标签概率:
- The Bias Objective Function: 模型优化的目标函数如下:
其中 ∣ D ∣ |D| ∣D∣是训练集大小, L j L_j Lj是句子 x j x_j xj的长度, y t ( j ) y_t^{(j)} yt(j)是句子 x j x_j xj中的单词 w t w_t wt, p t ( j ) p_t^{(j)} pt(j)标签的正则化概率, I ( O ) I(O) I(O)是一个转换函数,用于区分标记“O”和可以指示结果的关系标记的丢失, α \alpha α是偏向权重, α \alpha α越大,关系标签对模型的影响越大。
四、Experiment
- 数据集: NYT数据集
- 评价指标: 精准率、召回率、F1
- Baselines: 比较的方法:pipeline方法,joint方法,作者的方法。
下面这个图是作者关于biased loss 的分析。biased loss是为了加强实体之间的联系。单一实体表示无法找到他们对应的实体。可以看到作者的方法可以降低单一实体的比率。
五、Conclusion
- 提出了一种新的标记方案来联合抽取实体和关系,可以很容易地将抽取问题转换为标注问题。
- 基于标注的方法性能优于大多数的pipeline和joint方法。
- 此外,作者还设计了具有偏差损失功能的端到端模型,以适应新的标注机制。 它可以增强相关实体之间的关联。
- 本文的缺点在于无法解决关系重叠的问题:一个实体和其它实体具有多关系。作者在future work也提到了可以用多标签分类器(比如sigmoid)代替softmax。而且,就作者提出的模型架构来说,个人觉得并没有将NER和RE有效地联系起来,只是将NER和RE都投射到同一标注空间当中。