Classifying Relations via Long Short Term Memory Networks along Shortest Dependency Path

qq_42310607

于 2021-10-08 17:07:57 发布

阅读量640

点赞数

文章标签：自然语言处理神经网络知识图谱

原文链接：https://arxiv.org/abs/1508.03720

版权

基于最短依赖路径的长短期记忆网络关系分类

摘要

关系分类是自然语言处理领域的一个重要研究方向。本文提出了一种新的神经网络SDP-LSTM，用于对句子中两个实体之间的关系进行分类。我们的神经体系结构利用了两个实体之间的最短依赖路径(SDP);具有长短期记忆单元的多通道递归神经网络沿着SDP提取异质信息。该模型具有以下特点:(1)最短的依赖路径保留了大部分相关信息(对关系分类)，同时剔除了句子中不相关的词。(2)多通道LSTM网络允许异构源在依赖路径上进行有效的信息集成。(3)自定义dropout策略对神经网络进行正则化，以缓解过拟合。我们在SemEval2010关系分类任务上测试了我们的模型，获得了83.7%的f1得分，高于文献中竞争方法。

一、引言

关系分类是自然语言处理的一项重要任务。在信息抽取(Wu and Weld, 2010)、问答(Yao and Van Durme, 2014)、医学信息学(Wang and Fan, 2014)、本体学习(Xu et al.， 2014)等场景中，它发挥着关键作用。关系分类的目的是将给定文本中标记实体对之间的关系分类为预定义的类。例如，在这句话“一万亿加仑的[水]e1已经被倒进了外太空的一个空旷的[区域]e2中，”两个实体water和region是关系的实体-目的地(e1, e2)。传统的关系分类方法很大程度上依赖于特征表示(Kambhatla, 2004)或内核设计(Zelenko等人，2003;Bunescu and Mooney, 2005)。前一种方法通常包含大量的特征;如果没有很好地选择特性集，就很难提高模型性能。另一方面，后一种方法很大程度上依赖于设计的内核，它总结了所有的数据信息。深度神经网络是近年来兴起的一种高度自动化的特征学习方法(Bengio et al.， 2013)，并显示出相当大的潜力(Zeng et al.， 2014;Santos等人，2015)。然而，人类工程——也就是将人类的知识整合到网络的结构中——仍然是重要和有益的。本文提出了一种新的用于关系分类的神经网络SDP-LSTM。该模型利用了句子中两个实体之间的最短依赖路径(SDP);我们还设计了一种基于长短期记忆(LSTM)的递归神经网络用于信息处理。神经结构主要受到以下观察的启发。

•最短的依赖路径是有用的(Fundel et al.， 2007;陈等，2014)。为了确定两个实体的关系，我们发现只使用SDP上的单词就足够了:它们集中于最相关的信息，同时减少不相关的噪声。图1描述了上述句子的依赖关系解析树。沿着SDP的单词形成原句的精简短语(加仑水倒进区域)，传达了目标关系的大量信息。换句话说，如一万亿外太空，信息量更少，如果处理不当可能带来噪音。

•方向很重要。依赖树是一种有向图。区域与区域之间的依赖关系;如果有向边是反向的，这种关系几乎没有任何意义。此外，实体的关系区分了其方向性，即r(a, b)与r(b, a)不同，对于相同的给定关系，两个实体a, b。因此，我们认为有必要让神经模型以方向性敏感的方式处理信息。出于这个考虑，我们将一个SDP分成两个子路径，每个子路径从一个实体到共同的祖先节点。沿着这两条子路径提取的特征被连接起来进行最终分类。

•语言信息帮助。例如，根据对上下义的先验知识，我们知道“水是一种物质”。这是一个暗示，实体，水和区域，更多的是实体-目的地关系，而不是，比如说，交流-主题。为了沿着SDP收集异构信息，我们设计了一个多通道递归神经网络。它利用了来自各种来源的信息，包括单词本身、POS标签、WordNet上位词，以及管理单词及其子单词之间的语法关系。

为了有效的信息传播和集成，我们的模型在循环传播期间利用LSTM单元。我们还为SDP-LSTM网络定制了一个新的dropout策略，以缓解过拟合问题。据我们所知，我们是第一个使用基于lstm的递归神经网络进行关系分类任务的。

在SemEval 2010关系分类任务中，我们评价了我们提出的方法，获得了83.7%的f1得分，高于文献中竞争方法。

在本文的其余部分，我们将在第2节回顾相关工作。在第3节中，我们详细描述了我们的SDP-LSTM模型。第四节给出定量实验结果。最后，我们在第五部分得出结论。

二、相关工作

关系分类是自然语言处理领域广泛研究的课题。现有的方法主要分为三类:基于特征的、基于核的和基于神经网络的。

在基于特征的方法中，不同的特征集被提取并提供给选择的分类器(例如，逻辑回归)。一般情况下，通常使用三种类型的特征。词汇特征集中在感兴趣的实体上，如实体本身、实体POS、实体邻近信息等。句法特征包括分块、解析树等。语义特征通过概念层次结构、实体类、实体提及来体现。Kambhatla(2004)使用最大熵模型将这些特征结合起来进行关系分类。然而，不同的手工特性集在很大程度上是相互补充的(例如，上位词与POS)，因此很难以这种方式提高性能(Zhou et al.，2005)。

基于核的方法指定了两个数据样本之间的一些相似性度量，而没有明确的特征表示。Zelenko等人(2003)利用两棵树的公共子树计算两棵树的相似性。Bunescu和Mooney(2005)提出了一种用于关系分类的最短路径依赖核。它的主要思想是，这种关系强烈依赖于两个给定实体之间的依赖路径。Wang(2008)对几种核进行了系统的分析，并指出将卷积核与句法特征相结合可以使关系提取受益。Plank和Moschitti(2013)在只考虑结构信息的基础上，将语义信息引入到内核方法中。核方法的一个潜在难点是所有的数据信息都是通过核函数(相似度度量)进行总结的，因此设计一个有效的核变得至关重要。

深度神经网络是近年来兴起的一种能够自动学习底层特征的网络，受到了越来越多的关注。Socher等人(2011)提出了一种沿着句子解析树的递归神经网络(RNN)用于情感分析;该模型还可以用于对关系进行分类(Socher et al.， 2012)。Hashimoto等人(2013)明确加权短语在rnn中的重要性，以提高性能。Ebrahimi和Dou(2015)在两个标记实体之间的依赖路径上重建RNN。Zeng等人(2014)研究了卷积神经网络，利用句子的顺序信息。Santos等人(2015)也使用了卷积网络;在SemEval-2010 Task 8中，他们提出了一个具有数据清洗功能的排序损失函数，并取得了最先进的结果。

除了上述主要关注关系分类方法和模型的研究外，其他相关的研究趋势包括半监督方式从Web文档中提取信息(Bunescu和Mooney,2007;Banko et al.，2007)，通过远程监督技术处理没有足够标签的小数据集(Mintz et al.，2009)等。

三、SDP-LSTM模型

在本节中，我们将详细描述我们的SDP-LSTM模型。第3.1小节描述了我们模型的总体架构。第3.2节介绍了使用SDP的基本原理。沿着SDP的四种不同的信息通道在第3.3节中进行了解释。3.4小节介绍了基于依赖路径的长短期记忆递归神经网络。第3.5小节为我们的网络定制一个dropout策略，以缓解过拟合。我们最后在第3.6小节提出了我们的培训目标。

3.1 综述

图2描述了我们的SDP-LSTM网络的总体架构。

首先，由斯坦福解析器将句子解析为依赖树，然后提取最短依赖路径(SDP)作为网络的输入。沿着SDP，四种不同类型的信息被作为通道使用，包括单词、POS标签、语法关系和WordNet上位词。(参见图2)。在每个通道中，离散的输入，例如单词，被映射到实值向量，称为嵌入，它捕获输入的潜在含义。

两个递归神经网络(图2b)分别沿着SDP的左右子路径拾取信息。(路径由两个实体的共同祖先节点分隔。)长短期记忆(LSTM)单元用于循环网络中有效的信息传播。然后最大池化层从每个路径的LSTM节点收集信息。

来自不同通道的池化层被连接起来，然后连接到一个隐藏层。最后，我们有一个用于分类的softmax输出层。(再次参见图2a。)

3.2 最短的依赖路径

依赖解析树自然适合于关系分类，因为它关注的是句子中的动作和代理(Socher et al.，2014)。此外，如第1节所讨论的，实体之间的最短路径浓缩了最有启发性的实体关系信息。

我们还观察到，由两个实体的共同祖先节点分隔的子路径，为关系的方向性提供了强有力的提示。以图1为例。两个实体water和region有它们共同的祖先节点倾倒，它将SDP分成两部分:

第一个子路径获取e1的信息，而第二个子路径主要是关于e2的信息。通过分别检查这两个子路径，我们知道e1和e2是实体-目的地(e1,e2)关系，而不是实体-目的地(e2, e1)关系。

根据上述直觉，我们设计了两个递归神经网络，它们自下而上地从实体传播到它们共同的祖先。通过这种方式，我们的模型是方向敏感的。

3.3 通道

我们利用四种类型的信息沿着SDP进行关系分类。我们称它们为通道，因为这些信息源在循环传播期间不相互作用。详细的通道描述如下。

•单词表示。通过查询单词嵌入表，将给定句子中的每个单词映射到实值向量。在大型语料库上进行无监督训练的词语嵌入被认为能够很好地捕捉词语的句法和语义信息(Mikolov et al.， 2013b)。

•词性标记。由于词嵌入是在一个大规模的通用语料库上获得的，因此其包含的信息可能与特定的句子不一致。我们处理这个问题的方法是将每个输入的单词与其词性标记(例如名词、动词等)联合起来。在我们的实验中，我们只使用了一个粗粒度的POS类别，其中包含15个不同的标签。

•语法关系。统治词和它的子词之间的从属关系造成了意义上的差异。同一个词对可能有不同的依赖关系类型。例如“beats-nsubj→it”与“beats-dobj→it”是不同的。因此，有必要在SDP中捕捉这种语法关系。在我们的实验中，语法关系被分为19类，主要基于粗粒度分类(De Marneffe et al.，2006)。

•WordNet上位词。如第1节所示，上下义信息对关系分类也很有用。(此处不再赘述。)为了利用WordNet上位词，我们使用了Ciaramita和Altun(2006)开发的工具。该工具从WordNet中的41个预定义概念(如名词)中为每个词指定一个上位词。食物,动词。运动等。有了上名，每个词都有了一个更抽象的概念，这有助于在不同但概念相近的词之间建立联系。

正如我们所看到的，POS标记、语法关系和WordNet上位词也是离散的(就像单词本身一样)。然而，目前还没有针对POS标签的嵌入学习方法。因此，我们随机初始化它们的嵌入，并在训练期间以有监督的方式调整它们。我们注意到，这些信息源包含的符号(15、19和41)比词汇量(大于25,000)少得多。因此，我们认为我们的随机初始化策略是可行的，因为它们可以在有监督的训练中得到充分的调优。

3.4 LSTM

递归神经网络本质上适合于序列数据的建模，因为它保留了一个隐藏状态向量，并且在每一步都随着输入数据的变化而变化。我们使用递归网络沿着SDP中的每个子路径收集信息(图2b)。

对于子路径中的第t个单词的隐藏状态是它以前的状态ht-1和当前单词xt的函数。传统递归网络具有基本的相互作用，即输入由权矩阵线性变换，并由激活函数非线性压缩。形式上,我们有

其中，Win和Wrec分别为输入连接和递归连接的权值矩阵。bh是隐藏状态向量的偏置项，fh是非线性激活函数(例如，tanh)。

上述模型的一个问题是梯度消失或爆炸。神经网络的训练需要梯度反向传播。如果传播序列(路径)太长，梯度可能会按指数增长或衰减，这取决于Wrec的大小。这就导致了训练的困难。

Hochreiter(1998)提出了长短期记忆(LSTM)单元来解决这一问题。其主要思想是引入一种自适应门控机制，该机制决定LSTM单元在多大程度上保持了之前的状态，并记住了提取的当前输入数据的特征。文献中提出了许多LSTM变体。我们在我们的方法中采用了Zaremba和Sutskever(2014)引入的变体，Zhu等人(2014)也使用了该变体。

具体来说，基于lstm的递归神经网络包括四个组成部分:输入门it、遗忘门ft、输出门和记忆细胞(如图3所示，并通过公式1-6进行了形式化，如下图所示)。

三个自适应门it,ft和ot取决于先前的状态ht-1和电流输入xt(公式1 - 3)。根据公式4计算提取的特征向量gt作为候选记忆单元。

当前记忆细胞ct是先前细胞内容ct−1和候选内容gt的组合，分别由输入门it和遗忘门ft加权。(见下式5)

LSTM单元的输出为递归网络的隐藏状态，由式6计算得到。

式中，σ为二阶函数，⊗为逐元乘法。

3.5 Dropout

需要一种良好的正则化方法来缓解过拟合。Dropout是由Hinton等人(2012)最近提出的，在前馈网络中已经非常成功。通过在训练过程中随机地从网络中省略特征检测器，可以获得无相互依赖的网络单元，从而获得更好的性能。然而，传统的dropout算法在带有LSTM单元的递归神经网络中并不能很好地工作，因为dropout可能会损害记忆单元的宝贵记忆能力。

由于文献中关于如何退出LSTM单元没有共识，我们尝试了以下几种Dropout策略，用于SDP-LSTM网络:

•Dropout embeddings

•在记忆单元内部Dropout，包括it、gt、ot、ct、ht

•在倒数第二层进行Dropout

正如我们将在第4.2节中看到的，放弃LSTM单元对我们的模型是不利的，而其他两种策略可以提高性能。

下面的方程形式化了嵌入层上的Dropout操作，其中D表示退出算子。嵌入向量xt中的每个维度都设置为零，并具有预定义的Dropout率。

3.6 训练目标

上面描述的SDP-LSTM沿着从实体到(两个实体的)共同祖先节点的子路径传播信息。最大池化层将每个子路径的递归网络状态h打包成一个固定的向量，方法是在每个维度取最大值。

这种体系结构适用于所有通道，即单词、POS标记、语法关系和WordNet上位词。这些通道中的池向量被连接起来，并提供给一个完全连接的隐藏层。最后，我们添加了一个用于分类的softmax输出层。训练目标为惩罚交叉熵误差，为

其中t∈Rnc为one-hot编码表示的ground truth（正确的数据）, y∈Rnc为softmax对每个类的估计概率。||·||F为矩阵的Frobenius范数，ω和υ为权重矩阵的个数(分别为W和U)。λ是一个超参数，它指定权重惩罚的大小。注意，我们没有在偏置参数中增加l2惩罚。

我们在英语维基百科语料库上通过word2vec (Mikolov et al.， 2013a)预先训练单词嵌入;其他参数是随机初始化的。我们使用随机梯度下降(minibatch 10)进行优化;梯度是通过标准的反向传播来计算的。培训细节将在第4.2节中进一步介绍。

四、实验

在本节中，我们将详细介绍我们的实验。我们的实施建立在Mou et al.(2015)的基础上。4.1节介绍了数据集;4.2节描述了超参数设置。在4.3节中，我们比较了SDP-LSTM与文献中其他方法的性能。在4.4节中我们也分析了不同渠道的效果。

4.1 数据集

SemEval-2010 Task 8数据集是关系分类中广泛使用的基准(Hendrickx et al.， 2010)。数据集包含8000个用于训练的句子，2717个用于测试的句子。我们从训练集中分离出1/10的样本用于验证。

目标包含19个标签:9个有向关系和一个无向Other类。有向关系列表如下。

•因果关系

•组件-整体

•内容-容器

•实体-目的地

•实体-起源

•消息-主题

•成员-集合

•工具-代理

•产品-生产商

下面是两个有向关系的例句。

数据集还包含一个无向Other类。因此总共有19个目标标签。无向Other类不属于上述类别的实体，如下例所示。

我们使用官方的f1宏观平均分数来评估模型的表现。这个官方测量不包括“其他关系”。但是在我们的实验中并没有特别对待Other 类，这在其他研究中是很典型的。

4.2 超参数和训练细节

本节介绍了我们模型的超参数调优。我们将单词嵌入设定为200维;词性、词网上下义和语法关系嵌入有50个维度。LSTM网络的每个信道包含与其源嵌入相同数量的单元(200或50)。倒数第二个隐藏层是100维的。由于对所有超参数进行全网格搜索是不可行的，所以以上数值的选取是经验的。

我们为系数为10-5的权重添加l2惩罚，这是通过验证从集合{10-2,10-3，…，10-7}中选择的。

我们随后验证了3.5节中提出的Dropout策略。由于不同信道中的网络单元在信息传播过程中没有相互作用，因此我们选取LSTM网络中的一个信道来评估效能。以单词channel为例，我们首先去掉单词嵌入。然后在词嵌入Dropout率固定的情况下，分别测试LSTM内单元和倒数单元的Dropout率。

我们发现，LSTM单元的Dropout率会对模型造成伤害，即使Dropout率很小，如0.1(图4b)。嵌入上的Dropout使模型性能提高了2.16%(图4a);倒数第二层的Dropout进一步提高了0.16%(图4c)。这一分析也为其他研究提供了LSTM网络中dropout的一些线索。

4.3 结果

表4比较了我们的SDP-LSTM与其他最先进的方法。表中的第一个条目展示了传统特征工程实现的最高性能。Hendrickx等人(2010)利用各种手工特征，并使用SVM进行分类，f1得分为82.2%。

神经网络首次用于这项任务是在Socher等人(2012)。他们沿着选区树建立递归神经网络(RNN)进行关系分类。他们将基本RNN扩展为矩阵-向量交互，f1得分为82.4%。

Zeng et al.(2014)将句子作为序列数据，利用卷积神经网络(CNN);他们还将单词位置信息整合到他们的模型中。Santos等人(2015)设计了一个名为CR-CNN的模型;他们提出了一个基于排名的成本函数，并精心减少了“other类”的影响，而“other类”在官方的f1测量中没有被计算在内。通过这种方式，他们取得了最先进的结果，f1得分为84.1%。如果没有这样的特殊待遇，他们的f1得分是82.7%。

Yu等人(2014)提出了一种用于关系分类的特征丰富的成分嵌入模型(FCM)，该模型结合了非词汇化的语言上下文和单词嵌入。他们的f1得分为83.0%。

我们提出的SDP-LSTM模型的f1得分为83.7%。在具有交叉熵误差的softmax条件下，该方法优于现有的竞争方法。

值得注意的是，我们还进行了两个对照实验:(1)不含LSTM单元的传统RNN, f1得分为82.8%;(2) LSTM网络覆盖整个依赖路径(而不是两个子路径)，f1得分为82.2%。这些结果证明了LSTM在关系分类中的有效性和方向性。

4.4 不同渠道的影响

本小节分析了不同的渠道如何影响我们的模型。我们首先使用单词嵌入作为基线;然后分别添加POS标签、语法关系和WordNet上位词;我们还将所有这些通道合并到我们的模型中。请注意，我们并没有单独尝试后三个通道，因为每一个通道(例如，POS)并不携带太多信息。

从表2中可以看出，SDP-LSTM单词嵌入的性能达到了82.35%，而CNN 69.7%， RNN 74.9-79.1%，FCM 80.6%。

添加语法关系或WordNet上位词比其他现有方法性能更好(这里不考虑数据清理)。POS标签的信息量相对较小，但仍能使f1得分提高0.63%。

我们注意到，当通道合并时，增益并不是简单地添加。这表明这些信息源在语言的某些方面是互补的。然而，综合上述四个渠道，f1得分将进一步升至83.70%。

五、结论

本文提出了一种新的用于关系分类的神经网络模型SDP-LSTM。它沿着最短的依赖路径迭代地学习关系分类的特征。沿着路径使用几种类型的信息(单词本身、POS标记、语法关系和WordNet上位词)。同时，我们利用LSTM单元进行远程信息传播和集成。我们通过在SemEval-2010关系分类任务上对SDP-LSTM模型进行评估，证明了SDP-LSTM的有效性，优于现有的先进方法(在没有数据清理的公平条件下)。我们的结果为以下关系分类任务提供了一些启示。

•最短依赖路径是关系分类的宝贵资源，涵盖了目标关系的大部分充分信息。

•由于自然语言固有的歧义性和句子表达的多样性，分类关系是一项具有挑战性的任务。因此，整合异质语言知识对完成任务是有帮助的。

•将最短的依赖路径视为两个子路径，映射两个不同的神经网络，有助于捕捉关系的方向性。

•LSTM单元能够有效地沿着最短的依赖路径进行特征检测和传播。