论文阅读笔记----《Chains of Reasoning over Entities, Relations, and Text usingRecurrent Neural Networks》

今天阅读一篇多跳推理方面比较早期的文章。

论文题目----《使用递归神经网络的实体、关系和文本推理链》

Abstract

我们的目标是将符号逻辑推理的丰富多步推理与神经网络的泛化能力相结合。我们对文本和大规模知识库 (KB) 中的实体和关系的复杂推理特别感兴趣。尼拉坎坦等人。 (2015) 使用 RNN 以 KB 组成多跳路径的分布式语义;但是由于多种原因,该方法缺乏准确性和实用性。本文提出了三个重要的建模进展:(1)我们学习联合推理关系、实体和实体类型; (2) 我们使用神经注意力模型来整合多条路径; (3) 我们学习在一个代表所有关系的逻辑组合的单个 RNN 中共享强度。在大规模 Freebase+ClueWeb 预测任务中,由于共享强度,我们实现了 25% 的错误减少和 53% 的稀疏关系错误减少。在 WordNet 中的推理链上,与之前的最新技术相比,我们将平均分位数的误差减少了 84%。

1 Introduction

人们越来越关注扩展神经网络以执行更复杂的推理,以前只能通过符号和逻辑推理系统来解决。到目前为止,这项工作主要集中在小数据或合成数据上(Grefenstette,2013;Bowman 等人,2015;Rocktäschel 和 Riedel,2016)。我们的兴趣主要在于推理具有不同语义的大型知识库(KB),由文本填充。从文本中填充 KB(以及在 KB 中表示不同语义)的一种方法是 Universal Schema(Riedel 等人,2013;Verga 等人,2016),它学习向量嵌入,捕获关系类型的语义定位 -所有输入关系类型的联合,包括来自多个结构化 KB 的模式,以及自然语言文本中的关系表达。

填充 KB 的一个重要原因是不仅支持查找式问答,还支持对其实体和关系的推理,以便进行不直接存储在 KB 中的推理。知识库通常是高度不完整的(Min et al., 2013),推理可以填补这些缺失的事实。因此,作为通用模式通用实现基础的“矩阵补全”机制可以被视为一种简单的推理类型,就像张量分解中的其他工作一样(Nickel 等人,2011;Bordes 等人,2013;Socher 等人) ., 2013)。然而,这些方法可以理解为对单个证据进行操作:例如,推断 Microsoft-located-in-Seattle 意味着 Microsoft-HQ-in-Seattle。

一种非常理想的、更丰富的推理风格从 Horn 子句进行推理,这些子句形成包含 KB 实体关系图中的三个或更多实体的多跳路径。例如,我们可能没有证据直接将梅琳达·盖茨和西雅图联系起来,但是,通过观察 KB 包含路径梅琳达-配偶-比尔-主席-微软-,我们可以推断出梅琳达-住在-西雅图的可能性。西雅图总部(图 1a)。

这种形式的符号规则是通过路径排序算法 (PRA) (Lao et al., 2011) 学习的。通过推理路径可以获得泛化的显着改进,而不是根据关系符号,而是通用模式样式关系-矢量嵌入。这是由 Neelakantan 等人完成的。 (2015),其中 RNN 在语义上沿任意长度的路径组合每条边的关系嵌入,并输出一个向量嵌入,表示路径端点处两个实体之间的推断关系。因此,这种方法代表了使用神经网络对 Horn 子句链进行复杂推理的关键示例。然而,由于下面详述的多种原因,它是不准确和不切实际的。

本文介绍了多种建模进展,这些进展显着提高了大规模 KB 中 Horn 子句链上基于 RNN 的推理的准确性和实用性。 (1) 以前的工作,包括 (Lao et al., 2011; Neelakantan et al., 2015; Guu et al., 2015) 对关系链进行推理,而不是对形成路径节点的实体进行推理。忽略实体和实体类型会导致频繁的错误,例如推断洋基体育场是纽约州的交通枢纽。在我们的工作中,我们共同学习和推理关系类型、实体和实体类型。 (2) 相同的先前工作仅采用单一路径作为推断新预测的证据。然而,如图 1b 所示,多条路径可以为预测提供证据。在我们的工作中,我们使用神经注意力机制来推理多条路径。我们使用了一种新颖的池化函数,它在梯度步骤中进行软注意力,并发现它工作得更好。 (3) 上述工作在具有广泛语义的知识库中应用的最大不切实际问题是他们需要为每个要预测的关系类型训练一个单独的模型。相比之下,我们训练了一个可以预测所有关系类型的单一大容量 RNN。除了效率优势外,我们的方法还显著提高了准确性,因为训练的多任务性质在通用RNN参数中具有优势。

我们在 Freebase 实体、关系和 ClueWeb 文本的大规模数据集上评估我们的新方法。与该数据的先前最佳值相比,我们的平均精度 (MAP) 误差减少了 25%。在专门设计用于探索与单个 RNN 共享强度的好处的实验中,我们展示了仅在训练时稀疏可用的关系的 54% 错误减少。我们还评估了第二个数据集,即 WordNet 中的推理链。与之前的最新技术(Guu 等人,2015)相比,我们的模型在平均分位数上实现了 84% 的误差减少。

2 Background

在本节中,我们介绍了 Neelakantan 等人的组合模型(Path-RNN)。 (2015).Path-

模型输入两个实体之间的路径并推断它们之间的新关系。通过将它们与递归神经网络 (RNN) 组合,非原子地对任意长度路径中的关系的连接进行推理。路径的表示由处理路径中所有关系后获得的 RNN 的最后一个隐藏状态给出。

设 (e_{s},e_{t}) 是一个实体对,S 表示它们之间的路径集。集合 S 是通过在知识图中从 es 到 et 进行随机游走获得的。设 π = \left \{ e_{s},r_{1},e_{1},r_{2},...,r_{k},e_{t} \right \}\in S表示 (e_{s},e_{t})之间的路径。路径的长度是其中关系的数量,因此,。让表示 r_{t}的向量表示。Path-RNN 模型使用一个 RNN 顺序组合 π 中的所有关系,其中在步骤 t 给出的中间表示由下式给出 

 是 RNN 的参数。这里 r 表示查询关系。 Path-RNN 有一个专门的模型来预测每个查询关系 r,每个 r 都有单独的参数 。 f 是 sigmoid 函数。路径的向量表示是最后一个隐藏状态 hk。 yπ 与查询关系向量 yr 的相似度计算为它们之间的点积 

 在知识图中,实体对可能有多个连接它们的路径(图 1b)。 PathRNN 通过计算实体对  参与查询关系 的概率,

 其中 σ 是 sigmoid 函数。

路径 RNN 和其他模型,例如路径排名算法 (PRA) 及其扩展(Lao 等人,2011;Lao 等人,2012;Gardner 等人,2013;Gardner 等人,2014)使其不切实际用于下游应用程序,因为它需要为每种关系类型训练和维护一个模型。此外,参数不会在多个目标关系类型之间共享,导致要从训练数据中学习大量参数。

在 (3) 中,Path-RNN 模型选择实体对之间的最大评分路径进行预测,可能会忽略来自其他重要路径的证据。这不仅浪费了计算(因为无论如何我们都必须为所有路径计算前向传递),而且所有其他路径中的关系在训练期间也没有得到任何梯度更新,因为最大操作对所有其他路径返回零梯度除了最高得分的路径。这在训练的初始阶段尤其无效,因为最大可能路径将是随机的。

Path-RNN 模型和其他多跳关系提取方法(如 Guu et al. (2015))忽略了路径中的实体。考虑以下路径 JFK–locatedIn– NYC–locatedIn–NY 和 Yankee Stadium–locatedIn–纽约–位于–纽约。为了预测机场服务关系,Path-RNN 模型为两条路径分配相同的分数,即使第一条路径应该排名更高。这是因为模型没有关于实体的信息,只是使用路径中的关系进行预测。

3 Modeling Approach

3.1 Shared Parameter Architecture

上一节讨论了与每个关系建模方法相关的问题。作为回应,我们在所有目标关系中共享 RNN 的关系类型表示和组合矩阵,从而减少相同训练数据的参数数量。我们将此模型称为单模型。请注意,这只是具有底层共享参数架构的目标关系类型预测中的多任务学习(Caruana,1997)。 (1) 中的 RNN 隐藏状态现在由下式给出:

 读者应注意,这里的参数与每个目标关系 r 无关。

Model Training

我们使用知识库中现有的观察到的事实(三元组)作为正例,将未观察到的事实作为反例来训练模型。令 R=表示我们训练的所有查询关系类型的集合。令表示 R 中所有关系类型的正负三元组的集合。模型的参数经过训练以最小化数据的负对数似然。

 这里 M 是训练示例的总数,Θ 表示模型的所有参数的集合(嵌入查找表(共享)和 RNN 的参数(共享))。应该注意的是,Path-RNN 模型对于每个关系 r P R 都有一个单独的损失函数,它只依赖于数据的相关子集。

3.2 Score Pooling

在本节中,我们介绍了新的分数池方法,该方法考虑了实体对之间的多条路径。让是连接实体对的 N 条路径的相似度得分(等式 2)。实体对 参与关系 r(等式 3)的概率现在由下式给出,

1. Top-(k):“max”方法的直接扩展,我们平均前 k 个评分路径。让 K 表示前 k 个评分路径的索引。

 2.平均:这里的最终得分是所有路径得分的平均值。

 3. LogSumExp:在这种方法中,池化层是“max”函数的平滑近似 - LogSumExp (LSE)。给定一个分数向量,LSE 计算为

因此三元组的概率是

平均和 LSE 池化函数在推理期间将非零权重应用于所有路径。然而,实体对之间只有少数路径可以预测查询关系。自 以来,LSE 有另一个理想的属性。这意味着在反向传播步骤中,每条路径都将收到与其分数成比例的梯度份额,因此这是梯度步骤中一种新颖的神经注意力。相反,对于平均,每条路径将获得相等的份额的梯度。 Top-(k)(类似于 max)接收稀疏梯度。

 3.3 Incorporating Entities

合并实体的一种直接方法是包含实体表示(连同关系)作为 RNN 的输入。然而,学习实体的单独表示有一些缺点。实体出现的分布是重尾的,因此很难学习很少出现的实体的良好表示。为了缓解这个问题,我们使用 KB 中存在的实体类型,如下所述。

大多数知识库都有实体的注释类型,每个实体可以有多种类型。例如,梅琳达·盖茨有 CEO、杜克大学校友、慈善家、美国公民等类型。我们通过简单的实体类型表示相加得到实体表示。实体类型表示是在训练期间学习的。我们将实体的实体类型数量限制为 KB 中最常出现的 7 种类型。让表示实体 et 的表示,那么 4 现在变成

是用于投影实体表示的新参数矩阵。图 2 显示了我们的模型,其中包含实体(微软、美国)之间的示例路径,其中 countryOfHQ(总部所在国家/地区)作为查询关系。

 4 Related Work

SHERLOCK (Schoenmacers et al., 2010) 和 路径排序算法 (PRA) (Lao et al., 2011) 是关于提取子句和路径推理的两项早期工作。 SHERLOCK 通过详尽探索长度增加的关系路径来提取纯符号子句。 PRA 用随机游走代替穷举搜索。观察到的路径用作每个目标关系二元分类器的特征。老挝等人。 (2012)通过使用观察到的文本模式增强 KB 模式关系来扩展 PRA。然而,这些方法并不能很好地推广到从 KB 的随机探索中获得的数百万条不同的路径,因为每个唯一路径都被视为单例,其中路径之间没有共性被建模。作为回应,PRA 中使用了预训练的向量表示来解决特征爆炸问题(Gardner 等人,2013;Gardner 等人,2014),但仍然依赖于使用原子路径特征的分类器。Yang 等人。 (2015) 也提取了喇叭规则,但它们将其限制为 3 的长度并且仅限于模式类型。曾等人。 (2016)通过将包含一个实体的句子通过路径连接起来,显示了关系提取的改进。

顾等人。 (2015)通过对路径中关系矩阵之间的加法和乘法交互进行建模来引入新的组合技术。然而,与我们考虑多条路径的能力相比,它们仅对实体对之间的一条路径进行建模。图塔诺瓦等人。 (2016)通过对路径中的中间实体进行额外建模和对多条路径进行建模来改进它们。然而,在他们的方法中,他们必须为所有实体对存储中间路径长度的分数,这使得在我们拥有超过 3M 实体对的环境中使用它是令人望而却步的。他们还将实体建模为标量权重,而我们同时学习实体和类型表示。最后,Neelakantan 等人已经证明了这一点。 (2015)非线性组合函数在关系提取任务中优于线性函数(如他们所使用的)。

通过在句子级别 (Roth and Yih, 2007; Singh et al., 2013) 和 KB 关系提取 (Chang et al., 2014) 中结合候选实体的实体类型,关系提取方法的性能得到了改进,以及学习蕴含规则(Berant et al., 2011)。塞尔班等人。 (2016) 使用 RNN 从 Freebase 生成事实问题。

5 Results

Data and Experimental Setup

我们将我们的模型应用于 Neelakantan 等人发布的数据集。 (2015),它是 Freebase 的一个子集,富含来自 ClueWeb 的信息。数据集由一组三元组 (e1, r, e2) 以及连接知识图中实体对 (e1,e2) 的一组路径组成。从 ClueWeb 中提取的三元组由包含与 Freebase 相关联的实体的句子组成(Orr 等,2013)。句子中两个实体之间的短语形成关系类型。为了限制文本关系的数量,我们保留了第一个实体之后的两个单词和第二个实体之前的两个单词。我们还从 Freebase 收集实体类型信息。表 2 总结了一些重要的统计数据。对于 PathQA 实验,我们使用 Guu 等人发布的 WordNet 数据集的相同训练/开发/测试拆分。 (2015),因此我们的结果与他们直接可比。 WordNet 数据集只有 22 种关系类型和 38194 个实体,比我们用于关系提取任务的数据集少一个数量级。

关系类型表示和 RNN 隐藏状态的维度是 ,实体和类型嵌入有个维度。 Path-RNN 模型将 sigmoid 单元作为其激活函数。然而,我们发现整流器单元 (ReLU) 工作得更好 (Le et al., 2015)3。对于路径查询实验,实体、关系嵌入和隐藏单元的维度设置为 100(Guu 等人(2015)使用)。作为我们的评估指标,我们使用平均精度 (AP) 来对实体对的排名列表进行评分。 MAP 分数是所有查询关系的平均 AP。 AP 是一个严格的度量标准,因为它会在错误实体的排名高于正确实体时进行惩罚。 MAP 也近似于 Precision Recall 曲线下的面积(Manning et al., 2008)。我们使用 Adam (Kingma and Ba, 2014) 对我们所有的实验进行优化,使用默认超参数设置。表 3 采用配对 t 检验。

5.1 Effect of Pooling Techniques

表 3 的第 1 节显示了第 3.2 节中介绍的各种池化技术的效果。令人鼓舞的是,LogSumExp 给出了最好的结果。这证明了考虑来自所有路径的信息的重要性。但是,平均。池化表现最差,这表明根据路径值权衡路径得分也很重要。图 3 绘制了训练损失 w.r.t 梯度更新步骤。由于所有路径的梯度更新均非零,LogSumExp 池化策略与具有稀疏梯度的最大池化策略相比,训练速度更快。这在训练的早期阶段尤其重要,此时 argmax 路径本质上是随机猜测。 max 和 LSE pooling 的得分显着(p=0.02)。

 图3:各种合并方法的训练损失w.r.t梯度更新步骤的比较。在所有池化方法中,LogSumExp的丢失减少最快,因此导致更快的训练。

5.2 Comparison with multi-hop models

接下来,我们将 SingleModel 的性能与其他两个多跳模型 - PathRNN 和 PRA(Lao 等人,2011)进行比较。这两种方法都为每个查询关系训练一个单独的模型。我们还尝试了 PRA 的另一个扩展,它添加了二元组特征(PRA + 二元组)。此外,我们进行了一个实验,将 Path-RNN 的最大池化替换为 LogSumExp。结果显示在表 3 的第二部分。毫不奇怪,利用参数共享的 Single-Model 提高了性能。看到 LogSumExp 使 PathRNN 基线更强大也令人鼓舞。 Path-RNN(使用 LSE)和 Single-Model 的得分显着(p 0.005)。

5.3 Effect of Incorporating Entities

接下来,我们提供定量结果来支持我们的主张,即沿着 KB 路径对实体进行建模可以提高推理性能。表 3 的最后一部分列出了通过注入有关实体的信息获得的性能增益。当我们在 Freebase (Single-Model + Types) ppă 0.005q 中将实体表示为其注释类型的函数时,我们实现了最佳性能。

相比之下,学习实体的单独表示(Single-Model + Entities)的性能稍差。这主要是因为我们在测试期间遇到了许多新实体,我们的模型没有学习到的表示。然而,相对有限数量的实体类型帮助我们克服了表示看不见的实体的问题。我们还扩展了 PRA 以包含实体类型信息(PRA + Types),但这并没有产生显着的改进。

5.4 Performance in Limited Data Regime

在构建我们的数据集时,我们选择了具有合理数据量的查询关系。但是,对于许多重要的应用程序,我们的数据非常有限。为了模拟这种常见场景,我们通过从 46 个关系中随机选择 23 个并删除除 1% 的之前用于训练的正负三元组之外的所有关系来创建一个新数据集。实际上,Path-RNN 和 Single-Model 之间的区别在于 Single-Model 进行多任务学习,因为它共享不同目标关系类型的参数。因此,我们希望它在这个小数据集上优于 Path-RNN,因为这种多任务学习提供了额外的正则化。我们还试验了单模型的扩展,在其中我们为多任务学习引入了一个额外的任务,我们试图预测实体的注释类型。在这里,实体类型嵌入的参数与 Single-Model 共享。此任务的监督由 KB 中的实体类型注释提供。我们使用 Rendle 等人的贝叶斯个性化排名损失进行训练。 (2009 年)。结果列在表 4 中。使用单模型时,性能有明显的提升,正如我们预期的那样。使用类型的额外多任务训练提供了非常增量的收益。

5.5 Answering Path Queries

顾等人。 (2015 年)引入了回答问题的任务,该任务被表述为 KB 中的路径遍历。与二进制事实预测不同,要回答路径查询,模型需要找到可以通过从初始实体“s”,然后遍历路径“p”。他们对路径中关系的加法和乘法交互进行建模。应该注意的是,组合 Trans-E 和 Bilineardiag 具有与我们的模型相当数量的参数,因为它们也将关系表示为向量,但是双线性模型为每个关系学习一个密集的方阵,因此具有更多数量的参数。因此,我们与 Trans-E 和双线性诊断模型进行比较。 Bilineardiag 也被证明优于双线性模型 (Yang et al., 2015)。

不是使用简单的加法和乘法来组合关系,我们建议在每一步消耗关系 ri 之后组合从 RNN(通过(4))获得的中间隐藏表示 hi。令 h 表示所有中间表示 hi 的总和。我们模型的三元组 ps, p, tq 的得分由 xJs diagphqxt 给出,其中 diagphq 表示对角矩阵,向量 h 作为其对角元素。

我们与 Guu 等人报告的结果进行了比较。 (2015)在 WordNet 数据集上。需要注意的是,该数据集相当小,只有 22 种关系类型,平均路径长度为 3.07。更重要的是,在测试期间只有很少的看不见的路径,实体对之间只有一条路径,这表明该数据集不是组合神经模型的理想测试平台。结果如表 6 所示。平均分位数 (MQ) 是得分低于正确实体的不正确实体的分数。与他们的最佳模型相比,我们的模型实现了 84% 的错误减少。

6 Qualitative Analysis

作为存在量词的实体:表 5 显示了两个 horn 子句的主体。这两个子句都预测了事实 location.containspx, bq。无论链中存在什么实体(传递属性),第一个子句都是普遍正确的。然而,第二个子句的值仅在实体的实例化条件下才为真。 Path-RNN 模型的分数与实体值无关,而我们的模型根据链中的实体输出不同的分数。我们平均跨实体的分数,这些实体通过此路径连接,并且关系在第 3 列(与实体)中成立。

对于独立于实体的第一个子句,两个模型都预测高分。但是对于第二个子句,没有实体信息的模型预测的分数较低,因为在正负训练示例中都可以看到这条路径,并且模型不能以实体为条件来学习区分。然而,我们的模型以高置信度预测真实关系。这是在向量空间中为逻辑推理捕获存在量化的一步。

子句长度:图 4 显示了测试集中得分最高的路径的长度分布。分布在长度“ t3, 4, 5u 处达到峰值,这表明以前将长度限制为 3 的方法 (Yang et al., 2015) 可能会限制性能和泛化性。

限制:我们模型的一个主要限制是由于稀疏性而无法处理长文本模式。文本建模的组合方法(Toutanova et al., 2015; Verga et al., 2016)是朝着这个方向迈出的正确一步,我们将其留作未来的工作。

7 Conclusion

本文介绍了一个单一的高容量 RNN 模型,该模型允许跨多种关系类型的推理链。它利用来自实体对之间路径中存在的中间实体的信息,并通过将看不见的实体表示为其注释类型的函数来缓解看不见的实体的问题。我们还证明,跨多个路径汇集证据可以提高训练速度和准确性。最后,我们还解决了对不经常发生的关系进行推理的问题,并通过多任务处理显示出显着的性能提升

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值