大规模知识库中的随机游走推理和学习

最新推荐文章于 2022-09-28 19:36:25 发布

Wwwilling

最新推荐文章于 2022-09-28 19:36:25 发布

阅读量1k

点赞数

分类专栏：医疗人工智能知识图谱文献阅读强化学习-医疗文章标签：知识图谱深度学习机器学习

本文链接：https://blog.csdn.net/qq_43058281/article/details/121685352

版权

知识图谱文献阅读同时被 3 个专栏收录

22 篇文章 6 订阅

订阅专栏

医疗人工智能

13 篇文章 12 订阅

订阅专栏

强化学习-医疗

7 篇文章 8 订阅

订阅专栏

Article

作者：Ni Lao, Tom Mitchell, William W. Cohen
文献题目：大规模知识库中的随机游走推理和学习
文献时间：2017
https://paperswithcode.com/paper/graph-convolutional-neural-networks-for-web#code

摘要

我们考虑在包含不完整知识且覆盖不完整的大规模知识库中执行学习和推理的问题。我们表明，基于知识库图的约束、加权、随机游走组合的软推理程序可用于可靠地推断知识库的新信念。更具体地说，我们展示了系统可以通过使用路径排名算法的一个版本（Lao 和 Cohen，2010b）调整与沿着图中不同路径的随机游走相关的权重来学习推断不同的目标关系。我们将这种方法应用于由 NELL（一个永无止境的语言学习者）从网络中不完美地提取的大约 500,000 个信念的知识库（Carlson 等，2010）。这个新系统比 NELL 早期的 Horn-clause 学习和推理方法有了显着改进：它在 100 级时获得了近一倍的精度，并且新的学习方法也适用于更多的推理任务。

引言

尽管最近有大量关于从文本中提取知识的研究（Agichtein 和 Gravano，2000；Etzioni 等，2005；Snow 等，2006；Pantel 和 Pennacchiotti，2006；Banko 等，2007；Yates 等al., 2007)，在从这种不完全提取的知识中得出可靠推论的问题上取得的进展要少得多。特别是，传统的逻辑推理方法太脆弱，无法用于从自动提取的知识中进行复杂的推理，而概率推理方法 (Richardson and Domingos, 2006) 存在可扩展性问题。本文考虑了构建可以扩展到大知识库并且对不完美知识具有鲁棒性的推理方法的问题。我们考虑的 KB 是一个大的三元组存储，它可以表示为一个带标签的有向图，其中每个实体 $x$ 是一个节点，每个二元关系 $R (x, y)$ 是 $x$ 和 $y$ 之间标记为 $R$ 的边，以及一元概念 $C (x)$ 表示为实体 $x$ 的节点和概念 $C$ 的节点之间标记为“isa”的边。我们提出了一种可训练的推理方法，该方法通过结合不同随机游走的结果来学习推断关系图，并表明该方法在包含超过 500,000 个由 NELL 系统从网络中提取的三元组的知识库中实现了良好的缩放特性和稳健的推理（Carlson 等人，2010 年）。

NELL 案例研究

为了通过实验评估我们的方法，我们在 NELL（永无止境的语言学习）研究项目的背景下进行研究，该项目旨在开发一个多年来每天 24 小时运行的永无止境的学习系统，以不断提高其阅读（从中提取结构化事实）网络的能力（Carlson 等人，2010 年）。 NELL 于 2010 年 1 月开始运营。截至 2011 年 3 月，NELL 已经建立了一个包含数百万个候选信念的知识库，这些信念是从网络中以不同的信心提取的。其中，NELL对大约50万左右的信心相当高，我们称之为NELL的（自信）信念。 NELL 对数百万其他人的信心较低，我们将其称为候选信念。
NELL 作为输入给出一个本体，该本体定义了数百个类别（例如，人、饮料、运动员、运动）和这些类别之间的两位类型关系（例如， $a t h e l e t e P l a y s S p o r t (< a t h l e t e >, < s p o r t >))$ ，它必须学习从网络中提取。它还提供了一组 10 到 20 个每个此类和关系的正面种子示例，以及从 ClueWeb2009 语料库（Callan 和 Hoy，2009 年）下载的 5 亿个网页集合作为未标记数据，以及对 100,000 个查询的访问每天访问 Google 的搜索引擎。每天，NELL 有两项任务：(1) 从网络中提取额外的信念，以填充其不断增长的知识库 (KB) 及其本体中的类别和关系的实例，以及 (2) 学习今天比昨天更好地执行任务 1。。我们可以通过允许它今天考虑与昨天相同的文本文档来衡量它的学习能力，并记录它今天是否比昨天更准确地提取了更多信念。
NELL 使用大规模半监督多任务学习算法，该算法将 1500 多种不同分类器的训练和提取方法相结合（参见（Carlson 等，2010））。尽管 NELL 的学习方法的许多细节不是本文的核心，但应该注意两点。首先，NELL 是一个多策略学习系统，具有从数据的不同“视图”中学习的组件（Blum 和 Mitchell，1998）：对于
例如，一个视图使用潜在实体名称的正字法特征（例如“包含大写单词”），而另一个视图使用可找到名词短语的自由文本上下文（例如，“X 经常跟随双字词 ‘mayor of’”） . 其次，NELL 是一个引导系统，它会根据其不断增长的自信信念进行自我训练。

知识库推理： Horn Clauses

虽然 NELL 现在已经发展了一个相当大的知识库，但它对这个知识库进行推理的能力目前非常有限。目前，其唯一超越简单继承的推理方法涉及应用一阶 Horn 子句规则从当前信念中推断出新信念。例如，它可以使用 Horn 子句，例如
推断 $A t h l e t e P l a y s I n L e a g u e (H i n e s W a r d, N F L)$ ，如果它已经提取了规则前提中的信念，变量 $x, y$ 和 $z$ 分别绑定到 $H i n e s W a r d$ , $P i t t s b u r g h S t e e l e r s$ 和 $N F L$ ，如图 1 所示。 NELL 目前有一套大约 600 条这样的规则，它是通过数据挖掘其信念知识库来学习的。假设其先决条件得到满足，每个习得的规则都带有其结论成立的条件概率。
NELL 使用 FOIL 算法的变体（Quinlan 和 Cameron-Jones，1993）学习这些 Horn 子句规则，此后称为 N-FOIL。 N-FOIL 将规则结果的一组正面和负面示例（例如， $A t h l e t e P l a y s I n L e a g u e (H i n e s W a r d, N F L), t h l e t e P l a y s I n L e a g u e (H i n e s W a r d, N B A))$ 作为输入，并使用“分而治之”的策略来学习一组适合数据的 Horn 子句。每个 Horn 子句都是通过从一个一般规则开始并逐步对其进行专门化来学习的，因此它仍然涵盖了许多正例，但很少涵盖了反例。在学习了一个子句后，该子句所涵盖的示例将从训练集中删除，并重复该过程，直到没有正例为止。
学习一阶 Horn 子句的计算成本很高——不仅搜索空间很大，而且一些 Horn 子句的评估成本也很高（Cohen 和 Page，1995）。 N-FOIL 使用两个技巧来提高其可扩展性。首先，它假设结果谓词是函数式的——例如，每个运动员最多参加一个联赛。这意味着不需要提供明确的反例（Zelle et al., 1995）：例如，如果 $A t h l e t e P l a y s I n L e a g u e (H i n e s W a r d, N F L)$ 是一个正例，那么 $A t h l e t e P l a y s I n L e a g u e (H i n e s W a r d, z^{'})$ 对于 $z^{'}$ 的任何其他值都是否定的。通常，此约束将搜索算法引导到具有较少可能实例的 Horn 子句，因此匹配成本较低。其次，N-FOIL 使用“关系寻路”（Richards 和 Mooney，1992）来产生一般规则——即，通过查看正实例 $R (a, b)$ 的结果，并找到对应于链接 $a$ 到 $b$ 的二元关系的有界长度路径的子句。在上面的示例中，开始子句可能是子句 (1)。就像在 FOIL 中一样，然后通过贪婪地添加附加条件（如 $P r o f e s s i o n a l A t h l e t e (x))$ 或通过用常量替换变量（例如，用 NFL 替换 $z$ ）来（潜在地）特化该子句。
对于每个 N-FOIL 规则，使用 Dirichlet 先验计算估计的条件概率 $\hat{P}(conclusion|preconditions)$
其中 N+ 是 FOIL 训练数据中此规则匹配的正例数，N− 是匹配的负例数，m = 5 且prior = 0.5。如下结果所示，N-FOIL 一般学习少量的高精度推理规则。这些推理规则的一个重要作用是它们有助于引导程序，因为 N-FOIL 所做的推理会增加候选信念的数量，或者（如果推理已经是候选者）提高 NELL 对候选信念的信心。

知识库推理：图随机游走

在本文中，我们考虑了一种替代方法，该方法基于Lao 和 Cohen (2010b) 的路径排名算法 (PRA)，详细描述如下。 PRA 学习相对于查询节点 $x$ 对图节点 $y$ 进行排名。 PRA 首先枚举大量有界长度的边标记路径类型，类似于 NELL 的 FOIL 变体中使用的初始子句。这些路径类型被视为排名“专家”，每个都在图中执行随机游走，被约束遵循边类型的序列，并根据结果分布中的权重对节点 $y$ 进行排名。最后，PRA 使用逻辑回归将这些“专家”结合起来。
例如，考虑一条从 $x$ 到 $y$ 的路径，通过边类型 $i s a$ ， ${isa}^{−1}$ （ $i s a$ 的逆）和 $A t h l e t e P l a y s I n L e a g u e$ 的序列，这对应于 Horn 子句
假设随机游走从查询节点 $x$ 开始（比如 $x = H i n e s W a r d$ ）。如果 $H i n e s W a r d$ 通过 $i s a$ 链接到单个概念节点 $P r o f e s s i o n a l A t h l e t e$ ，则步行将在一步后以概率 1 到达该节点。如果 $A$ 是KB中 $P r o f e s s i o n a l A t h l e t e$ 的集合，那么经过两步后，步行的概率为 $1 / ∣ A ∣$ 在任何 $\in A$ . 如果 $L$ 是运athleres联盟的集合，并且 $\in L$ ，令 $A_l$ 成为联盟中的一组athlests $l$ : 走三步后，走的概率是 $A_l|/|A|$ 在任何点 $\in L$ 。简而言之，与此路径相关的排名给出了值 $y$ 是 $x$ 的athletes联盟的先验概率——这在组合排名方法中作为一个特征很有用，虽然它本身不是一个高精度的推理规则。
请注意，这个“专家”产生的排名会随着知识库的发展而变化——例如，如果系统随着时间的推移按比例了解比曲棍球运动员更多的足球运动员，那么第 (3) 条路径的联赛排名将发生变化 . 此外，排名特定于查询节点 $x$ 。例如，假设知识库包含的事实反映了球队名称“巨人” 的歧义，如图 1 所示。然后，上面的子句 (1) 的路径将在 $x = E l i M a n n i n g$ 的情况下赋予 $y = N F L$ 的权重比对于 $x = H i n e s W a r d$ 的 $y = N F L$ 的权重要低。
```
  旧金山的大联盟棒球队和纽约的国家橄榄球联盟球队都被称为“巨人”。
```
本文的主要贡献是介绍和评估 PRA 作为在大型知识库中进行概率推理的算法。与 Horn 子句推理相比，这种新的推理方法的主要特点如下：
- 支持推断关系实例 $R (a, b)$ 的证据基于当前知识库中 $a$ 和 $b$ 之间的许多现有路径，并使用学习的逻辑函数进行组合。
- 推理的置信度对知识库的当前状态和被查询的特定实体敏感（因为推理中使用的路径具有这些属性）。
- 实验上，推理方法比 N-FOIL 学习的 Horn 子句产生了更多中等可信度的推理。
- 学习和推理比 N-FOIL 更有效，部分原因是我们可以为随机游走开发有效的近似方案（Lao 和 Cohen，2010a）。结果推断平均每个查询快 10 毫秒。
我们使用的路径排序算法 (PRA) 类似于其他地方描述的算法 (Lao and Cohen, 2010b)，除了为了实现高效的模型学习， $a$ 和 $b$ 之间的路径由训练查询总体的统计数据决定，而不是一一列举。 PRA 使用随机游走在图数据上生成关系特征，并将它们与逻辑回归模型结合起来。与其他关系模型（例如 FOIL，Markov Logic Networks）相比，PRA 在链接预测或检索任务中非常有效，在这些任务中，我们有兴趣从大量候选中识别顶部链接，而不是专注于特定的节点对或联合推理。

方法

在本节中，我们首先描述我们如何在知识库上制定链接（关系）预测作为排名任务。然后我们回顾一下由Lao 和Cohen (2010b; 2010a) 引入的路径排序算法（PRA）。之后，我们描述了 PRA 方法的两个改进，使其更适合知识库上的链接预测任务。第一个改进帮助 PRA 处理大量关系，这是大型知识库的典型特征。第二个改进旨在通过应用低方差采样来提高推理质量。

学习 NELL 的知识库

对于知识库中的每个关系 $R$ ，我们为链接预测任务训练一个模型：给定一个概念 $x$ ，找到所有其他可能具有关系 $R (x, y)$ 的概念 $y$ 。该预测是基于从网络中不完美提取的现有知识库做出的。尽管模型可能会从联合预测多个关系中受益，但这种联合推理超出了这项工作的范围。
为了确保合理数量的立场训练，我们从知识库中超过 100 个实例的 48 个关系中生成标记的训练查询。我们为每个关系创建两个任务——即给定 $x$ 预测 $y$ 和给定 $y$ 预测 $x$ ——总共产生 96 个任务。知识库中与任何其他节点具有关系 $R$ 的每个节点 $x$ 被视为训练查询，知识库中已知满足 $R (x, y)$ 的实际节点 $y$ 被视为标记正例，任何其他节点都被视为反例。

路径排序算法回顾

我们现在回顾一下由Lao 和Cohen (2010b) 引入的路径排序算法。关系路径 $P$ 被定义为关系序列 $R_1 ...Rl$ ，并且为了强调与每个步骤相关的类型， $P$ 也可以写成
其中 $T_i = range(R_i) = domain(R_{i+1})$ ，我们还定义了 $domain(P) ≡ T_0$ , $range(P) ≡ T_l$ 。在本文的实验中，只有一种节点叫做概念，它们可以通过不同类型的关系连接起来。在这个符号中，“某个球员效力的球队”和“某个球员所在球队所在的联赛”等关系可以通过以下路径（分别）表示：
对于任何关系路径 $P = R_1 ...R_l$ 和种子节点 $\in domain(P)$ ，路径约束随机游走定义分布 $h_{s,P}$ 递归如下。如果 $P$ 是空路径，则定义
如果 $P = R_1 ...R_l$ 非空，则令 $P' = R_1 ...R_{l-1}$ ，并定义
其中 $P(e|e' ; R_l ) = R_l(e',e) /|R_l (e',·)|$ 是边缘类型为 $R_l$ 的一步随机游走从节点 $e^{'}$ 到达节点 $e$ 的概率。 $R (e^{'}, e)$ 表示是否存在将 $e^{'}$ 连接到 $e$ 的类型为 $R$ 的边。
更一般地，给定一组路径 $P_1,...,P_n$ ，可以将每个 $h_{s,P_i} (e)$ 视为节点 $e$ 的路径特征，并通过线性模型对节点进行排序
其中 $θ_i$ 是路径的适当权重。这通过以下评分函数给出了与查询节点 $s$ 相关的节点 $e$ 的排名
其中 $P_l$ 是长度小于 $l$ 的路径集合。
给定一个关系 $R$ 和一组节点对 ${ (s_i, t_i) \}$ ，我们可以构造一个训练数据集 $D = \{ (x_i, r_i) \}$ ，其中 $x_i$ 是对 $s_i, t_i)$ 的所有路径特征的向量——即 $x_i$ 的第 $j$ 个分量是 $h_{s_i,P_j}(t_i)$ ， $r_i$ 表示 $R(s_i,t_i)$ 是否为真。通过最大化以下正则化目标函数来估计参数 $θ$ 。
其中 $λ_1$ 控制 $L_1$ 正则化以帮助结构选择， $λ_2$ 控制 $L_2$ 正则化以防止过度拟合。 $o_i(θ)$ 是每个实例的目标函数，定义为
其中 $p_i$ 是预测的相关性，定义为 $p_i = p(r_i = 1|x_i; θ) = exp(θ^T x_i)/ 1+exp(θ^T x_i)$ ， $w_i$ 是每个示例的重要性权重。有偏抽样程序仅选择一小部分负样本包含在目标中（详见 (Lao and Cohen, 2010b)）。

数据驱动的寻路

在 PRA 之前的工作中， $P_l$ 被定义为长度最多为 $l$ 的所有关系路径。当边类型较少时，可以通过枚举生成 $P_l$ ；然而，对于具有大量关系的域（例如，知识库），即使对于很小的 $l$ 枚举所有可能的关系路径也是不切实际的。例如，如果与每个节点相关的关系数为 100，即使长度为 3 的路径数也很容易达到数百万。对于解析的自然语言句子等其他领域，有用的路径可以长达十个关系（Minkov and Cohen，2008）。在这种情况下，即使可能的关系数较少，关系路径的总数仍然太大，无法进行系统枚举。
为了将 PRA 应用于这些领域，我们修改了 PRA 中的路径生成程序，以仅生成对任务可能有用的路径。如果 $h_{s,P} (e) \ne 0$ 对于任何实体 $e$ ，则定义查询 $s$ 以支持路径 $P$ 。我们要求在寻路过程中创建的任何节点至少需要得到训练查询 $s_i$ 的一小部分 $α$ 的支持，并且长度不超过 $l$ （在实验中，我们设置 $α = 0.01$ ）我们还要求一条路径包含在 PRA 模型中，前提是它在训练集中检索到至少一个目标实体 $t_i$ 。从表 1 中可以看出，相对于系统地枚举所有可能的路径，这两个约束一起显着减少了需要考虑的路径数量。 L1 正则化进一步减小了模型的大小。
寻找连接图中节点的路径的想法并不新鲜。它先前已经体现在一阶学习系统（Richards 和 Mooney，1992）以及 N-FOIL 和关系数据库搜索系统（Bhalotia 等，2002）中。这些方法在路径查找期间考虑单个查询。相比之下，我们在此描述的数据驱动的路径查找方法使用来自查询总体的统计数据，因此可以更可靠地确定路径的重要性。

低方差抽样

劳和科恩 (2010a) 先前表明，指纹和粒子过滤等采样技术可以显着加速随机游走，而不会牺牲检索质量。然而，采样程序会导致粒子群的多样性丧失。例如，考虑图中的一个节点，只有两个权重相等的输出链接，假设我们需要从这个节点开始生成两个步行者。一个令人失望的结果是，两个步行者都有 50% 的机会跟随同一个分支，并且没有任何概率质量离开另一个分支。
为了克服这个问题，我们应用了一种称为低方差采样 (LVS) 的技术（Thrun 等人，2005 年），该技术常用于机器人技术以提高采样质量。 LVS 不是从分布中生成独立样本，而是使用单个随机数生成所有样本，这些样本在整个分布中均匀分布。请注意，给定分布 $P (x)$ ，[0, 1] 中的任何数字 $r$ 都正好指向一个 $x$ 值，即 $\arg {\min _j}\sum\nolimits_{m = 1..j} {P\left( m \right)} \le r$ 。假设我们想从 $P (x)$ 生成 $M$ 个样本。 LVS 首先在区间 $0, M^{−1}]$ 中生成一个随机数 $r$ 。然后 LVS 将固定量 $M^{−1}$ 重复添加到 $r$ 并选择与结果数字对应的 $x$ 值。

结果

本节报告在其学习过程的第 165 次迭代后将随机游走推理应用于 NELL 知识库的经验结果。我们首先通过对训练查询的交叉验证来调查 PRA 的行为。然后，我们通过利用 Amazon Mechanical Turk 服务比较 PRA 和 N-FOIL 可靠推断新信念的能力。

下雨查询的交叉验证

重启随机游走 (RWR)（也称为个性化 PageRank（Haveliwala，2002））是一种通用的图邻近性度量，已被证明对许多类型的任务都相当成功。我们将 PRA 与两个版本的 RWR 在链接预测的 96 个任务上与 NELL 的知识库进行了比较。两种基线方法是未经训练的 RWR 模型和经训练的 RWR 模型，如Lao and Cohen (2010b) 所述。（简而言之，在经过训练的 RWR 模型中，walker 将在概率上更喜欢跟随与不同标签相关联的边，其中选择每个边标签的权重以最小化损失函数，例如等式 7。在未经训练的模型中，边权重是统一的。）我们使用训练数据的交叉验证探索了正则化参数 L1 和 L2 的一系列值，并且我们将所有任务的 L1 和 L2 参数都固定为 0.001。最大路径长度固定为 3。
表 2 比较了使用 5 折交叉验证和平均倒数排名 (MRR)3 度量的三种方法，MRR 定义为一组结果中排名最高的相关结果的逆排名。如果第一个返回结果相关，则MRR为1.0，否则小于1.0。有监督的训练可以显着提高检索质量（p-value=9 × 10−8 比较未经训练和训练的 RWR），利用路径信息可以产生进一步的改进（p-value=4 × 10−4 比较训练过的 RWR 和 PRA）。谓词的平均训练时间只有几秒钟。
我们还研究了低方差采样对预测质量的影响。图 2 比较了应用于指纹和粒子过滤时的独立和低方差采样（Lao 和 Cohen，2010a）。横轴对应于随机游走与精确推理相比的加速比，纵轴衡量 MRR 对训练查询集进行三折交叉验证的预测质量。低方差采样可以提高对指纹和粒子过滤的预测。曲线上的数字表示粒子（或步行者）的数量。当使用大量粒子时，粒子滤波方法收敛到精确推理。有趣的是，当使用大量步行者时，指纹方法比精确推理产生更好的预测质量。劳和科恩注意到检索任务有类似的改进，并推测这是因为采样推理对较长的关系路径施加了正则化惩罚（2010a）。

机械土耳其人的评估

上面的交叉验证结果假设知识库是完整和正确的，我们知道这是不真实的。为了准确比较 PRA 和 N-FOIL 从不完善的知识库中可靠地推断新信念的能力，我们使用了从 Amazon Mechanical Turk 获得的人工评估。为了限制标记成本，并且由于我们的目标是提高 NELL 的性能，因此我们在此比较中不包括基于 RWR 的方法。在所有 24 个功能谓词中，N-FOIL 发现了其中 8 个的置信规则（它对其他 16 个谓词没有产生结果）。因此，我们仅在这 8 个谓词上比较 PRA 与 N-FOIL 的质量。在所有 72 个非功能谓词中（N-FOIL 不能应用于这些谓词），PRA 在交叉验证中表现出广泛的性能。 PRA 获得高于 0.4 的 MRR 并构建具有 10 个以上路径特征的模型的 43 个任务。我们随机抽取了其中的 8 个谓词，由 Amazon Mechanical Turk 进行评估。
表 3 显示了 N-FOIL 可以成功学习规则的每个任务的前两个加权 PRA 特征。这些 PRA 规则可以分为广泛的覆盖规则，其行为类似于正确答案的先验规则（例如 1-2、4-6、15）、利用特定关系序列的准确规则（例如 9、11、14），利用有关查询节点同义词信息的规则（例如 7-8、10、12），以及利用来自查询节点的本地邻域的信息（例如 3、12-13、16）的规则。同义词路径很有用，因为一个实体在网络上可能有多个名称。我们发现 N-FOIL 学习的所有 17 条一般规则（无专业化）都可以表示为长度为 2 的关系路径，例如路径 11。相比之下，PRA 探索了具有许多长度为 3 的路径的特征空间。
对于要评估的每个关系 $R$ ，我们生成属于 $d o m a i n (R)$ 的测试查询 $s$ 。训练集中出现的查询被排除在外。对于每个查询节点 $s$ ，我们应用经过训练的模型（PRA 或 N-FOIL）来生成候选 $t$ 节点的排名列表。对于 PRA，候选人按他们的分数排序，如等式(6)。对于 N-FOIL，候选者按照规则的估计精度进行排序，如等式(2)（生成候选）。由于每个功能性（和非功能性）谓词 $R$ 大约有 7000 个（和 13000 个）测试查询 $s$ ，并且每个查询 $s$ 返回（可能）数千个候选 $t$ ，我们无法评估所有查询的所有候选。因此，我们首先将每个谓词 $R$ 的查询 $s$ 按其排名靠前的候选 $t$ 的分数降序排列，然后计算结果列表 $R(s^{R,1} ,{t_1}^{R, 1}), R(s^{R,2}, {t_1}^{R,2}), ...，$ 其中 $s^{R,1}$ 是谓词 $R$ 的第一个查询， ${t_1}^{R,1}$ 是其第一个候选， $s^{R,2}$ 是谓词 $R$ 的第二个查询谓词 $R$ , ${t_1}^{R,2}$ 是它的第一个候选，依此类推。为了减少标记负载，我们判断每个谓词的所有前 10 个查询，但从前 100 个中随机抽取 50 个，并从前 1000 个中随机抽取 50 个。每个信念由 Mechanical Turk 的 5 名工人评估，他们被赋予诸如“海因斯沃德为钢人队效力”之类的断言，以及每个实体的 Google 搜索链接，以及两个实体的组合。统计数据显示，工人平均花费 25 秒来判断每个信念。我们还删除了一些工人的明显错误的判断4。我们对 100 个信念进行了抽样，并将他们的投票结果与本文的一位作者制作的黄金标准标签进行了比较。表 5 显示 74% 的工人投票结果与我们的判断一致。
评价结果如表4所示。 $P_{majority}$ 列为每个谓词显示了多数预测所达到的准确度：给定一个查询 $R (x, ?)$ ，预测在知识库中所有可能的 $x$ 上最常满足 $R$ 的 $y$ 。因此， $P_{majority}$ 越高，任务越简单。预测功能谓词通常更容易预测非功能谓词。 #Query 列显示 N-FOIL 能够匹配其任何规则的查询数量，从而产生候选信念。对于大多数谓词，N-FOIL 最多只能为几百个查询生成结果。相比之下，PRA 能够为每个功能谓词平均生成 6,599 次查询的结果，为每个非功能谓词平均生成 12,519 次查询的结果。尽管 N-FOIL 的 10 (p@10) 精度与 PRA 相当，但 10 和 1000 (p@100 和 p@1000) 的精度要低得多。
#Path列显示PRA学习的路径数，#Rule列显示N-FOIL学习到的规则数，括号前的数字为非专业规则，括号内的数字为专业规则 . 一般来说，特殊规则的召回率比非特殊规则小得多。因此，PRA 方法通过组合大量与非专业规则相对应的非专业路径来部分实现高召回率。然而，学习更准确的专业路径是我们未来工作的一部分。
PRA 相对于 N-FOIL 的一个显着优势是它可以应用于非功能谓词。表 4 的最后八行显示了 PRA 在其中八个谓词上的表现。与函数谓词的结果相比，非函数谓词在 10 和 100 处的精度略低，但在 1000 处的精度相当。我们注意到对于某些谓词精度在 1000 时比在 100 时更好。经过一些调查我们发现，对于许多关系，结果列表的顶部更加多样化：即展示不同公司生产的产品，不同工作的记者出版物。而结果列表的下半部分更为同质：即显示关系集中在一个或两个公司/出版物上。另一方面，通过给 Mechanical Turk 工人贴标签的过程，他们似乎建立了一个关于哪些公司/出版物可能有正确信念的先验，他们的判断对这些公司/出版物有积极的偏见。这两个因素结合在一起导致对结果列表较低部分的积极偏见。在未来的工作中，我们希望设计一种避免这种偏见的标签策略。

结论和未来工作

我们已经表明，基于知识库图的约束、加权、随机游走的组合的软推理程序可用于可靠地推断知识库的新信念。我们将这种方法应用于 NELL 从网络中不完全提取的大约 500,000 个信念的知识库。这个新系统比 NELL 早期的 Horn-clause 学习和推理方法有了显着改进：它在 100 级时获得了近一倍的精度。推理和学习都非常有效——我们的实验表明，平均每个查询的推理时间快到 10 毫秒，并且谓词的训练只需要几秒钟。
未来的工作有一些突出的方向。首先，从查询节点和目标节点开始的推理（Richards 和 Mooney，1992）在发现长路径方面比仅从查询节点进行推理更有效。其次，从训练查询的目标节点开始的推理是发现专用路径（具有接地节点）的潜在方法。第三，将推理路径推广到推理树或图可以产生更具表现力的随机游走推理模型。总的来说，我们相信随机游走是一种将关系学习扩展到具有非常大数据集的领域的有前途的方法。