【论文笔记】知识图谱推理PRA——Relational retrieval using a combination of path-constrained random walks

知识图谱的概念于2012年由谷歌提出,这篇文章虽然发表于2010年,但文章中的对于数据的使用已经接近知识图谱了。文章提出的PRA算法是知识图谱推理的早期探索,在RWR(重启随机游走算法)的基础上进行了相似性的改进。同时在那个机器学习还没有普及的年代,文章也探索了使用监督学习的方法进行参数的学习和训练。由于年代差异,这里只重点描述文章提出的PRA算法。

论文相关信息

发表时间:2010
发表期刊:mach learn (大类:工程技术3区,小类:人工智能3区(4区))
发表单位:卡内基梅隆大学
作者:Ni Lao; William W. Cohen
论文地址:Relational retrieval using a combination of path-constrained random walks

解决什么问题?

文章提出了四个任务以评估提出的PRA算法的有效性,虽然是针对生物医学领域的,但其实也都是和推荐系统相关的任务:

  1. 期刊推荐:输入:论文标题中的专业术语,与文章相关的关键字(基因或蛋白质),现在的年份。输出:推荐的期刊及其排名。该任务有助于预印本论文发表。
  2. 引文推荐:输入与期刊推荐的输入相同。输出:推荐的论文及其排名。该任务有助于预印本论文发表。
  3. 专家发现:输入与期刊推荐的输入相同。输出推荐的专家及其排名。该任务有助于发现合适的审稿人或者新的合作者。
  4. 基因推荐:输入作者以及年份,输出推荐的基因及其排名。这项任务类似于预测该作者未来的研究兴趣。

为了方便,下文仅对期刊推荐进行介绍。

如何解决的?数据和方法。

作者使用了两个数据集,分别是果蝇和酵母素的两个数据集。数据集中的实体类型非常有限,大致情况如论文中给出的两幅图:
果蝇数据知识图谱
其实这里已经可以看到知识图谱本体构建的影子了。
酵母素知识图谱
酵母素数据的本体相对于果蝇数据的本体多了一个蛋白质的本体。

这些数据要怎么用?为什么要抽取出这样的数据?
结合前面的任务描述,文章其实是希望能够运用图上的游走方法来达到推荐的效果。例如,对于期刊推荐任务,任务有许多的本体起始点(Title Word,gene,protein,Year等)。然后通过在知识图谱上的游走最终停留在类型为"journal"的实体上,停留概率最大的即为推荐的期刊。

有了以上大体的方法框架,那么接下来的问题就在于如何设计出合理的游走方法。传统的方法有Page-rank等:随机游走算法

Path-Ranking Algorithm(PRA)

算法出发点

传统的重启随机游走算法为每一个类型的边设置了各自的转移概率,但作者认为这种方法忽略了上下文的影响,作者举了个例子:
在引文推荐任务中,假定以“year” y 为起点寻找推荐的引文,可能会得到以下两种情况的推荐:
1)查找在y年发表的论文
2)查找y年发表的论文经常引用的论文

第一种情况推荐的是,year → P u b l i s h e d I n − 1 → \rightarrow PublishedIn^{-1} \rightarrow PublishedIn1 paper
第二种情况推荐的是,year → P u b l i s h e d I n − 1 → \rightarrow PublishedIn^{-1} \rightarrow PublishedIn1 paper → C i t e → \rightarrow Cite \rightarrow Cite paper

直觉上来说第二种情况得到的推荐比第一种情况得到的推荐更合适。也就是说对于推荐而言,可能某种路径下得到的推荐是更为合适的?因此应该为不同的路径设置不同的转移概率?

算法描述

符号定义

文章首先定义了一些概念,论文中的描述比较严谨,这里为了便于理解,画图示例:
以year → P u b l i s h e d I n − 1 → \rightarrow PublishedIn^{-1} \rightarrow PublishedIn1 paper为例:
定义描述
绿色圈表示year的集合(虽然输入年份一般只有一个?)
蓝色圈表示paper的集合
大圈中的小圈表示实例

对于一个关系R(这里的实例是Published_In的反关系)
关系R关联的头实体集合表示为Dom®
关系R关联的尾实体集合表示为Range®
橙框中的R(e,e`)表示实例e能够通过R关系到达实例e’

如果这些概念扩展到关系路径概念 P = R 1 R 2 . . . R l P=R_1R_2...R_l P=R1R2...Rl,结果也是一样的,这里只给出两步关系路径的示意图:
两步关系路径示意图
注意:这里的路径指的是关系路径,并不是图论中的路径。

游走计算

对于路径 P = R 1 R 2 . . . R l P=R_1R_2...R_l P=R1R2...Rl和查询实体集合(前文提到的输入) E q ⊂ D o m ( P ) E_q\subset Dom(P) EqDom(P),我们希望能够通过查询实体的游走推荐出目标实体,因此需要给出游走到各个实体停留的分布,分布计算方法如下:

P = R 1 R 2 . . . R l P=R_1R_2...R_l P=R1R2...Rl P ′ = R 1 R 2 . . . R l − 1 P'=R_1R_2...R_{l-1} P=R1R2...Rl1,则在当前节点停留的值为:
概率分布公式
其中函数 I ( ) I() I()是一个激活函数,即若 R l ( e ′ , e ) R_l(e',e) Rl(e,e)为真,函数值为1,否则为0(我怎么感觉这个函数有一点多余?)。

可以看到,这个分布的计算是由迭代得到的,也就是求长度为 l l l的路径的分布需要先得到长度为 l − 1 l-1 l1的路径值分布。那么初始时的路径长度为0的情况下,分布也需要定义:
概率分布初始化公式

实例计算

直接看公式会让人很头疼,这里举个简单的实例来执行公式,还以year → P u b l i s h e d I n − 1 → \rightarrow PublishedIn^{-1} \rightarrow PublishedIn1 paper → C i t e → \rightarrow Cite \rightarrow Cite paper为例:
实例计算图1

我们从输入year开始,由于 E q E_q Eq只有一个实体,因此输入查询年份节点的分配值为1,假设该年份出版查询到了3篇论文,每个论文节点根据公式分配到了1/3的分配值。再按照cite这条路径走下去,我们发现计算变得稍微复杂一些,我们对每个节点分别计算:
a:前驱节点e’有三个,前驱节点的分配值都是1/3,第一个节点引用了两篇文章,第二个节点和第三个节点分别引用了四篇文章,因此a节点得到分配值:
1/31/2+1/31/4+1/3*1/4=4/12

b:两个前驱节点,前驱节点的分配值都是1/3,分别引用了四篇文章,b分配值为:
1/31/4+1/31/4=2/12

c:1/31/4=1/12
d:1/3
1/2+1/31/4=3/12
e:1/3
1/4=1/12
f:1/3*1/4=1/12

计算到这里我惊讶的发现,这和资源分配算法是一样的。

如何利用PRA游走得到的分配值

如果只是计算到这里,我们发现中间一圈的三个节点的分配值是比右边一圈的几个节点的分配值都高的,这并没有得到作者提出的直觉上的更好的结果。事实上,作者一直关注的是使各个路径拥有不同的权重,因此作者希望能够将这些分配值作为特征,然后通过监督学习的方法训练得到路径的权重。作者设定了以下的得分函数:
得分函数
矩阵形式:
得分函数
由于查询节点到达目标节点的路径非常多(尤其可能存在圈?)因此作者将关系路径长度设定最长为4,并且通过写入规则移除了一些无意义的路径:
在这里插入图片描述
在这里插入图片描述

实验结果

这里略过优化的过程

参数影响

作者探索了路径长度和训练数据的batch_size对结果的影响:
在这里插入图片描述
同时作者输出了参数来观察各个路径最后训练的权重:
在这里插入图片描述
这个结果能够验证很多的猜想,并且能够根据结果判断可靠的路径。

结语

这篇文章虽然相对较早,但是其基于路径推理的思想却是值得借鉴的。尤其是给出推理的路径结果的实验方案是非常值得借鉴的。算是知识图谱路径推理的早期作品了,后续还有很多工作基于这篇文章进行。

第一次写论文笔记,中间有什么地方理解的不对的,欢迎大家批评指正!

<think>好的,我现在需要介绍知识图谱推理方法。首先,我得回忆一下知识图谱的基本概念,确保自己理解正确。知识图谱是一种结构化的知识表示方式,用实体、关系和属性来表达现实世界中的知识。推理方法则是用来发现隐含的知识或补全缺失的信息。 接下来,我要确定主要的推理方法分类。根据之前的学习,知识图谱推理大致可以分为基于符号逻辑的推理、基于嵌入的推理和混合推理方法。不过可能需要再细化这些分类,确保涵盖所有重要方法。 首先,基于符号逻辑的推理。这里可能包括一阶逻辑、描述逻辑、规则推理等。比如,使用霍恩子句或者产生式规则来进行推理。需要解释这些方法如何利用逻辑规则来推导新知识,比如通过已知的关系和规则进行演绎推理。例如,如果A是B的父亲,B是C的父亲,那么可以推断A是C的祖父。但符号逻辑可能在处理不确定性和大规模数据时有局限性。 然后是基于嵌入的推理方法,这类方法将实体和关系映射到低维向量空间,通过向量运算来推断潜在关系。常见的模型如TransE、TransH、ComplEx等。需要说明这些模型如何通过训练学习实体和关系的表示,并用于预测链接。例如,TransE假设关系向量是头实体向量加上关系向量等于尾实体向量,通过最小化这个差异来训练。这类方法的优势在于处理大规模数据和隐含关系,但可解释性较差。 接下来可能还有基于深度学习的推理方法,比如使用图神经网络(GNN)来捕捉知识图谱中的复杂结构信息。GNN通过聚合邻居信息来更新节点表示,从而进行推理。这可能属于嵌入方法的一种扩展,但可以单独分出来强调其结构学习的能力。 混合推理方法结合符号逻辑和嵌入方法,比如利用规则指导嵌入学习,或者用嵌入结果优化规则挖掘。例如,一些方法先挖掘逻辑规则,再用这些规则增强嵌入模型的训练,提高推理的准确性和可解释性。这部分需要解释如何结合两者的优势,比如符号逻辑的可解释性和嵌入方法的灵活性。 另外,可能还需要提到基于路径的推理方法,比如PRAPath Ranking Algorithm),通过分析实体间的路径模式来预测关系。这类方法依赖于路径特征,可能结合机器学习模型进行分类。 在组织内容时,需要分点清晰,每个大类下再分小类,举例说明,并指出优缺点。同时要注意使用正确的LaTeX格式,例如嵌入模型中的得分函数可能需要用数学公式表示,如TransE的$$||h + r - t||_2^2$$。 还要检查是否有遗漏的重要方法,比如基于概率图模型的方法,如马尔可夫逻辑网络,或者最新的研究进展如强化学习在推理中的应用。不过作为介绍性质的内容,可能需要集中在主流方法上,避免过于复杂。 最后,确保结构清晰,先总述,再分点详细说明,每个方法简要说明原理、例子、优缺点。使用中文,避免专业术语过于晦涩,必要时进行解释。同时,数学公式正确使用$$...$$和$...$,例如在行内提到TransE的评分函数时用$||h + r - t||_2^2$,在独立公式时使用$$包围。 现在需要将这些思路整理成结构化的回答,确保符合用户的要求:结构清晰,逐步解决问题,真实可靠。可能的结构如下: 1. 引言:知识图谱推理方法的定义 2. 基于符号逻辑的推理 - 规则推理 - 描述逻辑 - 优缺点 3. 基于嵌入表示的推理 - Trans系列模型 - 神经网络方法 - 优缺点 4. 混合推理方法 5. 其他方法(如路径推理) 6. 总结:方法比较与应用场景 需要验证每个部分的信息准确性,例如TransE的公式是否正确,规则推理的例子是否恰当。可能还需要提到归纳与演绎推理的区别,但可能属于更细节的内容,可以简要带过。 确保LaTeX语法正确,例如积分例子中的括号问题,用户提供的例子中有错误,但自己回答时不需要涉及,只要正确使用格式即可。例如,在提到评分函数时正确使用$$...$$。 最后,检查是否有遗漏的重要点,如知识图谱推理的应用场景,或者当前的研究挑战,但用户的问题主要是要求介绍方法,所以可能集中在方法分类上即可。</think>知识图谱推理方法旨在通过已有知识推断隐含关系或补全缺失信息。以下从主流方法展开介绍: --- ### 一、基于符号逻辑的推理 **原理**:利用形式化逻辑规则(如一阶逻辑、描述逻辑)进行演绎推理。 **常见方法**: 1. **规则推理** - 定义逻辑规则(如“父亲的父亲是祖父”),通过规则匹配推导新知识。 - 示例:若已知$A \xrightarrow{父亲} B$且$B \xrightarrow{父亲} C$,则可推出$A \xrightarrow{祖父} C$。 2. **描述逻辑(Description Logic)** - 通过概念、角色构建本体,支持复杂推理(如分类、一致性检测)。 - 示例:定义“科学家$\sqsubseteq$人类”,可自动推断科学家的实例属于人类。 **优缺点**: - ✅ 可解释性强,结果明确。 - ❌ 依赖人工定义规则,难以处理不确定性和大规模数据。 --- ### 二、基于嵌入表示的推理 **原理**:将实体和关系映射为低维向量,通过向量运算预测潜在关系。 **典型模型**: 1. **翻译模型(Trans系列)** - TransE:假设$h + r \approx t$,损失函数为$$||h + r - t||_2^2$$。 - TransH/R:引入超平面或旋转操作,解决多对多关系问题。 2. **神经网络模型** - ConvE:用卷积神经网络捕捉局部交互特征。 - ComplEx:引入复数空间,建模对称/反对称关系。 **优缺点**: - ✅ 擅长处理大规模数据,隐含关系捕捉能力强。 - ❌ 可解释性差,依赖大量标注数据。 --- ### 三、混合推理方法 **原理**:结合符号逻辑与嵌入学习的优势。 **常见策略**: 1. **规则增强嵌入**:利用逻辑规则约束嵌入训练(如RUGE)。 - 示例:若规则$r_1(x,y) \Rightarrow r_2(x,y)$存在,则训练时强制$score(r_1) \leq score(r_2)$。 2. **嵌入辅助规则挖掘**:通过向量相似度高效挖掘潜在规则。 **优缺点**: - ✅ 平衡可解释性与灵活性。 - ❌ 实现复杂度高。 --- ### 四、其他推理方法 1. **基于路径的推理** - 分析实体间路径模式(如PRA算法),结合机器学习预测关系。 - 示例:若$A \xrightarrow{朋友} B \xrightarrow{爱好} C$,推测$A$可能喜欢$C$。 2. **概率图模型** - 使用马尔可夫逻辑网络(MLN)建模不确定性知识。 3. **图神经网络(GNN)** - 通过消息传递聚合邻居信息,动态更新节点表示(如RGCN、CompGCN)。 --- ### 五、方法比较与应用场景 | **方法类型** | **适用场景** | **典型工具** | |-------------------|----------------------------------|-------------------------| | 符号逻辑 | 规则明确、需高可解释性 | SWRL、Datalog | | 嵌入表示 | 大规模图谱、隐含关系预测 | TransE、RotatE | | 混合方法 | 需兼顾规则与数据驱动 | RUGE、IterE | | 图神经网络 | 复杂结构推理(如社交网络) | RGCN、GraphSAGE | --- ### 总结 知识图谱推理方法的选择需结合实际需求: - **符号逻辑**适合规则明确且需透明推理的场景; - **嵌入表示**擅长大规模数据下的关系预测; - **混合方法**与**GNN**则在复杂场景中展现潜力。 未来研究趋势包括提升小样本推理能力、融合多模态信息等。
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我的手机半斤重

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值