【论文笔记】知识图谱推理PRA——Relational retrieval using a combination of path-constrained random walks

最新推荐文章于 2022-09-21 13:27:29 发布

我的手机半斤重

最新推荐文章于 2022-09-21 13:27:29 发布

阅读量9k

点赞数 22

分类专栏：知识图谱文章标签：人工智能知识图谱图论算法机器学习

本文链接：https://blog.csdn.net/m0_37427515/article/details/114588222

版权

知识图谱专栏收录该内容

2 篇文章

订阅专栏

知识图谱的概念于2012年由谷歌提出，这篇文章虽然发表于2010年，但文章中的对于数据的使用已经接近知识图谱了。文章提出的PRA算法是知识图谱推理的早期探索，在RWR（重启随机游走算法）的基础上进行了相似性的改进。同时在那个机器学习还没有普及的年代，文章也探索了使用监督学习的方法进行参数的学习和训练。由于年代差异，这里只重点描述文章提出的PRA算法。

Relational retrieval using a combination of path-constrained random walks

论文相关信息
解决什么问题？
如何解决的？数据和方法。
Path-Ranking Algorithm(PRA)
实验结果
- 参数影响
结语

论文相关信息

发表时间：2010
发表期刊：mach learn （大类：工程技术3区，小类：人工智能3区（4区））
发表单位：卡内基梅隆大学
作者：Ni Lao; William W. Cohen
论文地址：Relational retrieval using a combination of path-constrained random walks

解决什么问题？

文章提出了四个任务以评估提出的PRA算法的有效性，虽然是针对生物医学领域的，但其实也都是和推荐系统相关的任务：

期刊推荐：输入：论文标题中的专业术语，与文章相关的关键字（基因或蛋白质），现在的年份。输出：推荐的期刊及其排名。该任务有助于预印本论文发表。
引文推荐：输入与期刊推荐的输入相同。输出：推荐的论文及其排名。该任务有助于预印本论文发表。
专家发现：输入与期刊推荐的输入相同。输出推荐的专家及其排名。该任务有助于发现合适的审稿人或者新的合作者。
基因推荐：输入作者以及年份，输出推荐的基因及其排名。这项任务类似于预测该作者未来的研究兴趣。

为了方便，下文仅对期刊推荐进行介绍。

如何解决的？数据和方法。

作者使用了两个数据集，分别是果蝇和酵母素的两个数据集。数据集中的实体类型非常有限，大致情况如论文中给出的两幅图：
果蝇数据知识图谱
其实这里已经可以看到知识图谱本体构建的影子了。
酵母素知识图谱
酵母素数据的本体相对于果蝇数据的本体多了一个蛋白质的本体。

这些数据要怎么用？为什么要抽取出这样的数据？
结合前面的任务描述，文章其实是希望能够运用图上的游走方法来达到推荐的效果。例如，对于期刊推荐任务，任务有许多的本体起始点（Title Word，gene，protein，Year等）。然后通过在知识图谱上的游走最终停留在类型为"journal"的实体上，停留概率最大的即为推荐的期刊。

有了以上大体的方法框架，那么接下来的问题就在于如何设计出合理的游走方法。传统的方法有Page-rank等：随机游走算法

Path-Ranking Algorithm(PRA)

算法出发点

传统的重启随机游走算法为每一个类型的边设置了各自的转移概率，但作者认为这种方法忽略了上下文的影响，作者举了个例子：
在引文推荐任务中，假定以“year” y 为起点寻找推荐的引文，可能会得到以下两种情况的推荐：
1）查找在y年发表的论文
2）查找y年发表的论文经常引用的论文

第一种情况推荐的是，year $PublishedIn^{-1} \rightarrow$ paper
第二种情况推荐的是，year $PublishedIn^{-1} \rightarrow$ paper $\rightarrow Cite \rightarrow$ paper

直觉上来说第二种情况得到的推荐比第一种情况得到的推荐更合适。也就是说对于推荐而言，可能某种路径下得到的推荐是更为合适的？因此应该为不同的路径设置不同的转移概率？

算法描述

符号定义

文章首先定义了一些概念，论文中的描述比较严谨，这里为了便于理解，画图示例：
以year $PublishedIn^{-1} \rightarrow$ paper为例：
定义描述
绿色圈表示year的集合（虽然输入年份一般只有一个？）
蓝色圈表示paper的集合
大圈中的小圈表示实例

对于一个关系R（这里的实例是Published_In的反关系）
关系R关联的头实体集合表示为Dom®
关系R关联的尾实体集合表示为Range®
橙框中的R(e,e`)表示实例e能够通过R关系到达实例e’

如果这些概念扩展到关系路径概念 $P=R_1R_2...R_l$ ，结果也是一样的，这里只给出两步关系路径的示意图：
两步关系路径示意图
注意：这里的路径指的是关系路径，并不是图论中的路径。

游走计算

对于路径 $P=R_1R_2...R_l$ 和查询实体集合(前文提到的输入) $E_q\subset Dom(P)$ ，我们希望能够通过查询实体的游走推荐出目标实体，因此需要给出游走到各个实体停留的分布，分布计算方法如下：

令 $P=R_1R_2...R_l$ ， $P'=R_1R_2...R_{l-1}$ ，则在当前节点停留的值为：
概率分布公式
其中函数 $I ()$ 是一个激活函数，即若 $R_l(e',e)$ 为真，函数值为1，否则为0（我怎么感觉这个函数有一点多余？）。

可以看到，这个分布的计算是由迭代得到的，也就是求长度为 $l$ 的路径的分布需要先得到长度为 $l - 1$ 的路径值分布。那么初始时的路径长度为0的情况下，分布也需要定义：
概率分布初始化公式

实例计算

直接看公式会让人很头疼，这里举个简单的实例来执行公式，还以year $PublishedIn^{-1} \rightarrow$ paper $\rightarrow Cite \rightarrow$ paper为例：
实例计算图1

我们从输入year开始，由于 $E_q$ 只有一个实体，因此输入查询年份节点的分配值为1，假设该年份出版查询到了3篇论文，每个论文节点根据公式分配到了1/3的分配值。再按照cite这条路径走下去，我们发现计算变得稍微复杂一些，我们对每个节点分别计算：
a：前驱节点e’有三个，前驱节点的分配值都是1/3，第一个节点引用了两篇文章，第二个节点和第三个节点分别引用了四篇文章，因此a节点得到分配值：
1/31/2+1/31/4+1/3*1/4=4/12

b:两个前驱节点，前驱节点的分配值都是1/3，分别引用了四篇文章，b分配值为：
1/31/4+1/31/4=2/12

c:1/31/4=1/12
d:1/31/2+1/31/4=3/12
e:1/31/4=1/12
f:1/3*1/4=1/12

计算到这里我惊讶的发现，这和资源分配算法是一样的。

如何利用PRA游走得到的分配值

如果只是计算到这里，我们发现中间一圈的三个节点的分配值是比右边一圈的几个节点的分配值都高的，这并没有得到作者提出的直觉上的更好的结果。事实上，作者一直关注的是使各个路径拥有不同的权重，因此作者希望能够将这些分配值作为特征，然后通过监督学习的方法训练得到路径的权重。作者设定了以下的得分函数：

矩阵形式：

由于查询节点到达目标节点的路径非常多（尤其可能存在圈？）因此作者将关系路径长度设定最长为４，并且通过写入规则移除了一些无意义的路径：
在这里插入图片描述