目标:计算两个节点之间的相似性(相关性)。
给定一个异质网络:(不看箭头方向,不管头像,这图画的不得不吐槽)
(图片来源:Meta Structure: Computing Relevance in Large Heterogeneous Information Networks)
一、PathCount (PC)
思想:指定一条元路径类型P,直接计算两节点之间P类型元路径存在的条数。
如指定一下类型的元路径:
则,A1与A2的PC值为1。(不区分大小写)
二、PathSim
思想:指定一种对称元路径,计算公式如下:
(看着头晕,别怕)
s(x,y)=2*(x到y的元路径实例个数)/ (x到x自身的元路径实例个数)+(y到y自身的元路径实例个数)
即s(x,y)=2*PC(x,y)/ PC(x,x)+PC(y,y)
为什么这样做呢?论文原文翻译:
它背后的直觉是,两个相似的对等对象不仅应该紧密相连,而且还应该拥有类似的可见性。由于对等点之间的关系应该是对称的,因此我们将PathSimm限制在对称的元路径上。
给定元路径P,s(x,y)由两部分来定义:(1)它们的连通性由它们之间在指定一条元路径P下的数目来定义;以及(2)它们的可见性的平衡,其中可见性被定义为它们之间内部的路径实例的数目。
( Given a meta path P, s(x, y) is defined in terms of two parts: (1) their connectivity defined by the number of paths between them following P; and (2) the balance of their visibility, where the visibility is defined as the number of path instances between themselves. Notice that we do count multiple occurrences of a path instance as the weight of the path instance, which is the product of weights of all the links in the path instance. To see how this new measure works, we compare PathSim with a set of measures using a toy example to find peer authors, using meta path ACA.)
另外原文中是在带权的网络上计算的。
可参考原论文中的小例子:
(原文:PathSim: Meta Path-Based Top-K Similarity Search in Heterogeneous Information Networks)
三、PCRW
这篇博文写的好:https://blog.csdn.net/m0_37427515/article/details/114588222
四、StructCount
思想:指定一个元图(元结构),计算两个节点间的元图实例数量。
例:如下元图:
则,A1与A2的SC值为1。(以最上面的异质图为例)
五、SCSE
思想,指定一个元图类型,计算两个节点之间的相关性。
计算方式:
给定如下元图:
以a2为起始节点,a1为目标节点
根据构造元图的步骤遍历找出所有a到a的实例。(遍历出来的样子是个树,作者管他叫Etree,我管他叫啥也不是树)
第二步,计算所有叶子节点的SCSE值。找到一个a2到a1的实例,就记SCSE=1,即上图的5(b)的SCSE=1。其他的SCSE值为0。
第三步,按照公式递归计算上一层节点的SCSE值。
(太复杂了,改一下)
i指的是树的层数。第i层的SCSE=所有第i+1层子节点的SCSE平均值。(累加和除以节点数=平均值)
最后一层结果等于:
(原文:Huang Z, Zheng Y, Cheng R et al. Meta Structure: Computing Relevance in Large Heterogeneous Information Networks[C].ACM, 2016: 1595-1604.)
~~~未完待续!