Heterogeneous Network Survey

目录

前言

方法分类

Benchmark


前言

原文链接:Heterogeneous Network,还有一篇Survey也挺好的,可以参照,HGT作者写的:Another Survey(更侧重于Attention的解释)

文章的几个亮点:1. 系统的对常见的异构图进行分类,并提供了较为统一的范式助于理解 2. 创建了四个Benchmark数据集进行异构图性能的统一比较 3. 提供了分析的框架和接口 ,实现了13种主流算法 4.提出了各类算法的指导意见。

 符号定义

元路径

其实就是一个节点的关系路径,需要依靠专家知识进行人为定义。比如,两部电影可以通过多个元路径连接,路径1:电影-演员-电影(MAM),路径2:电影-导演-电影(MDM)。不同的元路径总是揭示不同的语义。例如,MAM表示共同演员关系,而电影-导演-电影(MDM)表示它们由同一个导演导演。

Embedding

可以理解为独热编码变成稠密向量的过程,维度大大小于Embedding。

统一的计算框架

d是两个节点之间的距离,即衡量两个节点之间的相似性,w是节点的权重,R是正则化系数。【文章下面也阐述了为什么这个框架适用于所有的算法,大多都是基于逻辑回归的性质和Negative Sampling,网络平滑的性质转化来的(如下列推导)】

方法分类

分类一: Proximity-Preserving Methods

这里又分成两类,基于Random walk的共现关系的,和基于一阶邻近度和二阶邻近度的(类似于Line的),本质是亲和矩阵的分解。

Random walk

metapath2vec:这里的N是同质关系的节点数目,v是估计点,u是random path上的其他点(本质也是skip gram),w是共现次数。

HINvec:这里主要是多考虑了最后一项u和v之间出现m这种类型的edge的概率,即Wr,中间的符号是Hadamad Product(其实就是矩阵对应位置相乘),在优化的时候仅考虑random walk而忽视边和节点的类型,所以可以写成式2.

First/Second-Order Proximity Based Approaches

PTE:将异构图拆分为多个同构图,然后异构图之间的边,节点异构,图内的边,节点同构。

Aspem:将图划分成多个不同的层次,尤其注意这个节点的embedding与PTE算法的区别,这里是在特定的aspect空间中的embedding。

HEER:是PTE的扩展,将边类型的embedding考虑进去了。

 

分类二:Message Based Method

其实主要就是聚合neighbor的信息,大多数无监督学习中都使用link prediction来训练GNN(这也是为什么能化成那个统一式子鬼样子的原因)

R-GCN:其实就是GAT的一种变化形式,只不过对异构的边(但是是相同类型的节点)都分配了一个W用于聚合体现节点类型的不同。

HAN:扩展了R-GCN,直接对不同元路径上的相同类型节点进行聚合。x'其实是节点到边空间的映射,a其实是边的attention,但是这里理解为节点的attention,就是转嫁到x上了。最后对不同的元路径再搞一个Attention,就是这个节点的embedding。

MAGNN:扩展了HAN,对元路径中不同类型的节点也进行聚合,比如A-B-A,这里把B的信息也聚合进来。直接把元路径上的节点信息输入到Encoder中,然后将目标节点和该元路径上节点进行Attention,最后再进行不同元路径的聚合。

HGT:将Transformer集成到图中,将不同类型的边当作self attention中不同的权重,红框中为元路径的先验向量,如果选择点作为聚合的话类似。

分类三 Relation-Learning Methods

这部分其实就是知识图谱的内容了,主要不在于元路径的设计或者图的构造,而在于三元组评分函数的构造。

TransE:把节点类型的不同看作节点类型的转换,而其中边就是转化的方程

DistMute:这里把不同的节点类型构造了一个对角阵

ComplEx:使用复数的形式捕获了节点之间关系并不对称的特征,比如A->B和B->A本质上不是一种关系,但上面的对角阵认为二者一致。使用复数空间的范数展开即可。

ConvE:这就很迷了,他reshape节点的Embedding,然后进行卷积,vec是把m维向量和n维向量转化成m*n维方阵的函数,换了种方式进行评分。

Benchmark

这部分没啥好说的,主要是几个指标可以注意一下,

异构节点或边所占的比例,节点度的分布状况,聚合系数、2跳中元路径的数量,数据标注程度这些因素对于异构图最终的效果有显著的影响。

评价指标:Macro F1,Micro F1,AUC,MRR等。

实验结果:

结论1:无监督,节点无属性的情况下,邻近效果比较好

结论2:节点有属性的情况下,HGT在link prediction和node classifier上效果都不错

结论3:知识图谱适用于链接预测,尤其是边的类型较为丰富的情况下

结论4:度偏移程度较高,或者节点和边的类型分布较为均匀效果都不好

结论5:随机隐藏边进行消融实验,MAGNN在节点识别的效果比较好

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Data_Designer

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值