Heterogeneous Network Survey

最新推荐文章于 2023-02-02 12:55:51 发布

Data_Designer

最新推荐文章于 2023-02-02 12:55:51 发布

阅读量353

点赞数

分类专栏：小赵带你读论文文章标签：机器学习深度学习 python 人工智能算法

本文链接：https://blog.csdn.net/weixin_40539952/article/details/112438113

版权

小赵带你读论文专栏收录该内容

19 篇文章 5 订阅

订阅专栏

前言

原文链接：Heterogeneous Network，还有一篇Survey也挺好的，可以参照，HGT作者写的：Another Survey(更侧重于Attention的解释)

文章的几个亮点：1. 系统的对常见的异构图进行分类，并提供了较为统一的范式助于理解 2. 创建了四个Benchmark数据集进行异构图性能的统一比较 3. 提供了分析的框架和接口，实现了13种主流算法 4.提出了各类算法的指导意见。

符号定义

元路径

其实就是一个节点的关系路径，需要依靠专家知识进行人为定义。比如，两部电影可以通过多个元路径连接，路径1：电影-演员-电影（MAM），路径2：电影-导演-电影（MDM）。不同的元路径总是揭示不同的语义。例如，MAM表示共同演员关系，而电影-导演-电影（MDM）表示它们由同一个导演导演。

Embedding

可以理解为独热编码变成稠密向量的过程，维度大大小于Embedding。

统一的计算框架

d是两个节点之间的距离，即衡量两个节点之间的相似性，w是节点的权重，R是正则化系数。【文章下面也阐述了为什么这个框架适用于所有的算法，大多都是基于逻辑回归的性质和Negative Sampling，网络平滑的性质转化来的（如下列推导）】

方法分类

分类一： Proximity-Preserving Methods

这里又分成两类，基于Random walk的共现关系的，和基于一阶邻近度和二阶邻近度的（类似于Line的），本质是亲和矩阵的分解。

Random walk

metapath2vec：这里的N是同质关系的节点数目，v是估计点，u是random path上的其他点（本质也是skip gram），w是共现次数。

HINvec：这里主要是多考虑了最后一项u和v之间出现m这种类型的edge的概率，即Wr，中间的符号是Hadamad Product（其实就是矩阵对应位置相乘），在优化的时候仅考虑random walk而忽视边和节点的类型，所以可以写成式2.

First/Second-Order Proximity Based Approaches

PTE：将异构图拆分为多个同构图，然后异构图之间的边，节点异构，图内的边，节点同构。

Aspem：将图划分成多个不同的层次，尤其注意这个节点的embedding与PTE算法的区别，这里是在特定的aspect空间中的embedding。

HEER：是PTE的扩展，将边类型的embedding考虑进去了。

分类二：Message Based Method

其实主要就是聚合neighbor的信息，大多数无监督学习中都使用link prediction来训练GNN（这也是为什么能化成那个统一式子鬼样子的原因）

R-GCN：其实就是GAT的一种变化形式，只不过对异构的边（但是是相同类型的节点）都分配了一个W用于聚合体现节点类型的不同。

HAN：扩展了R-GCN，直接对不同元路径上的相同类型节点进行聚合。x'其实是节点到边空间的映射，a其实是边的attention，但是这里理解为节点的attention，就是转嫁到x上了。最后对不同的元路径再搞一个Attention，就是这个节点的embedding。

MAGNN：扩展了HAN，对元路径中不同类型的节点也进行聚合，比如A-B-A，这里把B的信息也聚合进来。直接把元路径上的节点信息输入到Encoder中，然后将目标节点和该元路径上节点进行Attention，最后再进行不同元路径的聚合。

HGT：将Transformer集成到图中，将不同类型的边当作self attention中不同的权重，红框中为元路径的先验向量，如果选择点作为聚合的话类似。

分类三 Relation-Learning Methods

这部分其实就是知识图谱的内容了，主要不在于元路径的设计或者图的构造，而在于三元组评分函数的构造。

TransE：把节点类型的不同看作节点类型的转换，而其中边就是转化的方程

DistMute：这里把不同的节点类型构造了一个对角阵

ComplEx：使用复数的形式捕获了节点之间关系并不对称的特征，比如A->B和B->A本质上不是一种关系，但上面的对角阵认为二者一致。使用复数空间的范数展开即可。

ConvE：这就很迷了，他reshape节点的Embedding，然后进行卷积，vec是把m维向量和n维向量转化成m*n维方阵的函数，换了种方式进行评分。

Benchmark

这部分没啥好说的，主要是几个指标可以注意一下，

异构节点或边所占的比例，节点度的分布状况，聚合系数、2跳中元路径的数量，数据标注程度这些因素对于异构图最终的效果有显著的影响。

评价指标：Macro F1，Micro F1，AUC，MRR等。

实验结果：

结论1：无监督，节点无属性的情况下，邻近效果比较好

结论2：节点有属性的情况下，HGT在link prediction和node classifier上效果都不错

结论3：知识图谱适用于链接预测，尤其是边的类型较为丰富的情况下

结论4：度偏移程度较高，或者节点和边的类型分布较为均匀效果都不好

结论5：随机隐藏边进行消融实验，MAGNN在节点识别的效果比较好

Data_Designer

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录