1. Introduction
提出了walkpool算法,优势是可用于同质图和异质图(heterophilic and homophilic graphs)。
1.1 Related work
过去的启发式算法:CN,AA,Katz index,PageRank,依赖于路径。基于一个准则,similar nodes connects。
启发式算法的缺点:
- 为同质图或异质图定制;
- 不能使用节点的feature特征。
- 用仅依赖于两个节点的一个score function来决定节点间是否存在链接(内积);
- 在focal link附近抽取一个子图并解决链接预测问题通过子图的分类。
GNN-based link prediction算法的缺点:
- 间接地捕捉many-body和long-range correlations;
- 复杂的拓扑性质例如:motifs出现的频率会被忽略。
现有的state-of-the-art link prediction模型SEAL存在的问题:important structural motifs are represented indirectly 。
作者提出:链接预测问题的现有的瓶颈是:suboptimal pooling which fails to account for topology.
什么是suboptimal pooling?
1.2 Our contribution
WalkPool:在一些latent graph上通过将节点表示和图拓扑编码成随机游走的转移概率来抽取高阶的结构信息。
WalkPool:extracts higher-order structural information by encoding node representations and graph topology into random-walk transition probabilities on some effffective latent graph, and then using those probabilities to compute features we call walk profifiles.
优点:既能做为一个节点表示的算法,又能结合GNN进行端对端的学习。
2. Link prediction on graphs
链接预测问题的定义:把链接预测问题转化为一个二分类问题。
随机游走:
the transition matrix(转移矩阵):从节点i转移(通过随机游走)到节点j的可能性矩阵。
这里,D是对角阵,对角线元素为节点的度,A为邻接矩阵,P为转移矩阵。一个random walker从节点i转移到节点j的可能性与节点i的邻居的数量成反比。
Powers of P:[Pτ ]ij is the probability that a random walker starting at node i will reach node j in τ hops.
转移矩阵的幂中的元素代表:一个random walker由节点i开始在t hops到达节点j。
转移概率在WalkPool中的使用:
transition probabilities in WalkPool are determined as coefficients of an attention mechanism applied to learned node features.
feature extractor:
输入是邻接矩阵和节点的特征矩阵,输出是一个distilled node feature matrix。
3. WalkPool for link prediction by subgraph classification
walk profifiles:using transition probabilities to compute features 。
WalkPool流程
- 采样一个包含the target link的k-hop subgraph(被观测到的所有的边的大图的子图);
- 在包含和不包含target link的情况下计算子图的random-walk profifiles;
- 然后把Random walk profifiles送进a link classififier。
focal link:待预测的链接,送进分类器可能是True,也可能是Flase。