文章目录
说明
Google学术PDF文稿连接
本文为作者自己写的文章笔记。由于才刚刚大一结束,英文及学术水平有限,仅供参考。
Link Prediction Based on Graph Neural Networks
-
Muhan Zhang
Department of CSE
Washington University in St. Louis
muhan@wustl.edu -
Yixin Chen
Department of CSE
Washington University in St. Louis
chen@cse.wustl.edu
Abstract
本文介绍内容主要包含GNN进行链路预测问题的解答。传统Katz指标与共同邻居指标等方法具有较强的主观性,相当于模型建立时已经主观模拟了两个点可能连接的条件。基于这种传统方式的缺陷,引入一种学习机制,自主学习两个点连接可能性的计算方法。本文首先引入novel γ \gamma γ-decaying heuristic theory。然后引入GNN对链路进行预测。
1 Introduction
传统的启发式方法具备过量的主观性(Although working well in practice, heuristic methods have strong assumptions on when links may exist.),比如仅仅通过相同邻居数(CN方法)、Katz公式累计和(Katzs方法),并不一定真实显示实际情形的连接结构与链路引申概率。且此类方法仅仅利用了图像结构信息,即仅仅从无意义的临接矩阵中得到距离度量模式。
传统距离估算方法示例:
一种提出的解决方法是Weisfeiler-Lehman Neural Machine (WLNM,“Weisfeiler-Lehman Neural Machine for Link Prediction”,谷歌学术PDF文章链接),使用DNN简单的对这种连接模式进行预测。(Zhang and Chen[12] first studied this problem. They extract local enclosing subgraphs around links as the training data, and use a fully-connected neural network to learn which enclosing subgraphs correspond to link existence.)。这种方法首先对于每一条连边,提取K个以上邻居节点构成的子图。提取顺序是:先一阶邻居,再二阶邻居,以此类推;接着对提取的子图进行图编码,然后选择前K个进行提取。提取完子图之后为每个节点建立一个邻接矩阵(按照子图的哈希编码建立),将邻接矩阵输入到神经网络(文章使用的单隐藏层ANN分类器)中进行学习。
流程如下图所示:
然而上述方法存在着需要扩充h阶的情况,以求取前K哈希值的邻居节点。h是不确定的,并且很多情况下需要扩展到全图。本文提到了 γ \gamma γ-theory可以证明经过预处理之后使用一个很小的h就可以达到相同的预测效果。
通过改进,得到了一种新的方式SEAL(learning from Subgraphs, Embeddings and Attributes for
Link prediction)。首先使用GNN结合图像结构信息达到WLNM的效果,然后再综合节点本身带有的其他信息以达到预测的目的。其优势在于减少了计算的消耗并且不单单停留于节点的结构特征。
2 Preliminaries
Notations
无向图(G=(V,E)),临接矩阵( A i , j = 1 o r 0 ) A_{i,j}=1 or 0) Ai,j=1or0)),1-阶邻居( Γ ( x ) \Gamma(x) Γ(x)),点距( d ( x , y ) d(x,y) d(x,y)),路径( < x 0 , x 1 , … , x n > <x_0,x_1,\dots,x_n> <x0,x1,…,xn>),路径长度( ∣ < x 0 , x 1 , … , x n > ∣ |<x_0,x_1,\dots,x_n>| ∣<x0,x1,…,xn>∣)。
Latent features and explicit features
隐式特征可以由deep walk(深度游走)等方法获得。显示特征则通常有attribute直接以点的特征形式给出。谷歌学术隐式特征获得方式Node2vec的PDF论文链接
Graph neural networks
GNN形式在本文未详解,本文主要涉及应用。
Supervised heuristic learning
关于与本文最相似的WLNM,其使用ANN,缺点一是必须把所有子图化作同一种形式,其二是临接矩阵形式仅仅只能学习图像结构信息,无法与隐式特征与显实特征结合,其三是缺乏理论支撑。