阅读笔记
摘要
(1)Denoising Link Reconstruction
(2)Centrality Score Ranking
(3)Cluster Preserving
预训练方法介绍
模型框架如下图所示:
1.Denoising Link Reconstruction
作者认为一个好的特征提取器应该能够恢复链接,即使它们已经从给定的图中删除,由此提出了这项预训练任务。对于输入的图G,随即删除输入图G中的一些已经存在的边,来得到有噪声的输入图G*,接下来G* 作为GNN解码器F的输入,得到表征向量F(G*),之后将这些向量送入译码器NTN模型中,来预测节点u和v是否相连。
公式:
译码器和解码器均采用二元交叉熵损失函数来联合优化。
公式:
通过这种方法,经预训练的GNNs能够学习到输入数 embedding的一种鲁棒的表示,这种表示在含有噪声或者边信息部分丢失的图数据中很有效。
2.Centrality Score Ranking
节点中心度是Graph的重要指标。Centrality Score 能够根据节点位于图中的结构角色来衡量节点的重要性。通过预训练 GNN来对节点的各种Centrality Score 进行排序,GNN便能够捕获每个节点位于图中的结构角色。作者运用了四种Centrality Score
图或网络中的中心性
(1)Eigencentrality:节点的中心化测试值由周围所有连接的节点决定,即一个节点的中心化指标应该等于其相邻节点的中心化指标之线性叠加。
(2)Betweenness:如果一个成员位于其他成员的多条最短路径上,那么该成员就是核心成员,就具有较大的中介中心性;
(3)Closeness:如果节点到图中其他节点的最短距离都很小,那么它的接近中心性就很高。相比中介中心性,接近中心性更接近几何上的中心位置。
(4)Subgraph Centrality:是对节点度中心性的改进,基于节点对所在网络局部子图的参与程度来确定节点的重要性。衡量某节点对所有子图的参与度(到所有子图最近路径长度的和),他描述了节点在整个图中的’motif’角色。
详见:link1 link2 link3
这四种Centrality Score描述了节点在整个图中所承担的不同角色,因此,通过这四种Centrality Score的学习任务节点的embedding能够标注不同粒度的图结构信息。但是,由于Centrality Score在不同尺度的图之间无可比性,因此,需要利用Centrality Score的相对次序作为任务学习的标签。也就是说,对于节点对(u,v)和Centrality Score s 。他们之间的相对次序记作
则:
根据Burges et al., 2005所定义的成对排序方法,由以下公式估计排名的概率:
通过下式优化每一个Centrality Score s的F_rank,D_s_rank:
总结:通过Centrality Score Ranking任务,预训练的GNN能够学习到图中的每一个节点在全局中起到的作用。
3.Cluster Preserving
思考:对于这个任务,应该可以加负采样来继续实验
总结
本文设计了Denoising Link Reconstruction,Centrality Score Ranking,Cluster Preserving三个预训练任务从局部到全局,很有借鉴意义。