图预训练论文笔记
-
- 1. Strategies for pre-training graph neural networks
- 2. Multi-stage self-supervised learning for Graph Convolutional Networks on graphs with few labeled nodes
- 3. GPT-GNN: Generative Pre-training of Graph Neural Networks
- 4. Pre-training Graph Neural Networks for Generic Structural Feature Extraction
- 5. Graph-BERT: Only Attention is Needed for Learning Graph Representation
- 6. GCC: Graph Contrastive Coding for Graph Neural Network Pre-Training
- 7. Deep Graph InfoMax
1. Strategies for pre-training graph neural networks
ICLR 2020
Weihua Hu, Bowen Liu, Joseph Gomes, Marinka Zitnik, Percy Liang, Vijay Pande, Jure Leskovec
Stanford University, The University of Iowa, Harvard University
关键词:GNN pre-training, node-level and graph level pre-training tasks
本文是针对图数据做的预训练,作者从两个维度考虑,将预训练任务划分为四种。
本文使用了三个预训练任务,分别为Attribute masking, Context prediction, supervised attribute prediction。
1. Attribute masking (node-level self-supervised learning)
将图中15%的节点属性或者边属性mask掉,利用GNN学习节点的embedding,最后接上一个线性模型去预测被mask掉的属性值。
2. Context prediction (node-level)
利用subgraph去预测周围的图结构,目标是预训练一个GNN模型,这个模型可以使得出现在类似结构中的节点embedding相近。
对于每个节点,有两种表示,一种是基于k-hop邻居节点的表示,一种是context graph embedding,图示如下:
其中,中心节点的K-hop邻居是指距离该中心节点的最短路径小于等于K的节点,即上图中蓝色虚线圈内的节点。K-hop neighborhood embedding是指中心节点基于k阶邻居的向量表示,也就是利用GNN(main GNN)迭代k次,学习得到的表示。中心节点的context graph是指该中心节点 r 1 r_1 r1-hop 到 r 2 r_2 r2-hop 之间的部分,也就是上图中小虚线红圈和大虚线红圈中间的部分。这个部分与节点的K-hop邻居节点相交的节点称为context anchor nodes。通过另一个GNN(context GNN)网络学习得到节点embedding,然后将context anchor node embedding平均,得到context graph embedding。
得到了两种表示之后,通过负采样的方式联合学习main GNN和context GNN。
这里的 h v ( K ) T h_v^{(K)T} hv(K)T 是指中心节点v通过GNN迭代K次得到的节点表示, c v ′ G ′ c_{v'}^{G'} cv′G′是context graph embedding。正样本是中心节点v和v’是同一个节点,负样本是随机选择一个与v不同的节点。每个正样本对应一个负样本。
学习得到的main GNN作为预训练后的模型。
3. Supervised attribute prediction (graph-level)
两个node-level prediction的预训练任务都是self-supervised的,这里的graph-level预训练任务是supervised的。其中的监督信号是图的label,也就是通过图的embedding预测其label。
4. graph-level structure prediction
对应的预训练任务是structure similarity prediciton。相关的工作包括:modeling the graph edit distance (Bai et al., 2019) or predicting graph structure similarity (Navarin et al., 2018)。但是由于graph distance的groundtruth却反&#x