GraphSAINT: Graph Sampling Based Inductive Learning Method
在GCN中,需要从每一层的邻居中传递节点的信息,随着邻居层数的增多,节点呈指数级增长,因此GCN要想对特别深的网络进行学习,需要采用采样的方法。一般的采样是通过固定顶点邻居的个数来对邻居进行采样,本文提出了一种与以往完全不同的方法,通过在原图中采样子图,对这个子图进行完全的GCN学习。在采样子图的过程中,直观上需要尽可能保留那些对顶点影响比较大的节点,因此可能会引入采样的偏差,为解决这一问题,本文通过在聚合中引入节点和边被采样的概率来做normalization消除偏差。为进一步提升训练质量,本文通过量化邻居的影响力设计了一种轻量级的采样算法来降低采样方差。最后实验证明,本文的方法能起到非常有效的作用。
1、背景
在现在的图卷积中,由于图的大小可能非常大,传统的在全图上进行图卷积的操作往往是不现实的。因此往往采用了图采样的方法。图采样大致会分为:Layer Sampling 和 Graph Sampling两种。但是这两种方法都存在着一些问题。
Layer Sampling:
- 邻居爆炸:GNN会不断地聚合图中相邻节点的信息,则L-层的GNN中每个目标节点都需要聚合原图中L-hop以内的所有节点信息。在大图中,邻节点的个数可以随着L指数级增长
- 邻点爆炸式增长,使得GNN的minibatch训练极具挑战性。
- 时间耗费高:每一层卷积都要采样,这就导致计算的时间耗费。
Graph Sampling:
Graph Sampling是一种相对好的采样方法,可以在preprocess阶段提前采样图,并且可以进行mini batch的加速。但是这样的采样往往会丢失一些信息。
本文为了解决以上问题,提出了一种在图上进行Graph Sampling的相对较好的方法。
2、GraphSAINT
- 属于 G r a p h s a m p l i n g Graph\ sampling Gr</