基于图神经网络的节点表征学习
经典论文笔记(GCN MoNet ChebNet GraphSAGE)
- Semi-Supervised Classification with Graph Convolutional Networks(GCN)
这篇文章提出了一种图卷积网络(GCN),该网络可以直接用于处理图结构数据。从本质上讲,GCN 是谱图卷积(spectral graph convolution) 的局部一阶近似(localized first-order approximation)。GCN的另一个特点在于模型可以在图的边数上线性伸缩,并且可以学习编码局部图结构和节点特征的隐藏层表示。
l 谱图卷积
图上的谱卷积可以定义为信号与滤波器()在傅里叶域的乘积:
其中,为归一化拉普拉斯的特征向量矩阵,为相应的特征值矩阵(对角矩阵),为的图傅里叶变换。在这里,可以将看作是特征向量的函数,即。
但是对于图谱卷积来说,其计算代价非常大。未解决这个问题,这篇文章采用了Hammond et al.(2011)的方法,即使用切比雪夫多项式的阶截断来近似:
关于此近似的具体讨论可以参考Hammond et al.(2011)的文章,这里不再赘述。
回到信号和滤波器卷积的定义,现在有了:
通过这一近似,可以发现,谱图卷积只是依赖于距离中心节点步之内的节点(即阶邻居)。
l Layer-wise线性模型
该文将逐层卷积运算限制为,以解决极宽节点度分布图(如社会网络、引文网络、知识图谱和许多其他真实世界的图数据集)局部邻域结构的过拟合问题。
在GCN的线性模型中,文章定义,此时可以得到图谱卷积的一阶线性近似:
其中有两个自由参数和。用来约束参数个数之后,可以得到:
但是,当不停地重复该操作时,可能会引起梯度爆炸或梯度消失。为解决此问题,该文引入renormalization trick:,其中,。最后,当图中每个节点表示为一个大小为C的向量时,可作如下定义:
其中为参数矩阵,为相应的卷积结果。
经过以上推导,可以得出图卷积神经网络(单层)的最终形式:
参考文献:David K. Hammond, Pierre Vandergheynst, and Remi Gribonval. Wavelets on graphs via spectral graph theory. Applied and Computational Harmonic Analysis, 30(2):129–150, 2011.
- Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering(ChebNet)
基本的频域卷积网络要计算拉普拉斯矩阵所有的特征值和特征向量,计算成本非常高。这篇文章对图卷积神经网络定义并实现了快速局部化谱过滤器,从而提升了计算效率。
卷积神经网络在图上的应用并不是直接的卷积与池化操作,无论是在理论与实践方面,定义谱过滤器对评估与学习特征起到至关重要的作用。本文中提出了应用切比雪夫多项式(Chebyshev polynomials)来改进过滤器,已达到加速特征矩阵求解的目的。将参数化为一个多项式函数,该多项式函数可以从中递归计算,因为乘上一个稀疏的会将复杂度降级到。这样的多项式就是切比雪夫展开。
假设切比雪夫多项式的第k项是, 频域卷积核的计算方式如下:
其中,的作用是让特征向量矩阵归一化到之间。可以由切比雪夫多项式的定义得来。
这种方法有几个重要的优点。首先,它不需要拉普拉斯特征向量的显示计算。第二,由于拉普拉斯算子是一个局部算子,只影响顶点的1跳邻域,它的(K-1)次幂影响K跳邻域,因此得到的滤波器是局部的。
- Geometric deep learning on graphs and manifolds using mixture model CNNs(MoNet)
这篇文章提出了混合模型网络(MoNet),一个将CNNs泛化到非欧几里德域(如图和流形)上的通用框架。其方法遵循了空间域方法的一般原理,并可以学习局部的、平稳的、组合的特定任务特征。这篇文章也表明了先前文献中提出的各种非欧几里德CNN方法(如GCNN、ACNN、GCN、DCNN都可以被视为本文提出框架的特例。
论文中用x表示一个图顶点,用y表示x的邻居节点,每个y关联一个伪坐标的D维向量。在这些坐标中,定义一个权重函数,该权重函数由一些可学习的参数参数化。因此,patch operator可以写成以下形式:
,
然后,将该形式泛化到非欧几里德域上的卷积空间:
该架构的关键是伪坐标u和权重函数的选择。表1显示,其他深度学习方法(包括欧氏域上的经典CNN,图上的DCN和DCNN,流形上的GCNN和ACNN)都可以通过适当定义u和获得。
该文不使用固定的手工权重函数,而是考虑参数可学习的参数核。权重函数如下:
其中和是可学习的和协方差矩阵和高斯核平均向量。进一步将协方差限制为对角线形式,可得到每个核的参数,以及patch operator的参数。
- Inductive Representation Learning on Large Graphs(GraphSAGE)
这篇论文提出了一个通用的框架,称为GraphSAGE(Graph SAmple and aggreGatE),用于归纳节点embedding。与基于矩阵分解的embedding方法不同,该文章利用节点特征(如文本属性、节点基本信息、节点的度)来学习一个能泛化到未知节点的embedding函数,即从transduction到induction。通过在学习算法中加入节点特征,可以同时学习每个节点邻域的拓扑结构以及节点特征在邻域中的分布。
本文训练了一组从节点的局部邻域学习聚合特征信息的聚合器函数(图1),每个聚合器函数从给定节点以外的不同跳数或搜索深度来聚合信息。
l Embedding生成(前向传播