人大魏哲巍:图神经网络的理论基础

专栏:研究思路】近年来,由于图结构数据的强大表现力,用机器学习方法分析图的研究越来越受到重视。图神经网络是一类基于深度学习的处理图结构数据的方法,在众多领域展现出了卓越的性能,因此已成为一种广泛应用的图分析方法。

中国人民大学魏哲巍教授从当前流行的图神经网络模型出发,分别从图信号滤波器、随机游走和优化函数三个视角探讨图神经网络的理论基础,并介绍在这三个方面所做的一些工作,最后讨论图神经网络研究的一些挑战和对未来工作的展望。

魏哲巍教授从上述三个视角对图神经网络展开分析,并指出它们分别对应图的谱域解释、空域解释、深度展开。本文将会对图谱、图的傅里叶变换、图卷积等概念进行介绍,帮助读者梳理图神经网络研究的理论基础。

c3d4a078a82572b5d338b06597b3820d.png

本文整理自青源Talk第七期,视频回放链接:https://event.baai.ac.cn/activities/179

此外,魏哲巍教授对青年学生的寄语如下:

魏哲巍,中国人民大学教授,博导。2008年本科毕业于北京大学数学科学学院,2012年博士毕业于香港科技大学计算机系;2012年至2014年于奥胡斯大学海量数据算法研究中心担任博士后研究员,2014年9月加入中国人民大学信息学院担任副教授,2019年8月起任教授。2020年4月加入高瓴人工智能学院。在数据库、理论计算机、数据挖掘、机器学习等领域的顶级会议及期刊上(如SIGMOD、VLDB、ICML、NeurIPS、KDD、SODA等)发表论文50余篇。担任PODS、ICDT等大数据理论会议论文集主席以及VLDB、KDD、ICDE、ICML、NeurIPS等国际会议程序委员会委员。主持多项自然科学基金青年项目、面上项目及重点项目子课题。担任人工智能与数字经济广东省实验室(广州)(简称琶洲实验室)青年科学家。

演讲:魏哲巍

整理:熊宇轩

审校:李梦佳

aeeb0b76dc2b55cf4e6a53fdabb5bc1b.png


01

图的基本定义

在现实生活中,图数据无处不在。例如,在社交网络中,可以将用户作为节点,好友关系、转发关系、点赞关系作为图中的边;在论文引用网络中,论文为节点,引用关系为边;在通讯信号网络中,信号基站、手机为节点,边的权重为节点之间的信号强度。

ec383865e4e46b2bd0a3804dab4a8317.png

在无向图47969c8bc7b30cd5f82a838f1249d024.png中,我们将节点集合定义为 V,其节点个数为 n;边集为 E,其节点个数为 m。若节点 i 和节点 j 之间存在连接关系(边),则邻接矩阵 A 中对应的元素dcbfd5db2ac4f19c2d2b1818bdf8be34.png值为 1,否则该元素的值为 0, A 为一个对称矩阵。ji矩阵 D 为一个对角矩阵,第 i 行对角线上的元素d49a20b3306e09230e2171a2db20283a.png为节点 i 的邻居节点的数量。归一化后的邻接矩阵 P 为邻接矩阵 A 分别左乘、右乘ad769d05e780f4292f3ace4dd7f10503.png,其中对角矩阵594280091855a38d0a802a7fc2265f82.png对角线上的元素为度矩阵 D 对角线上每个对应元素开根号、取倒数后的结果。归一化后的拉普拉斯矩阵为单位矩阵 I 与归一化后的邻接矩阵 P 之差。

212917872388fc60ce3fd4cbd2ec071f.png

除了刻画图结构信息的矩阵之外,我们将刻画每个节点特征信息的矩阵记为efc502039919cc513400d9a6e081bbe2.png,其中 n 为节点个数,f 为特征维度。例如,上图中六个节点的特征分别为一个维数为六的 one-hot 向量。

02

图神经网络概述


图卷积神经网络(GCN)

93b7f7c4c946c8c57ac677c73ab7e7aa.png

Kipf 等人于 ICLR 2017 提出了 GCN,希望在图结构上聚合邻域信息,学习消息传递过程中的权重。如上图所示,在计算第 l+1 层表示的公式中,d236c8e8c33a7120698ecb539e6a216f.png为第 l 层的表示结果,5598f88bf958c490b498efb7ca05deaa.png为每个节点带有自环的正则化之后的邻接矩阵,ff106acc2b4d1eab19e12a9f52c3ea58.png为待学习的权重矩阵,b5fd83f32dda14a57bf9bebd93af9d03.png为非线性激活函数。上图中从上往下数最后三行为计算节点 0 表示的过程。

2d8a3b4173b09e8dbad3347aab0be831.png

我们可以将卷积神经网络(CNN)看做一种特殊的图卷积神经网络(GCN)。当我们使用 3*3 的卷积核提取图像信息时,将中心节点427feca0d3cfef4f319045c17e961135.png周围的八个邻居节点及其自身的信息聚合起来,得到了新的表征。值得注意的是,在 CNN 中,每个节点与中心节点在信息聚合时的权值 w 是可以通过学习得到的,而 GCN 中节点之间的聚合权值仅由每个节点的度决定。

图神经网络已经被应用于节点分类、链接预测、社区发现等任务。例如在交通领域,DeepMind 利用图神经网络预测各个道路节点之间的交通流量,改进了 Google Map 的出行时间预测功能。在药物研发领域,研究者们将原子看做分子图中的节点,将化学键视为分子图中的边,利用图神经网络提取分子特征,预测分子的属性,从而筛选出制药所需要的合理分子结构。KDD Cup 2021 设立了大规模分子性质预测竞赛。

网址:Https://ogb.stanford.edu/kddcup2021

03

图神经网络的三个视角

滤波器:GNN 的谱域解释

d55bfbd775eedfd0710c1ba4960560d6.png

我们可以用向量表示图上的信号。如上图所示,我们将地图上不同的观测点作为图中的节点,节点上的红色线段的高度代表该观测点测量到的温度,这里测量到的温度可能不准确,带有一定的噪声。从图信号处理的角度出发,我们希望通过该观测点周围的信号对其进行平滑处理,使得该观测点的温度数据更加准确。具体而言,我们将图中节点的信号与拉普拉斯矩阵 L 的函数相乘,从而将节点的信号向邻居节点传播。

d7f6db4c8d3c02e52d46b405af0e25ab.png

我们根据拉普拉斯矩阵的特征分解将图的傅里叶变换定义为如上图所示的形式。如前文所述,拉普拉斯矩阵 L 是一个对称矩阵,我们可以将其分解为三个矩阵的乘积。其中f27150767a03eff2bddb6981e449b0d3.png为对角矩阵,对角线上的值为特征值,特征值的取值范围为 [0,2]。66474547339a9d91b40ed76c2066bed1.pngfb0361e26ffc81b775a98076c6e7dfd5.png为正交矩阵,ae6317ae17493a9f40a20f88555cc4e7.png的每一个分量为拉普拉斯矩阵 L 的特征向量,其二范数为 1。由于 L 为对称矩阵,所以e664a54ca1bfd7f41f1a02f3dd63dc86.png的任意两个特征向量正交,即点积为零。由于1a5d5dc413ffe02d29eca37384132952.png918a2fe60db809f11de91f4dd42ff45b.png为正交矩阵,则二者乘积为单位矩阵,因此图信号的傅里叶变换和傅里叶逆变换的关系成立。

44ca6a08939d387a17ae5bd017f3174e.png

如上图所示,图信号的傅里叶变换令图上的信号左乘b1443290fdf7c36b4eb93e3e50f8df36.png,相当于对笛卡尔坐标系下的图信号5043fdafecf34999df6cebe3b66657be.png旋转,将其变换到由e32084582d167b8a0ddcd252c3d765de.png中特征向量组成的正交基坐标下。

e67c414dc5b0c9d12aff12479a5e0ef8.png

如上图所示,传统的时域-频域上的傅里叶变换是将时域中的函数分解为不同频率的波动函数的线性组合,此时我们可以将不同频率的信号看做一组正交基。就图傅里叶变换而言,我们可以将负无穷与正无穷相连的实数轴刻画为环状图,其特征向量的频率随着特征值的增加而增加,因此小的特征值对应低频特征向量,而大的特征值对应高频特征向量。可见,图傅里叶变换是将一组空域上的图信号转换为一组波动频率逐渐升高的正交基下的坐标的变换。

ac8984a942949a6115bf66de6d4c016f.png

在对图信号ed6ba695da4bf33701f740f993abe1c4.png进行滤波的过程中,我们首先对图信号进行傅里叶变换,接着我们对频谱域中的特征值做滤波操作,过滤掉某些频率的信息,进而将滤波后的信号通过图傅里叶逆变换转换到原始空间中。其中,031e979a665bba29c54e2cd6f20362f6.png/bde24c08abea1bb2955e7624ea4ac704.png为滤波器,当12a4a04b631728dfd1c662b2295309c6.png都等于 1 时,该滤波器相当于一个全通滤波器。

卷积定理指出,卷积的傅里叶变换等于两个信号傅里叶变换的点积(Hadamard 积)。203ead3f8e24bf476aa09e390cc39df7.png为谱域的卷积滤波器,它是 L 特征值的函数。如上图所示,图上的卷操作可以写作图傅里叶变换的形式。

bace3b93b1dbe445be62b870997050d0.png

在节点分类任务中,滤波器起到了决定性的作用。我们将边相连的节点通常属于同一类的图称为同配图,将边相连的节点通常属于不同类的图称为异配图。低通滤波器适用于同配图的分类,高通滤波器适用于对异配图的分类。

不幸的是,处于计算开销的考量,当节点数较多时,稠密矩阵3708be8c789c7cafc1211cdc17af5a62.png的规模过大,特征值分解的复杂度太高。为此,目前主流的图卷积神经网络算法采用多项式近似滤波器,从而降低计算复杂度。

373e18fe170a2e2672f03477a56114f2.png

在 ChebNet 中,作者采用切比雪夫多项式近似滤波器,其表示能力强于 GCN。如上图所示,不同颜色的曲线代表了不同阶切比雪夫多项式对应的基,随着多项式阶数上升,其频率越来越高,这与图傅里叶变换类似。

94d2e33029b664de7d50c64bbe106eb9.png

ChebNet 在一些半监督任务上的效果欠佳。为此,Kipf 等人于 2017 年提出 GCN,简化了 ChebNet,只使用了前两阶的切比雪夫多项式,并且通过加入自环进行了重归一化。然而,该模型在进行节点分类时,只能使用两层 GCN,即利用 2 以内的邻居信息。

26ab1faf1b2b8ed99ed804ab593b55e9.png

以低通滤波器为例,单层 GCN 低通滤波器可以线性地保留低频信号,过滤高频信号。但是,随着 GCN 层数 K 上升,滤波器会越来越平滑,在 K 极大的情况下几乎只允许最低频的信号通过。

95a91d3b7e0ee024062f6bec9e017f37.png

此外,研究者们尝试使用各种各样的多项式学习滤波器。以 ICLR 2021 上发表的论文 GPR-GNN 为例,作者利用了 Monomial 学习多项式系数d64c558e4de23ec8bc9c27e6a9ebc980.png6920b6a66e50f94aca7a0b6fcd29234c.png大于等于零时,该网络相当于低通滤波器;859bb6f9096c811faf5f199fbcd862d6.png时,该网络相当于高通滤波器。然而,该架构缺乏可解释性,不能解释学到的任意滤波器。

BernNet: Learning Arbitrary Graph Spectral Filters via Bernstein Approximation(NeurIPS, 2021)

cdd5fc4140e08257f49146c472f5e1d5.png

在 NeurIPS 2021 上,魏哲巍教授团队提出了 BernNet,该架构可以学习/设计任意的谱滤波器。如前文所述,特征值2479f959dd4bc00a6fb37383d504a7d9.png,合理的多项式滤波器86ae2149f37c3836c7c65bf345620837.png。若fd6bf1063ad571886c52d92fd8a5015c.png小于零,图神经网络的滤波结果会随着层数的奇偶变化震荡。然而,GCN 等图神经网络并不满足上述条件。

3b8b80badbb6a927508d10bcd9a4e460.png

魏哲巍教授团队发现,在谱域上,977bea18ad72e8679145d161a2755b37.png区间内非负的任意多项式可以写成 Bernstein 多项式的形式,该多项式的系数142be3349adba9fca46022e468f52f7b.png,我们可以用一组 Bernstein 基线性近似任意多项式,从而学习任意的滤波器。受此启发,我们将 BernNet 模型定义为:

de336888bb7c2a3aec29c78603da4828.png

3e539c592571db0eccfd4ad36374631a.png

Bernstein 多项式为 BernNet 带来了很强的可解释性,其中1944b1b4e9a37a63b82ba3d4e30a381d.png对应滤波器18b8ff3c9108fec3837bafd5d000fef0.pngb3d95afdeb7cbbadb2b47b21a623ec57.png处的函数值。如上图所示,假设滤波器函数为拒绝中频信号的753a2d3526090199dba151a4ee4400bd.png,我们将[0,2]均匀分成 k 分,将「0」、「2」及每个分位数对应的c7ba7108cf9858c3332be5ba888884cd.png定义为系数0ab6501616a8929c543516f3660cfe62.png。我们将这组系数与对应的伯恩斯坦多项式线性组合起来就得到了右侧 BernNet 的曲线。为了保证a1fd58fc3a1f6b7f190cd8235f0d3b7b.png,我们只需将220e96a4e91e1ca06e25d3061f7326d4.png重参数化为67c7597c3c64b740df6cbe2d706de92b.png,从而保证该滤波器的值恒大于等于零。这样一来,我们就可以学习任意的滤波器,且拟合精度随着 k 的增加而提升。

随机游走:GNN 的空域解释

ef3293d79ab974d8f4f05790bd53c007.png

在随机游走的马尔科夫过程中,我们在每一步上从某节点以相等的概率走向该节点的某个相邻节点,概率转移矩阵记为20b03b82dd5ea9ef179e649ee9de921e.png。大部分随机游走过程会收敛到某个稳态上,即9d9ebf631f7f1343a192455455afe1b6.png。在无向图上,节点 v 处的稳态为4b1faf5e0f1e51fbfd6cc56145b4078d.png,即 v 点的度除以两倍的图中边总数。可见,稳态分布与随机游走的起始节点无关。我们可以通过 Cheeger 不等式刻画在随机游走中收敛的速度,该不等式也可以被用于社区发现:

9cd24ecc2fafdb69a622b6796fd1e439.png

其中2923617f843ad074c34a30ba93ca98ad.png为从节点 u 开始的第 K 步随机游走,82e03fbcdb1343acd9ee4dc069211444.png为拉普拉斯矩阵最小的非零特征值。

b760fa9de54d0fe2596b5ce2780d4da7.png

我们可以通过随机游走解释 GCN 的过平滑现象。如上图所示,在去掉激活函数后,第 K 层的图表示结果为767ec0d3e33aa6b3a68ec50752382c99.png,将归一化后的邻接矩阵展开后,可得e13821a08612430572b275a0071af947.png。其中5415c5a51d57e0ba0cf281b4eb738803.png为 K 步随机游走后的概率分布,随着 K 的增大会收敛到稳态。也就是说,最终的图表示只与图的结构相关,与随机游走初始节点无关。随着图卷积网络层数加深,网络会逐渐「忘记」初始特征,出现过平滑现象,导致节点分类效果较差。

一些研究者曾试图通过加入残差连接(自环)解决过平滑,但该操作并不能奏效,因为该情况下的随机游走是一个速率较慢的 Lazy 随机游走,但仍然会收敛到稳态。Oono 和 Suzuki 等人于 ICLR 2020 发表的论文指出,当加入激活函数时,图神经网络收敛到稳态的速度乘指数形式,其收敛速度由图的拓扑结构决定。

GCNII:Simple and Deep  Graph Convolutional Networks(ICML, 2020)

3d60fe8b4a7b56e3c033ffde5ed13f10.png

如上图所示,为了解决 GCN 存在的过平滑问题,魏哲巍教授团队通过初始值残差连接在每一层的图表示上加上初始特征,并且向每一层的权重中加入了单位映射,从而更多地保留了上一层的表示。

835c62ee6e5b5994f08d34c8124ee704.png

通过加入初始值残差,我们实现了「带重启」的随机游走,随机游走在每一步上有018e5f9dad817e6b2a1ef698b6422696.png的概率返回初始状态,有c8bfcbddd009c3e0a428ca321eb93737.png的概率随机走向当前节点的任一邻居,此时稳态的分布就与起始节点有关了。这种随机游走与 PageRank 算法使用的方法类似。

13c9d11c004868ad13e199b3fd8c8556.png

受到马腾宇博士论文「Identity Matters in Deep Learning」的启发,我们向待学习的权重矩阵加入了单位矩阵,有效提升了模型的泛化能力。

优化函数:GNN Deep Unfolding

b497688ccad98ad4143e4b235d1a584f.png

Cai 等人在 2020 年指出,GCN 实际上是在最小化狄利克雷能量:

4cabdf5c9fe34d8369e17d40a634ce76.png

其中,A 为邻接矩阵,z 为节点特征,d 为节点度数。狄利克雷能量可以衡量图满足同配性假设(邻居节点特征具有相关性)的程度。可以证明,GCN 的迭代实际上是狄利克雷能量优化函数的近端梯度下降算法。然而,狄利克雷能量可能迭代到 0(当节点 i 与节点 j 有连边时,369e92b6becbd1736b5c936dce10a3bb.png),此时会失去初始特征,出现过平滑现象。

b34de871419285d3fabf4620445efe15.png

为了防止狄利克雷能量迭代到 0,我们在目标函数中加入 L-2 正则项,在最小化狄利克雷能量同时,保证节点特征与初始特征保持一定的相似程度。加入上述正则项后,目标函数梯度为 0 时,节点特征的迭代式与 GCNII 统一。

Graph Neural Networks  Inspired by Classical Iterative Algorithms(ICML, 2021)

003c1f5933aba9ff62ea80cddbc918c4.png

为了通过优化函数刻画更多的图模型、激活函数,寻找优化函数与滤波器、注意力机制之间的联系。魏哲巍教授团队在 ICML 2021 上发表了论文「Graph Neural Networks Inspired by Classical Iterative Algorithms」,提出了统一的 GNN 优化函数:

a59e3942a47f68550f9e28b616e37aa5.png

其中,半正定的bcefdfca09c3cfe83a19cecceb312548.png为拉普拉斯矩阵的函数,其特征值8cb1c4b46b3aae6679db5e820b9ef36a.png,从而保证了上述优化函数为凸函数。该框架非常灵活,当c194086fbbb14ea656ffbd76c030c0f0.png时,狄利克雷能量函数变为了:

566786b73157acb54377ee698c5066c4.png

该能量函数可以解释异配性假设:邻居节点的特征具有负相关性。当1e8d39db48f896716b2de88817a06325.png时,节点的表征为热核形式,可以用来解释 GDC、GraphHeat 的设计,优化函数的最优解为:

ed88feac1e30a46554a220b693c84ecd.png

d92b663e136ea5b4720a1fc98b940a94.png

通过在优化函数中加入非负正则项196aec7beb01f89ce508f27447642a9d.png,我们可以给 z 中小于 0 的项施加正无穷的惩罚。此时,近端算子对应于激活函数 ReLU。

f81062011f227d5ad8b7a109c8c3774a.png

如果我们通过4d4d6c1d1b1522d2afb4771166efd128.png对拉普拉斯矩阵进行特征值分解,相当于进行了滤波操作。当a37639c7bb226fb71fc81f890dcce052.png半正定时,图神经网络即为 BernNet。

e412b1acf07975faa39a8400123b10d6.png

我们通过11394d5a63e5e3f3ff07adb178a0cdea.png定义图中边的平滑程度,则该函数的切线斜率决定了 GAT 的注意力权重。基于上述思想,魏哲巍教授团队设计了新的 GNN 模型 TWIRLS,使用迭代重加权最小二乘法解该优化问题。

04

结语

58921e8b4a14f223dd112874edae5555.png

在本次演讲中,魏哲巍教授从滤波器、随机游走、优化函数三个角度介绍了图神经网络的理论基础,分析了 GCN 存在过平滑现象的原因,举例说明了如何针对性的对图神经网络进行改进,从而解决过平滑等问题,设计出更加高效的滤波器。

在魏哲巍教授看来,图机器学习有着非常广阔的研究前景。目前,图机器学习的核心假设尚不明确、可扩展性有待提高,期待出现图神经网络的「杀手级」应用。

欢迎点击阅读原文参与文章讨论。

  • 0
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值