WWW2021 Interpreting and Unifying Graph Neural Networks with An Optimization Framework 阅读笔记

论文:interpreting and Unifying Graph Neural Networks with An Optimization Framework

代码:  https://github.com/zhumeiqiBUPT/GNN-LF-HF

B站视频:https://www.bilibili.com/video/BV1Fh411Q7x7

摘要

图神经网络(GNNs)在广泛的图结构数据学习中受到了相当多的关注。设计良好的传播机制是gnn最基本的组成部分。虽然大多数gnn基本上遵循信息传递的方式,但人们已经努力发现和分析它们的基本关系。在本文中,我们建立一个令人惊讶的连接不同传播机制与统一的优化问题,表明尽管各种网络的扩散,事实上,他们提出的传播机制是最优解决方案优化特征拟合函数在广泛类的图内核图正则化。我们提出了统一优化框架,总结了几个最具代表性的gnn之间的共性,不仅为考察不同gnn之间的关系提供了宏观的视角,也进一步为灵活设计新的gnn提供了新的机会。在此框架下,我们发现现有的工作通常利用朴素的图卷积核进行特征拟合函数,并进一步开发了两个新的目标函数,分别考虑可调图核分别显示低通或高通滤波的能力。此外,我们还提供了收敛性的证明和表达能力的比较。在基准数据集上的大量实验清楚地表明,所提出的gnn不仅优于现有的方法,而且具有良好的缓解过度平滑的能力,并进一步验证了用我们的统一优化框架设计gnn的可行性。

符号定义:

X为特征矩阵,A为邻接矩阵(如果节点i和j之间有边,A_{ij}=1,否则为0),对角度矩阵D=diag(d_1,d_2,..,d_n),其中 d_{i}=\sum{​{}_j \mathbf{A}_{i, j},即每行之和。

邻接矩阵加自环:\tilde{\mathbf{A}}=\mathbf{A}+\mathbf{I}

度矩阵加自环:\tilde{\mathbf{D}}=\mathbf{D}+\mathbf{I}

归一化邻接矩阵:\hat{\tilde{\mathbf{A}}}=\tilde{\mathbf{D}}^{-1 / 2} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-1 / 2},设其对应的度矩阵为:\hat{\tilde{\mathbf{D}}}

归一化对称正半定图拉普拉斯矩阵: \tilde{\mathbf{L}}=\mathbf{I}-\tilde{\tilde{\mathbf{A}}}

方法:

作者认为:尽管不同的gnn具有不同的传播机制,但事实上,它们通常潜在的目标是实现两个目标:从特征中编码有用的信息和利用拓扑的平滑能力,这可以正式表述为以下优化目标:

\boldsymbol{O}=\min _{\mathbf{Z}}\{\underbrace{\zeta\left\|\mathbf{F}_{1} \mathbf{Z}-\mathbf{F}_{2} \mathbf{H}\right\|_{F}^{2}}_{O_{f i t}}+\underbrace{\xi \operatorname{tr}\left(\mathbf{Z}^{T} \tilde{\mathbf{L}} \mathbf{Z}\right)}_{O_{r e g}}\}

其中 \zeta是非负系数,\xi的[0,1]之间的参数。H是对原始输入特征矩阵X的变换。F_1F_2被定义为任意图的卷积核。Z是传播的表示形式,对应于最小化目标O时的最终传播结果。

第一部分O_{f i t}是一个拟合项,通过设计不同的图卷积核f1和f2,灵活地将H中的信息灵活地编码到学习到的表示Z。图卷积核F1和F2可以从\mathbf{I}\hat{\tilde{\mathbf{A}}\tilde{\mathbf{L}}中选择,分别显示了全通、低通、高通滤波能力。

第二项O_{reg}是一个图拉普拉斯正则化项,约束两个连接节点的学习表示变得相似,从而可以捕获同质性,O_{reg}来自以下图拉普拉斯正则化:

\mathcal{O}_{r e g}=\frac{\xi}{2} \sum_{i, j}^{n} \hat{\tilde{\mathbf{A}}}_{i, j}\left\|\mathbf{Z}_{i}-\mathbf{Z}_{j}\right\|^{2}=\xi \operatorname{tr}\left(\mathbf{Z}^{T} \tilde{\mathbf{L}} \mathbf{Z}\right)

 证明的一部分来自论文: Graph Regularized Nonnegative Matrix Factorization for Data Representation 的公式5

这里我把完整证明过程写出来:

\begin{aligned}\frac{1}{\xi} \mathcal{O}_{r e g} &= \frac{1}{2} \sum_{i, j=1}^{n} \hat{\tilde{\mathbf{A}}}_{i,j} \left\|\mathbf{Z}_{i}-\mathbf{Z}_{j}\right\|^{2} \\ &=\frac{1}{2} \sum_{i,j=1}^{n} \hat{\tilde{\mathbf{A}}}_{i,j} (\left\|\mathbf{Z}_i \right\| ^2 + \big\| \mathbf{Z}_j \big\| ^2-2\cdot \mathbf{Z}_{i}^{T}\mathbf{Z}_{j}) \\ &=\sum_{i,j=1}^{n} \hat{\tilde{\mathbf{A}}}_{i,j} \left\|\mathbf{Z}_i \right\| ^2 - \sum_{i, j=1}^{n} \hat{\tilde{\mathbf{A}}}_{i,j} \mathbf{Z}_{i}^{T} \mathbf{Z}_{j} \\ &=\sum_{i=1}^{n} \hat{\tilde{\mathbf{D}}}_{i,i} \mathbf{Z}_{i}^{T} \mathbf{Z}_{i} - \sum_{i, j=1}^{n} \hat{\tilde{\mathbf{A}}}_{i,j} \mathbf{Z}_{i}^{T} \mathbf{Z}_{j} \\ &=\operatorname{tr}\left(\mathbf{Z}^{T} \hat{\tilde{\mathbf{D}}} \mathbf{Z}\right)-\operatorname{tr}\left(\mathbf{Z}^{T} \hat{\tilde{\mathbf{A}}} \mathbf{Z}\right)=?\operatorname{tr}\left(\mathbf{Z}^{T} \tilde{\mathbf{L}} \mathbf{Z}\right) \end{aligned}

(最后一步,如果是D^{-1}L的归一化,这个等式是成立的。)

GNN的传播机制与优化目标之间的总体对应关系:

基于统一的优化目标,作者提出了两种GNN,分别是低通滤波和高通滤波版本。

低通滤波:    \boldsymbol{O}=\min \left\{\left\|\{\mu \boldsymbol{I}+(1-\mu) \hat{\tilde{\boldsymbol{A}}}\}^{1 / 2}(\boldsymbol{Z}-\boldsymbol{H})\right\|_{F}^{2}+\xi \operatorname{tr}\left(\boldsymbol{Z}^{T} \tilde{\boldsymbol{L}} \boldsymbol{Z}\right)\right\}

高通滤波:  \boldsymbol{O}=\min _{\boldsymbol{Z}}\left\{\left\|\{\boldsymbol{I}+\beta \tilde{\boldsymbol{L}}\}^{1 / 2}(\boldsymbol{Z}-\boldsymbol{H})\right\|_{F}^{2}+\xi \operatorname{tr}\left(\boldsymbol{Z}^{T} \tilde{\mathbf{L}} \boldsymbol{Z}\right)\right\}

实验结果:

可以看出,低通滤波在前三个数据集上表现好,高通滤波在后三个数据集上表现好,作者认为这可能跟不同数据集的特性有关。

 疑问:

Q1:作者提出的高通和低通方法,在不同数据集上的表现不同。这是否意味着,不同数据集有着不同的高通或低通特性?如果是,那这种特性是怎么体现的呢?

Q2:针对作者低通和高通方法,作者都分别有闭包计算方法和迭代计算方法。闭包计算方法需要求逆矩阵,计算量应该大些,不过从结果上看,迭代版本甚至有时比闭包版本还好,不知道迭代版本和闭包版本的计算量差距到底多大?

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值