WWW2021 Interpreting and Unifying Graph Neural Networks with An Optimization Framework 阅读笔记

低调流年的微凉

已于 2022-05-13 15:14:57 修改

阅读量527

点赞数

分类专栏：图神经网络文章标签：深度学习计算机视觉神经网络

于 2022-04-29 17:24:11 首次发布

本文链接：https://blog.csdn.net/qq_40680309/article/details/124482569

版权

图神经网络专栏收录该内容

1 篇文章 0 订阅

订阅专栏

论文：interpreting and Unifying Graph Neural Networks with An Optimization Framework

代码: https://github.com/zhumeiqiBUPT/GNN-LF-HF

B站视频：https://www.bilibili.com/video/BV1Fh411Q7x7

摘要：

图神经网络(GNNs)在广泛的图结构数据学习中受到了相当多的关注。设计良好的传播机制是gnn最基本的组成部分。虽然大多数gnn基本上遵循信息传递的方式，但人们已经努力发现和分析它们的基本关系。在本文中，我们建立一个令人惊讶的连接不同传播机制与统一的优化问题，表明尽管各种网络的扩散，事实上，他们提出的传播机制是最优解决方案优化特征拟合函数在广泛类的图内核图正则化。我们提出了统一优化框架，总结了几个最具代表性的gnn之间的共性，不仅为考察不同gnn之间的关系提供了宏观的视角，也进一步为灵活设计新的gnn提供了新的机会。在此框架下，我们发现现有的工作通常利用朴素的图卷积核进行特征拟合函数，并进一步开发了两个新的目标函数，分别考虑可调图核分别显示低通或高通滤波的能力。此外，我们还提供了收敛性的证明和表达能力的比较。在基准数据集上的大量实验清楚地表明，所提出的gnn不仅优于现有的方法，而且具有良好的缓解过度平滑的能力，并进一步验证了用我们的统一优化框架设计gnn的可行性。

符号定义:

X为特征矩阵，A为邻接矩阵（如果节点i和j之间有边， $A_{ij}$ =1，否则为0），对角度矩阵 $D=diag(d_1,d_2,..,d_n)$ ，其中 $d_{i}=\sum{{}_j \mathbf{A}_{i, j}$ ，即每行之和。

邻接矩阵加自环： $\tilde{\mathbf{A}}=\mathbf{A}+\mathbf{I}$

度矩阵加自环： $\tilde{\mathbf{D}}=\mathbf{D}+\mathbf{I}$

归一化邻接矩阵： $\hat{\tilde{\mathbf{A}}}=\tilde{\mathbf{D}}^{-1 / 2} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-1 / 2}$ ，设其对应的度矩阵为： $\hat{\tilde{\mathbf{D}}}$

归一化对称正半定图拉普拉斯矩阵： $\tilde{\mathbf{L}}=\mathbf{I}-\tilde{\tilde{\mathbf{A}}}$

方法：

作者认为：尽管不同的gnn具有不同的传播机制，但事实上，它们通常潜在的目标是实现两个目标：从特征中编码有用的信息和利用拓扑的平滑能力，这可以正式表述为以下优化目标：

$\boldsymbol{O}=\min _{\mathbf{Z}}\{\underbrace{\zeta\left\|\mathbf{F}_{1} \mathbf{Z}-\mathbf{F}_{2} \mathbf{H}\right\|_{F}^{2}}_{O_{f i t}}+\underbrace{\xi \operatorname{tr}\left(\mathbf{Z}^{T} \tilde{\mathbf{L}} \mathbf{Z}\right)}_{O_{r e g}}\}$

其中 $\zeta$ 是非负系数， $\xi$ 的[0,1]之间的参数。H是对原始输入特征矩阵X的变换。 $F_1$ 和 $F_2$ 被定义为任意图的卷积核。Z是传播的表示形式，对应于最小化目标O时的最终传播结果。

第一部分 $O_{f i t}$ 是一个拟合项，通过设计不同的图卷积核f1和f2，灵活地将H中的信息灵活地编码到学习到的表示Z。图卷积核F1和F2可以从 $\mathbf{I}$ 、 $\hat{\tilde{\mathbf{A}}$ 、 $\tilde{\mathbf{L}}$ 中选择，分别显示了全通、低通、高通滤波能力。

第二项 $O_{reg}$ 是一个图拉普拉斯正则化项，约束两个连接节点的学习表示变得相似，从而可以捕获同质性， $O_{reg}$ 来自以下图拉普拉斯正则化：

$\mathcal{O}_{r e g}=\frac{\xi}{2} \sum_{i, j}^{n} \hat{\tilde{\mathbf{A}}}_{i, j}\left\|\mathbf{Z}_{i}-\mathbf{Z}_{j}\right\|^{2}=\xi \operatorname{tr}\left(\mathbf{Z}^{T} \tilde{\mathbf{L}} \mathbf{Z}\right)$

证明的一部分来自论文: Graph Regularized Nonnegative Matrix Factorization for Data Representation 的公式5

这里我把完整证明过程写出来：

$\begin{aligned}\frac{1}{\xi} \mathcal{O}_{r e g} &= \frac{1}{2} \sum_{i, j=1}^{n} \hat{\tilde{\mathbf{A}}}_{i,j} \left\|\mathbf{Z}_{i}-\mathbf{Z}_{j}\right\|^{2} \\ &=\frac{1}{2} \sum_{i,j=1}^{n} \hat{\tilde{\mathbf{A}}}_{i,j} (\left\|\mathbf{Z}_i \right\| ^2 + \big\| \mathbf{Z}_j \big\| ^2-2\cdot \mathbf{Z}_{i}^{T}\mathbf{Z}_{j}) \\ &=\sum_{i,j=1}^{n} \hat{\tilde{\mathbf{A}}}_{i,j} \left\|\mathbf{Z}_i \right\| ^2 - \sum_{i, j=1}^{n} \hat{\tilde{\mathbf{A}}}_{i,j} \mathbf{Z}_{i}^{T} \mathbf{Z}_{j} \\ &=\sum_{i=1}^{n} \hat{\tilde{\mathbf{D}}}_{i,i} \mathbf{Z}_{i}^{T} \mathbf{Z}_{i} - \sum_{i, j=1}^{n} \hat{\tilde{\mathbf{A}}}_{i,j} \mathbf{Z}_{i}^{T} \mathbf{Z}_{j} \\ &=\operatorname{tr}\left(\mathbf{Z}^{T} \hat{\tilde{\mathbf{D}}} \mathbf{Z}\right)-\operatorname{tr}\left(\mathbf{Z}^{T} \hat{\tilde{\mathbf{A}}} \mathbf{Z}\right)=?\operatorname{tr}\left(\mathbf{Z}^{T} \tilde{\mathbf{L}} \mathbf{Z}\right) \end{aligned}$

(最后一步，如果是 $D^{-1}L$ 的归一化，这个等式是成立的。)

GNN的传播机制与优化目标之间的总体对应关系:

基于统一的优化目标，作者提出了两种GNN，分别是低通滤波和高通滤波版本。

低通滤波： $\boldsymbol{O}=\min \left\{\left\|\{\mu \boldsymbol{I}+(1-\mu) \hat{\tilde{\boldsymbol{A}}}\}^{1 / 2}(\boldsymbol{Z}-\boldsymbol{H})\right\|_{F}^{2}+\xi \operatorname{tr}\left(\boldsymbol{Z}^{T} \tilde{\boldsymbol{L}} \boldsymbol{Z}\right)\right\}$

高通滤波： $\boldsymbol{O}=\min _{\boldsymbol{Z}}\left\{\left\|\{\boldsymbol{I}+\beta \tilde{\boldsymbol{L}}\}^{1 / 2}(\boldsymbol{Z}-\boldsymbol{H})\right\|_{F}^{2}+\xi \operatorname{tr}\left(\boldsymbol{Z}^{T} \tilde{\mathbf{L}} \boldsymbol{Z}\right)\right\}$