《Adaptive Universal Generalized Pagerank Graph Neural Network》阅读笔记

最新推荐文章于 2024-06-22 09:34:22 发布

斯曦巍峨

最新推荐文章于 2024-06-22 09:34:22 发布

阅读量3.7k

点赞数 4

分类专栏： Graph Learning 文章标签：异构图 GNN 图表示学习

本文链接：https://blog.csdn.net/qq_42103091/article/details/121644632

版权

Graph Learning 专栏收录该内容

26 篇文章 16 订阅

订阅专栏

论文地址：Adaptive Universal Generalized Pagerank Graph Neural Network

文章概览

作者指出了现如今多数GNN的两个缺陷：

只适用于同构图；
由于过平滑（over-smoothing），不能网络不能堆的特别深。

为此，作者从PageRank那里得到启发，提出了GPR-GNN模型，该模型解决了以上两个缺陷，作者在一系列同构图和异构图上进行了实验，结果表明在半监督结点分类任务上，GPR-GNN的性能相对于现有技术来说有显著的提升。

预备知识

论文符号表：

符号	说明
$G = (V, E)$	无向图， $V$ 为顶点集， $E$ 为边集
$C$	结点类别数
$\mathbf{X} \in \mathbb{R}^{n \times f}$	结点的特征矩阵， $n$ 表示结点数， $f$ 表示特征维数， $\mathbf{X}_{i:}$ 表示第 $i$ 行， $\mathbf{X}_{:j}$ 表示第 $j$ 列
$\mathbf{A}$	邻接矩阵
$\widetilde {\mathbf{A}}$	添加自环后的邻接矩阵
$\widetilde {\mathbf{A}}_{sym}$	对称的邻接矩阵

Kronecker delta function定义如下：
$\delta _{{ij}}={\begin{cases}0&{\text{if }}i\neq j,\\1&{\text{if }}i=j.\end{cases}}$
同构等级定义如下：
$\mathcal{H}(G) = \frac{1}{|V|} \sum_{v \in V}{\frac{\text{结点$v$同标签的邻居数}}{\text{结点$v$的邻居总数}}}$

同构等级越大，表示图的同构性越强。

相关理论

过平滑是怎样产生的

作者以17年提出的经典GCN为例，来解释过平滑产生的原因，该模型的数学形式为：
$\mathbf{H}_{\mathrm{GCN}}^{(k)}=\operatorname{ReLU}\left(\tilde{\mathrm{A}}_{\mathrm{sym}} \mathbf{H}_{\mathrm{GCN}}^{(k-1)} \mathbf{W}^{(k)}\right), \hat{\mathbf{P}}_{\mathrm{GCN}}=\operatorname{softmax}\left(\tilde{\mathbf{A}}_{\mathrm{sym}} \mathbf{H}_{\mathrm{GCN}}^{(K-1)} \mathbf{W}^{(k)}\right)$
其中 $\mathbf{H}^{(0)}_{\text{GCN}} = \mathbf{X}$ ，而 $\mathbf{W}^{(k)}$ 表示第 $k$ 层可学习的权重矩阵。如果去掉RELU并假设 $\rightarrow \infin$ ，则 $\lim _{k \rightarrow \infty} \tilde{\mathbf{A}}_{\mathrm{sym}}^{k} \mathbf{H}^{(0)}=\mathbf{H}^{(\infty)}$ ， $\mathbf{H}^{(\infty)}$ 的每行都只依赖对应结点的度（前提是图是不可约和非周期的）。这是个很重要的结论，该结论表明随着层数的加深，每个结点的特征将会被遗忘，使得结点间的区分性越来越低。

图滤波

作者指出GPR-GNN与多项式的图滤波器是等价的，多项式滤波器的数学形式为：
$\sum_{k=0}^{K} \gamma_{k} \tilde{\mathbf{A}}_{\mathrm{sym}}^{k}$
可以看出它是一个邻接矩阵的 $K$ 次多项式，而其中的 $\gamma_{k}$ 则是GPR-GNN中要学习的对应于各层的权重，通过学习可以得到一个最优的多项式滤波器。学习到的滤波器可以说是低通滤波器，也可以是高通滤波器。

作者在论文中还给出了一个很重要的结论：在一个连通图 $G$ 中，如果 $\forall k \in \{0,1,...,K\}, \gamma_{k} \geq 0, \sum_{k=0}^{K}{\gamma_{k}} = 0$ 且 $\exist k' > 0$ 使得 $\gamma_{k'} > 0$ ，则得到一个低通滤波器。而如果 $\gamma_{k} = (-\alpha)^{k}, \alpha \in (0,1)$ 且 $K$ 足够大，则为一个高通滤波器。

GPR-GNN详解

首先给出GPR-GNN模型的可视化图：
model

其所对应的数学形式为：
$\hat{\mathbf{P}}=\operatorname{softmax}(\mathbf{Z}), \mathbf{Z}=\sum_{k=0}^{K} \gamma_{k} \mathbf{H}^{(k)}, \mathbf{H}^{(k)}=\tilde{\mathbf{A}}_{\mathrm{sym}} \mathbf{H}^{(k-1)}, \mathbf{H}_{i:}^{(0)}=f_{\theta}\left(\mathbf{X}_{i:}\right)$
其中 $f_{\theta}$ 是用来生成隐状态特征 $\mathbf{H}^{(0)}$ 的神经网络。从形式上看，GPR-GNN很简单，先让结点特征过一个神经网络学习隐状态，然后便是进行 $K$ 轮的消息传递，最后的特征为 $K$ 层各自学得的表示的线性组合，其中线性组合的参数 $\gamma_{k}$ 需要通过学习得到。

作者在论文中还指出了他们的模型为什么可以解决过平滑问题，作者指出如果过平滑发生了，则该网络中的高层 $\geq k'$ ，其对应的权重 $\gamma_{k}$ 会趋于0，使得其对最终的表示的影响减少，从而可以缓解过平滑。

图中标红色的为GPR-GNN的可学习参数。

实验

作者分别在合成数据集和真实数据集上都进行了相关的实验。对于合成数据集，作者使用cSBMs模型来生成图，实验过程中对于数据集的划分作者使用了两种模式：

稀疏划分（sparse splitting）：训练集/验证集/测试集 = 2.5%/2.5%/95%；
密集划分（dense splitting）：训练集/验证集/测试集 = 20%/20%/60%。

合成数据集上的结果

可以看出，GPR-GNN在异构图下，GPR-GNN比其他的基线模型的性能都要好，在同构图下GPR-GNN的性能也与其他基线模型相当，这说明了GPR-GNN的通用性。另外，从实验结果可以看出，当图的拓扑信息不强（ $\phi = 0$ ）时，GNNs的性能比不过传统的MLP。

$\phi < 0$ 时为异构图， $\phi =0$ 时拓扑图独立与 node 标签不相关， $\phi > 0$ 时为同构图，且 $\phi$ 越小图异构性越强，越大图的同构性越强。

另外，作者还在一系列真实的同构和异构图上进行了实验，数据集的相关特征和实验结果展示如下：

真实图上的结果

从上图也可以看出，GPR-GNN也在这些数据集上也处于SOTA地位。

斯曦巍峨

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
《Adaptive Universal Generalized Pagerank Graph Neural Network》阅读笔记

论文地址：Adaptive Universal Generalized Pagerank Graph Neural Network文章概览作者指出了现如今多数GNN的两个缺陷：只适用于同构图；由于过平滑（over-smoothing），不能网络不能堆的特别深。为此，作者从PageRank那里得到启发，提出了GPR-GNN模型，该模型解决了以上两个缺陷，作者在一系列同构图和异构图上进行了实验，结果表明在半监督结点分类任务上，GPR-GNN的性能相对于现有技术来说有显著的提升。预备知识论文符号
复制链接

扫一扫