《GSN A Universal Graph Neural Network Inspired by Spring Network》阅读笔记

斯曦巍峨

已于 2022-07-28 20:25:27 修改

阅读量781

点赞数

分类专栏： Graph Learning 文章标签：深度学习人工智能图神经网络

于 2022-06-06 11:21:28 首次发布

本文链接：https://blog.csdn.net/qq_42103091/article/details/125143180

版权

Graph Learning 专栏收录该内容

26 篇文章 17 订阅

订阅专栏

一.概述

metric learning：度量学习旨在从（弱）监督数据中学习一种度量数据对象间距离的方法。通过学习距离度量，能够让相似的对象更接近，不相似的对象相互远离。

本文作者提出了一个有理论支撑的、同时适用于同配图（homophilous graph）和异配图（heterophilous graph）的图神经网络模型Graph Spring Network（GSN）。作者表明，GSN框架从弹簧势能最小化的角度用各种度量可以解释许多现有的GNN模型。几个现实世界中同配和异配数据集上的实验表明了GSN的优越性能。

二.预备知识

数学符号表：

符号	说明
$\mathbf{X},\mathbf{x}$	大写粗体字母表示矩阵，小写字母代表向量
$\operatorname{tr}(\mathbf{X})$	矩阵的迹， $\operatorname{tr}(\mathbf{X}):=\sum_{i} \mathbf{X}_{i i}$
$\|\mathbf{X}\|_{F}$	矩阵的Forbenius范数，$\|\mathbf{X}\|{F}:=\sqrt{\sum{i, j}\left
$\|\mathbf{x}\|_{p}$	向量的 $p$ 范数，$\|\mathbf{x}\|{p}:=\left(\sum{i}\left
Hardmard积	两个矩阵或向量间的逐元素积， $(\mathbf{X} \odot \mathbf{Y})_{i j}=\mathbf{X}_{i j} \mathbf{Y}_{i j}$ ， $(\mathbf{x} \odot \mathbf{y})_{i}=\mathbf{x}_{i} \mathbf{y}_{i}$

图理论的相关概念：

符号	说明
$\mathcal{G} = (\mathcal{V}, \mathcal{E})$	（无向）图，其中 $\mathcal{V}$ 和 $\mathcal{E}$ 分别表示点集和边集
$\mathbf{A} \in\{0,1\}^{\|\mathcal{V}\| \times \|\mathcal{V}\|}$	图的邻接矩阵
$\mathcal{N}(i):=\{j:(i, j) \in \mathcal{E}\}$	节点 $i$ 的邻居集合
$\overline{\mathcal{N}(i)}:=\mathcal{N}(i) \cup\{i\}$	节点 $i$ 的邻居与其自身的集合
$d_i$	节点 $i$ 的度，即节点的邻居数
$\mathbf{D}:=\operatorname{diag}\left(d_{1}, d_{2}, \cdots, d_{\|\mathcal{V}\|}\right)$	度矩阵（对角阵），其中 $\mathbf{D}_{i i}=d_{i}(i= 1,2, \cdots,\|\mathcal{V}\|)$
$h_{\mathrm{edge}}(\mathcal{G}, \mathcal{Y})=\frac{\|\{(u, v):(u, v) \in \mathcal{E} \wedge \mathcal{Y}_{u}=\mathcal{Y}_{v}\}\|}{\|\mathcal{E}\|}$	边同构率，即所有边中相同类别节点间边所占的比例
$\mathbf{L}:= \mathbf{D}-\mathbf{A}$	图的拉普拉斯矩阵，由于是无向图，所有拉普拉斯矩阵是实对称的，其可以被分解为 $\mathbf{L}=\mathbf{U}^{\top} \boldsymbol{\Lambda} \mathbf{U}$ ，其中 $\mathbf{\Lambda}=\operatorname{diag}\left(\lambda_{1}, \lambda_{2}, \cdots, \lambda_{\|\mathcal{V}\|}\right)$ 表示拉普拉斯矩阵的特征值， $\mathbf{U}$ 是特征值所对应的特征向量。
$\mathbf{L}^{\text {sym }}:=\mathbf{D}^{-\frac{1}{2}} \mathbf{L} \mathbf{D}^{-\frac{1}{2}}=\mathbf{I}-\mathbf{D}^{-\frac{1}{2}} \mathbf{A} \mathbf{D}^{-\frac{1}{2}}$	正则化的拉普拉斯矩阵
$\mathbf{P}^{\text {sym }}= \mathbf{D}^{-\frac{1}{2}} \mathbf{A} \mathbf{D}^{-\frac{1}{2}}$	正则化的邻接矩阵

图的拉普拉斯矩阵有两个重要的性质：半正定、 $\lambda_{1}=0$ 是最小的特征值， $\mathbf{1}$ 是其对应的特征向量。

三.GSN模型

3.1 模型提出的动机

什么是好的节点嵌入：一个好的节点嵌入将使任意两个相连的同配性节点靠近，并将任意两个相连的异配性节点推远。例如下图中，直观地说，图右所对应的节点嵌入要更好，因为它更容易将节点划分为不同的类。

node embedding cmp

Spring Network：作者使用弹簧网络来建模同配性节点或异配性节点间的边，即拉近相似对象间的距离，拉远不相似对象间的距离。在图2中，作者把节点间的边看作弹簧，最初同配性边是延申的弹簧，异配性边是压缩的弹簧。随着Spring网络的自由演化，系统的总势能最小化。具有相同属性的节点被拉近，而具有不同属性的节点被拉远，使得具有不同标签的节点更容易分离。

spring network

假设两个节点的坐标为 $\mathbf{x_1},\mathbf{x_2} \in \mathbb{R}^d$ ，根据胡克定律和弹性势能的计算公式，节点1对节点2施加的力以及两个节点间的弹性势能为：
$\begin{aligned} \mathbf{F}_{12} &= k(||\mathbf{r}_1 - \mathbf{r}_2||_2 - l_0) \frac{\mathbf{r}_1 - \mathbf{r}_2}{||\mathbf{r}_1 - \mathbf{r}_2||_2} \\ E_p &= \frac{1}{2}k(||\mathbf{r}_1 - \mathbf{r}_2||_2 - l_0)^2 \end{aligned}$

胡克定律：在弹性限度内，弹簧的弹力 $\mathbf{F}$ 和弹簧的长度变化量 $\mathcal{x}$ （当前长度 $l$ 减去松弛长度 $l_0$ ）成线性关系，即 $\mathbf{F} = -k\mathbf{x}$ 。

弹性势能：弹簧的弹性势能的计算公式为 $E_p = \frac{1}{2}k||\mathbf{x}||^2$ 。

3.2 弹性势能函数

度量矩阵 $\mathbf{M}$ ：给定图 $\mathcal{G}=(\mathcal{V}, \mathcal{E})$ ，其初始节点嵌入为 $\mathbf{Z}^{(0)}$ ，将每条边 $(i, j)$ 看作一个弹簧，其初始长度为 $\| \mathbf{Z}_{i:}^{(0)}- \mathbf{Z}_{j:}^{(0)} \|_{2}$ ，初始势能为 $\mathbf{E}_{i j}$ （ $\mathbf{E} \in \mathbb{R}_{\geq 0}^{n \times n}$ 表示弹性势能矩阵）。弹簧 $(i, j)$ 的松弛长度为 $M_{i j}$ （ $\mathbf{M} \in \mathbb{R}_{\geq 0}^{n \times n}$ 为松弛长度矩阵）。根据弹性势能公式可知 $\mathbf{E}_{i j}=\frac{1}{2} k_{i j}\left(\left\|\mathbf{Z}_{i:}^{(0)}-\mathbf{Z}_{j:}^{(0)}\right\|_{2}-\mathbf{M}_{i j}\right)^{2}$ ，通过其可以导出：
$\begin{aligned} \mathbf{M}_{i j} &=\mathbf{A}_{i j}\left(\left\|\mathbf{Z}_{i:}^{(0)}-\mathbf{Z}_{j:}^{(0)}\right\|_{2} \pm \sqrt{\frac{2 \mathbf{E}_{i j}}{k_{i j}}}\right) \\ &= \begin{cases}0, & (i, j) \notin \mathcal{E} \\ \left\|\mathbf{Z}_{i:}^{(0)}-\mathbf{Z}_{j:}^{(0)}\right\|_{2}+\sqrt{\frac{2 \mathbf{E}_{i j}}{k_{i j}}}, & (i, j) \text { compressed } \\ \left\|\mathbf{Z}_{i:}^{(0)}-\mathbf{Z}_{j:}^{(0)}\right\|_{2}-\sqrt{\frac{2 \mathbf{E}_{i j}}{k_{i j}},} & (i, j) \text { stretched. }\end{cases} \end{aligned}$
作者使用一个软变量 $\alpha_{ij} \in [-1,1]$ 来指示弹簧 $(i, j)$ 最初是拉伸还是压缩，并重参数化 $\mathbf{E}_{i j} \equiv 2 \mathbf{E}_{i j} / k_{i j}$ ，则可得：
$\mathbf{M}_{i j}=\mathbf{A}_{i j}\left(\left\|\mathbf{Z}_{i:}^{(0)}-\mathbf{Z}_{j:}^{(0)}\right\|-\alpha_{i j} \sqrt{\mathbf{E}_{i j}}\right)$

弹簧最初拉伸时 $\alpha_{ij}$ 接近1，并对应一条同配性边；当 $\alpha_{ij}$ 接近-1时，弹簧被压缩，并对应于异配性边。

$\alpha_{ij}$ 的获取：假设节点 $i, j$ 的嵌入分别为： $\mathbf{h}_i,\mathbf{h_j}$ ，作者使用注意力机制来获取 $\alpha_{ij}$ 。与平常计算得到的attention score不同的时，本文的attention score可以为负数。

最初能量矩阵 $\mathbf{E}$ 的获取：直观地说， $\mathbf{E}$ 应该是初始节点嵌入 $\mathbf{Z}^{(0)}$ 和拉伸/压缩注意力 $\alpha_{ij}$ 的函数。此外，它还需满足三个性质：

非负性：弹簧弹性势能肯定是大于等于0 的；
同配性限制：当 $\alpha \rightarrow 1^{-}$ 时， $\mathbf{M}_{i j} \rightarrow 0$ ，即 $\mathbf{E}_{i j} \rightarrow\left\|\mathbf{Z}_{i:}^{(0)}-\mathbf{Z}_{j:}^{(0)}\right\|_{2}^{2}$ ；
异配性限制：当 $\alpha \rightarrow -1^{+}$ 时， $\mathbf{M}_{i j} \rightarrow +\infin$ ，即 $\mathbf{E}_{i j} \rightarrow +\infin$ 。

基于此，作者提出的最初能量矩阵的计算公式为：
$\mathbf{E}_{i j}=\frac{4\left\|\mathbf{Z}_{i:}^{(0)}-\mathbf{Z}_{j:}^{(0)}\right\|_{2}^{2}}{\left(\alpha_{i j}+1\right)^{2}}$
则对应的 $\mathbf{M}_{i j}$ 为：
$\begin{aligned} \mathbf{M}_{i j} & =\left\|\mathbf{Z}_{i:}^{(0)}-\mathbf{Z}_{j:}^{(0)}\right\|_{2}-\frac{2 \alpha_{i j}}{\alpha_{i j}+1}\left\|\mathbf{Z}_{i:}^{(0)}-\mathbf{Z}_{j:}^{(0)}\right\|_{2} \\ &=\frac{1-\alpha_{i j}}{1+\alpha_{i j}} \| \mathbf{Z}_{i:}^{(0)}-\mathbf{Z}_{j:}^{(0)} \|_{2} \end{aligned}$

嵌入势能函数：给定度量矩阵 $\mathbf{M}$ 和节点嵌入 $\mathbf{Z}$ ，则弹性势能的计算公式为：
$\begin{aligned} & E_{p}(\mathbf{Z} ; \mathcal{G}, \mathbf{M}) \\ =& \sum_{(i, j) \in \mathcal{E}} \frac{1}{2} k_{i j}\left(\left\|\mathbf{Z}_{i:}-\mathbf{Z}_{j:}\right\|_{2}-\mathbf{M}_{i j}\right)^{2} \\ =& \sum_{i, j} \mathbf{A}_{i j}\left(\left\|\mathbf{Z}_{i:}-\mathbf{Z}_{j:}\right\|_{2}^{2}-2 \mathbf{M}_{i j}\left\|\mathbf{Z}_{i:}-\mathbf{Z}_{j:}\right\|_{2}+\mathbf{M}_{i j}^{2}\right) \\ =& \operatorname{tr}\left(\mathbf{Z}^{\top} \mathbf{L} \mathbf{Z}\right)-2 \sum_{i, j} \mathbf{M}_{i j}\left\|\mathbf{Z}_{i:}-\mathbf{Z}_{j:}\right\|_{2}+\|\mathbf{M}\|_{F}^{2} \\ =& \operatorname{tr}\left(\mathbf{Z}^{\top} \mathbf{L} \mathbf{Z}\right)-2 \mathbf{1}^{\top}\left(\mathbf{M} \odot \mathfrak{D}^{2}(\mathbf{Z})^{\odot \frac{1}{2}}\right) \mathbf{1}+\|\mathbf{M}\|_{F}^{2} \end{aligned}$
其中 $\left(\mathfrak{D}^{2}(\mathbf{Y})\right)_{i j}=\left\|\mathbf{Y}_{i:}-\mathbf{Y}_{j:}\right\|_{2}^{2}$ ， $\left(\mathbf{Y}^{\odot k}\right)_{i j}=\left(\mathbf{Y}_{i j}\right)^{k}$ 。

显而易见， $E_{p}(\mathbf{Z} ; \mathcal{G}, \mathbf{M}) \geq 0$ ，其值为 $0$ 当且仅当 $\forall(i, j) \in \mathcal{E},\left\|\mathbf{Z}_{i:}-\mathbf{Z}_{j}:\right\|_{2}=\mathbf{M}_{i j}$ ，此时节点之间的距离与度量矩阵 $\mathbf{M}$ 相同。

3.3 GSN框架

许多物理过程倾向于最小化系统的总势能。对于GSN也是如此，将一个spring网络放入一个有阻力的介质中，让系统自由进化。当系统处于平衡状态时，最终嵌入 $\mathbf{Z}^{*}=\arg \min _{\mathbf{Z}} E_{p}(\mathbf{Z} ; \mathcal{G}, \mathbf{M})$ 。

作者重参数 $\mathbf{Z}$ 为 $\mathbf{Z}=\mathbf{D}^{-1 / 2} \mathcal{Z}$ ，正则化后的能量计算公式为：
$\begin{aligned} & \tilde{E_{p}}(\mathcal{Z} ; \mathcal{G}, \mathbf{M}) \\ =& E_{p}(\mathbf{Z} ; \mathcal{G}, \mathbf{M}) \\ =& \operatorname{tr}\left(\mathcal{Z}^{\top} \mathbf{L Z}\right)-2 \sum_{i, j} \mathbf{M}_{i j}\left\|\mathbf{D}^{-\frac{1}{2}} \mathcal{Z}_{i:}-\mathbf{D}^{-\frac{1}{2}} \mathcal{Z}_{j:}\right\|_{2}+\|\mathbf{M}\|_{F}^{2} \\ =& \operatorname{tr}\left(\mathcal{Z}^{\top} \mathbf{L}^{\mathrm{sym}} \mathcal{Z}\right)-2 \mathbf{1}^{\top}\left(\mathbf{M} \odot \mathfrak{D}^{2}\left(\mathbf{D}^{-\frac{1}{2}} \mathcal{Z}\right)^{\odot \frac{1}{2}}\right) \mathbf{1}+\|\mathbf{M}\|_{F}^{2} \end{aligned}$
根据物理学中的局部性概念，作者认为最佳解应当接近初始嵌入 $\mathbf{Z}^{(0)}$ ，为此，作者添加了一个权衡的正则化项 $\alpha\left\|\mathbf{Z}-\mathbf{Z}^{(0)}\right\|_{F}^{2}$ 。

则最终的优化目标为：
$E=(1-\alpha) \tilde{E_{p}}(\mathbf{Z} ; \mathcal{G}, \mathbf{M})+\alpha || \mathbf{Z}-\mathbf{Z}^{(0)} ||_{F}^{2}$
作者用 $\mathbf{H}$ 表示 $\mathbf{M} \odot \mathfrak{D}^{2}\left(\mathbf{D}^{-\frac{1}{2}} \mathbf{Z}\right)^{\odot-\frac{1}{2}}$ ，求 $E$ 关于 $\mathbf{Z}$ 的偏导数为：
$\frac{\partial E}{\partial \mathbf{Z}}=2(1-\alpha)\left(\mathbf{L}^{\text {sym }}-2 \mathbf{L}_{\mathbf{H}}^{\text {sym }}\right) \mathbf{Z}+2 \alpha\left(\mathbf{Z}-\mathbf{Z}^{(0)}\right)$
其中 $\mathbf{L}_{\mathbf{H}}$ 表示 $\operatorname{diag}(\mathbf{H} \mathbf{1})-\mathbf{H}$ ，若将 $\mathbf{H}$ 看作某个图的邻接矩阵，则 $\operatorname{diag}(\mathbf{H 1})- \mathbf{H}$ 可以看作该图的拉普拉斯矩阵。让偏导数为0，即：
$\begin{aligned} &\frac{\partial E}{\partial \mathbf{Z}}=\mathbf{O} \\ &\Leftrightarrow(1-\alpha)\left(\left(\mathbf{I}-\mathbf{P}^{\mathrm{sym}}\right)-2 \mathbf{L}_{\mathbf{H}}^{\mathrm{sym}}\right) \mathbf{Z}+\alpha\left(\mathbf{Z}-\mathbf{Z}^{(0)}\right)=\mathbf{O} \\ &\Leftrightarrow \mathbf{Z}=(1-\alpha) \mathbf{P}^{\mathrm{sym}} \mathbf{Z}+2(1-\alpha) \mathbf{L}_{\mathbf{H}}^{\mathrm{sym}} \mathbf{Z}+\alpha \mathbf{Z}^{(0)} \end{aligned}$
作者将 $\mathbf{P}^{\text {sym }} \mathbf{Z}$ 看作拓扑信息，将 $\mathbf{L}_{\mathrm{H}}^{\text {sym }} \mathbf{Z}$ 看作位置信息，通过解耦两类信息的系数，并引入renormalization trick和非线性得到GSN传播层的更新规则如下：
$\mathbf{Z}^{(k+1)}=\sigma \left(\left(\left((1-\alpha) \tilde{\mathbf{P}}^{\mathrm{sym}}+2 \beta \mathbf{L}_{\mathrm{H}}^{\mathrm{sym}}\right) \mathbf{Z}^{(k)}+\alpha \mathbf{Z}^{(0)}\right) \mathbf{W}^{(k)}\right)$
GSN的框架图如下所示，在该框架中， $\mathbf{Z}^{(0)}$ 是对节点特征 $\mathbf{X}$ 进行降维来获取到的，作者使用一个单线性层或GCN层来进行降维。然后通过一个度量层来计算节点间的度量矩阵 $\mathbf{M}$ ，同时初始嵌入通过 $k$ 个传播层以获取最终的节点嵌入。

GSN Framework

论文附录中还有关于GSN的Message Passing传播机制。

四.实验

实验的数据集为（红框中的为异配图数据集）：

datasets

半监督节点分类实验

作者将GSN与一众baseline在半监督节点分类任务上进行了对比。

semi-supervised node classification

结论：GSN在同配图和异配图上都表现良好。

Over-smoothing问题实验

作者设置图卷积的层数分别为4、16、64来观测GSN与baseline在过平滑问题上的性能表现。

oversmoothing-exp

结论：GSN在同配性和异配性数据集上都不会出现过平滑问题。

斯曦巍峨

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
《GSN A Universal Graph Neural Network Inspired by Spring Network》阅读笔记

本文作者提出了一个有理论支撑的、同时适用于同配图（homophilous graph）和异配图（heterophilous graph）的图神经网络模型Graph Spring Network（GSN）。作者表明，GSN框架从弹簧势能最小化的角度用各种度量可以解释许多现有的GNN模型。几个现实世界中同配和异配数据集上的实验表明了GSN的优越性能。.........
复制链接

扫一扫