论文阅读笔记：The Graph Neural Network

江上_酒

已于 2022-08-05 21:18:39 修改

阅读量510

点赞数 6

分类专栏：论文阅读笔记文章标签：神经网络机器学习

于 2020-12-01 16:55:23 首次发布

本文链接：https://blog.csdn.net/WHISTLE_ZXL/article/details/109964371

版权

论文阅读笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

The Graph Neural Network

Abstract
Introduction
- 面向图域的应用程序的分类
- 传统图数据的处理方法及存在的问题
The Graph Neural Network Model
Experimental results
公式速查
参考文献

Abstract

在一些科学和工程领域内，许多数据之间的潜在关系可以用图来表示。比如以下几个方面：
(1) computer vision（计算机视觉）
(2) molecular chemistry（分子化学）
(3) molecular biology （分子生物学）
(4) pattern recognition（模式识别）
(5) data mining（数据挖掘）
本文提出了Graph Neural Network (GNN)模型，可以用来直接处理大多数实际有用的图（如：无环图、循环图、有向图、无向图）。
【Tip】：GNN模型通过实现函数 $\tau(\boldsymbol{G}, \boldsymbol{n}) \in \mathbb{R}^{m}$ ，将图 $\boldsymbol{G}$ 和图中的一个顶点 $\boldsymbol{n}$ 映射到m维欧几里得空间。
本文关键字：Graphical domains, graph neural networks(GNNs), graph processing, recursive neural networks。

Introduction

面向图域的应用程序的分类

Tip：本文面向图域的应用程序分为两大类：graph-focused 和 node-focused。

graph-focused：
(1) 函数 $\tau$ 独立于结点 $\boldsymbol{n}$ ，从而直接可以在图结构数据集上实现分类或回归。
(2) 如下图所示：一个化合物可以用图来建模，nodes代表原子（或化学基团），edges代表化学键。
node-focused：
(1) 函数 $\tau$ 依赖于结点 $\boldsymbol{n}$ ，因此分类或回归的实现会取决于节点的属性。
(2) 这里以对象识别为例：见下图，对应于城堡的节点为黑色，输出1；而在城堡之外的节点则为白色，输出0。

传统图数据的处理方法及存在的问题

在传统的机器学习应用里，一般在预处理阶段处理图结构数据，将图结构信息映射为简单的表示。
例如：将图结构数据映射为实向量，对数据进行压缩后，然后使用list-based技术处理数据。
这样简单的图数据处理就会出现一些问题：
例如：在这样的简单映射过程中，图结构的拓扑依赖关系会丢失，预处理的结果将会取决于预处理算法的细节表现。
为了解决上面所述的问题，有一些方法被提出，其主要思想大致如下：使用图结点之间的拓扑关系，对底层的图结构数据进行编码，以便在数据处理步骤合并图结构信息。
GNN模型的提出及简析
(1) 本文提出的监督神经网络适用于 graph-focused 和 node-focused 这两类问题，在拓展了RNN和随机游走模型的基础上，保留了它们的特点。
(2) GNN可以直接处理更一般的图类和 node-focused 应用，略过了会丢失图结构信息的预处理阶段。
(3) GNN是基于受限制的信息扩散机制的，每个 unit 对应图的一个节点，并按照节点的连接关系连接，这些 unit 交换信息并更新自身的状态，直到达到稳定的平衡。

The Graph Neural Network Model

定义及相关概念

本文的一些概念和符号
(1) 一个图 $\boldsymbol{G}$ 由一对 $(\boldsymbol{N},\boldsymbol{E})$ 表示，其中 $\boldsymbol{N}$ 表示节点集， $\boldsymbol{E}$ 表示边集。
(2) $n e [n]$ 表示节点 $n$ 的邻接点集。
(3) $co [n]$ 表示以节点 $n$ 为一个顶点的边集。
(4) $\boldsymbol{l}_n\in\mathbb{R}^{l_{N}}$ 表示节点 $n$ 的特征向量。
(5) $\boldsymbol{l}_{(n_1,n_2)}\in\mathbb{R}^{l_{E}}$ 表示边 $n_1,n_2)$ 的特征向量。
(6) $\boldsymbol{l}$ 表示所有向量堆叠在一起的向量。
positional graphs 和 nonpositional graphs
(1) positional graphs：将唯一的整数标识符分配给节点的每个邻居，以指示其逻辑位置。
(2) nonpositional graphs：除了 positional graphs 目前所描述的那些图。
【Tip】：本文是基于 nonpositional graphs 讨论的，其后 $\boldsymbol{f}_w$ 和 $\boldsymbol{g}_w$ 函数的实现都是在此基础上。
假设有一个图-节点对集合 $\mathcal{D}=\mathcal{G}\times\mathcal{N}$ ，其中 $\mathcal{G}$ 表示图集合， $\mathcal{N}$ 表示 $\mathcal{G}$ 中的节点集合。在此图数据域的基础上，我们提出一个带有以下数据集的监督学习框架：
$\begin{array}{r} \mathcal{L}=\left\{\left(\boldsymbol{G}_{i}, n_{i, j}, \boldsymbol{t}_{i, j}\right) \mid, \boldsymbol{G}_{i}=\left(\boldsymbol{N}_{i}, \boldsymbol{E}_{i}\right) \in \mathcal{G}\right. \left.n_{i, j} \in \boldsymbol{N}_{i} ; \boldsymbol{t}_{i, j} \in \mathbb{R}^{m}, 1 \leq i \leq p, 1 \leq j \leq q_{i}\right\} \end{array}$
其中 $n_{i,j}\in\boldsymbol{N}_i$ 代表 $\boldsymbol{N}_i\in\mathcal{N}$ 中的第 $j$ 节点； $t_{i,j}$ 是与 $n_{i,j}$ 相关联的期望目标。

GNN模型设计

基本的思路
$\quad$ 图中的每个节点代表一个 concept ，边代表这些 concept 的关系，每个 concept 由其自身的 features 和与其相关联的 concepts（即 $n e [n]$ ）来定义。因此，我们给每个节点 $n$ 添加一个状态向量 $\boldsymbol{x}_n\in\mathbb{R}^s$ 来表示节点 $n$ 的状态。并由此得出节点 $n$ 的输出 $\boldsymbol{\omicron}_n$ 。
假设 $\boldsymbol{f}_w$ 为 local transition function 代表了节点 $n$ 对其 $n e [n]$ 的依赖， $\boldsymbol{g}_w$ 为local output function用于描述输出的产生。我们先以下图为例： $\boldsymbol{x}_1$ 的表示如图所示，涉及其邻接点的特征、邻接点的状态、以及相关边的特征。则可得对任意节点 $n$ 有如下表示：

在这里插入图片描述
$\begin{aligned} \boldsymbol{x}_n &=\boldsymbol{f}_w(\boldsymbol{l}_n,\boldsymbol{l}_{co[n]},\boldsymbol{x}_{ne[n]},\boldsymbol{l}_{ne[n]})\\ \boldsymbol{\omicron}_n &=\boldsymbol{g}_w(\boldsymbol{x}_n,\boldsymbol{l}_n) \end{aligned}\tag{1}$ 我们继续对相关向量进行堆叠，即可得如下表示：
$KaTeX parse error: Got function '\boldsymbol' with no arguments as subscript at position 156: …\boldsymbol{l}_\̲b̲o̲l̲d̲s̲y̲m̲b̲o̲l̲{N})\tag{2} \en…$ 当(2)式中的 $\boldsymbol{x}$ 和 $\boldsymbol{\omicron}$ 被唯一定义，且(2)式定义了一个映射 $KaTeX parse error: Got function '\boldsymbol' with no arguments as superscript at position 59: …rrow\mathbb{R}^\̲b̲o̲l̲d̲s̲y̲m̲b̲o̲l̲{m}$ 。此时根据Banach的不动点理论，假设 $\boldsymbol{F}_w$ 是关于状态 $\boldsymbol{x}$ 的压缩映射函数，则(2)这个方程组存在唯一解。即以一个图为输入，节点 $n$ 返回一个输出 $\boldsymbol{\omicron}_n$ 。
【Tip】压缩映射函数 $\boldsymbol{F}_w$ ，即对 $\forall x, y,\left\|F_{w}(x, l)-F_{w}(y, l)\right\| \leq \mu\|x-y\|$ ， $0\leq\mu<1$ 。
$\quad$ 这时我们回到(1)式，它让处理 positional graphs 和 nonpositional graphs 成为可能。但是(1)式对于 positional graphs 更为有用，对于 nonpositional graphs我们将(1)中的 $\boldsymbol{f_w}$ 更换为 $\boldsymbol{h_w}$ 如下所示：
$\boldsymbol{x}_{n}=\sum_{u \in \mathrm{ne}[n]} h_{\boldsymbol{w}}\left(\boldsymbol{l}_{n}, \boldsymbol{l}_{(n, u)}, \boldsymbol{x}_{u}, \boldsymbol{l}_{u}\right), \quad n \in \boldsymbol{N}\tag{3}$ 这里是根据 nonpositional graphs 的性质进行设置，将原本用于节点 $n$ 的函数 $\boldsymbol{f_w}$ ，换成作用于 $n$ 的邻接点的函数 $\boldsymbol{h_w}$ ，将所有邻接点计算的值求和作为节点 $n$ 的状态。
2. 实现GNN模型需要解决的问题
(1) 解决(1)式的方法
(2) 更新 $\boldsymbol{f}_w$ 和 $\boldsymbol{g}_w$ 的学习算法
(3) $\boldsymbol{f}_w$ 和 $\boldsymbol{g}_w$ 的实现方案
【Tip】接下来将围绕这三个问题展开讨论

Computation of the State

刚刚我们说了Banach不动点理论确定了方程组(1)存在唯一的解。那么这个解可求吗？又如何求呢？其实不动点理论除了可以确定有唯一解外，还提供了一个经典的迭代求解的方法(4):
$\boldsymbol{x}(t+1)=\boldsymbol{F}_w(\boldsymbol{x}(t),\boldsymbol{l})\tag{4}$ 这里 $\boldsymbol{x}(t)$ 代表 $\boldsymbol{x}$ 的第 $t$ 次迭代结果，(4)式对任意的初值 $\boldsymbol{x}(0)$ 可以以指数的速度收敛于(2)的解。
当我们将其还原回(1)式，可得(5)式如下：
$\begin{aligned} \boldsymbol{x}_{n}(t+1) &=f_{\boldsymbol{w}}\left(\boldsymbol{l}_{n}, \boldsymbol{l}_{\mathbf{c o [ n}]}, \boldsymbol{x}_{\mathrm{ne}[n]}(t), \boldsymbol{l}_{\mathrm{ne}[n]}\right) \\ \boldsymbol{o}_{n}(t) &=g_{\boldsymbol{w}}\left(\boldsymbol{x}_{n}(t), \boldsymbol{l}_{n}\right), \quad n \in \boldsymbol{N} \end{aligned}\tag{5}$ (5)式中的计算其实是一个由多个计算 $\boldsymbol{f}_w$ 和 $\boldsymbol{g}_w$ 单元组成的网络，也就是编码网络，具体我们见下图：在此图中：
a.将此图中的每个节点都替换成计算 $\boldsymbol{f}_w$ 的 $u ni t$
b.每个 $u ni t$ 都存储了节点 $n$ 的当前状态 $\boldsymbol{x}_n(t)$
c.当 $u ni t$ 被激活后，会通过当前节点的特征以及邻接信息来计算节点 $n$ 的下一个时刻状态 $\boldsymbol{x}_n(t+1)$
d.节点的输出，是由实现 $\boldsymbol{g}_w$ 的 $u ni t$ 产生
我们把上图展开，会得到下面的等效图：

从这张图我们不难发现，当 $\boldsymbol{f}_w$ 和 $\boldsymbol{g}_w$ 由FNN(前馈神经网络)实现时，这个编码网络其实就是RNN(循环神经网络)。
【Tip】至此实现GNN模型的第一个问题解决

The Learning Algorithm

学习算法的基本实现思路
$\quad$ GNN的学习算法其实就是评估参数 $\boldsymbol{w}$ ，使得函数 $KaTeX parse error: Got function '\boldsymbol' with no arguments as superscript at position 59: …rrow\mathbb{R}^\̲b̲o̲l̲d̲s̲y̲m̲b̲o̲l̲{m}$ 能够逼近下面学习数据集中的数据
$\begin{array}{r} \mathcal{L}=\left\{\left(\boldsymbol{G}_{i}, n_{i, j}, \boldsymbol{t}_{i, j}\right) \mid, \boldsymbol{G}_{i}=\left(\boldsymbol{N}_{i}, \boldsymbol{E}_{i}\right) \in \mathcal{G}\right. \left.n_{i, j} \in \boldsymbol{N}_{i} ; \boldsymbol{t}_{i, j} \in \mathbb{R}^{m}, 1 \leq i \leq p, 1 \leq j \leq q_{i}\right\} \end{array}$ 这里之前我们说过 $n_{i,j}\in\boldsymbol{N}_i$ 代表 $\boldsymbol{N}_i\in\mathcal{N}$ 中的第 $j$ 节点； $t_{i,j}$ 是与 $n_{i,j}$ 相关联的期望目标。 $q_i$ 则是代表 $\boldsymbol{G}_{i}$ 中的监督节点的个数。对于 graph-focused 和 node-focused 两类任务来说，其实都是节点监督问题。那么这个学习任务就可以被转化为(6)式：也就是最小化这个二次代价函数
$e_{\boldsymbol{w}}=\sum_{i=1}^{p} \sum_{i=1}^{q_{i}}\left(\boldsymbol{t}_{i, j}-\varphi_{\boldsymbol{w}}\left(\boldsymbol{G}_{i}, n_{i, j}\right)\right)^{2}\tag{6}$
基于梯度下降策略算法的基本步骤
(1) 利用迭代方程(5)迭代 $T$ 次得到 $\boldsymbol{x}_n(t)$ ，此时接近(2)的不动点解： $\boldsymbol{x}(T)\approx\boldsymbol{x}$
(2) 计算参数权重 $w$ 的梯度： $\boldsymbol{\frac{\partial e_{w}(T)}{\partial w}}$
(3) 根据上一步计算的结果更新权重 $w$
学习算法的基本流程

如此图所示：FORWARD用于计算不动点，BACKWARD用于计算权重梯度。
【Tip】至此实现GNN模型的第二个问题解决

Transition and Output Function Implementations

$\boldsymbol{g_w}$ 函数的实现
$\quad\boldsymbol{g_w}$ 是一个输出函数，其本身不需要满足任何特定的约束。在GNN中， $\boldsymbol{g_w}$ 用多层前馈神经网络实现。
$\boldsymbol{f_w}$ 函数的实现
$\quad$ 【Tip】 $\boldsymbol{f}_w$ 的实现是基于 nonpositional graphs，采用 Linear 和 Nonlinear 两种不同的策略来实现。
(1) Linear (nonpositional) GNN
$\quad$ 式(3)的函数可以用以下方式来实现：
$h_{\boldsymbol{w}}\left(\boldsymbol{l}_{n}, \boldsymbol{l}_{(n, u)}, \boldsymbol{x}_{u}, \boldsymbol{l}_{u}\right)=\boldsymbol{A}_{n, u} \boldsymbol{x}_{u}+\boldsymbol{b}_{n}$ 其中，向量 $\boldsymbol{b}_{n}\in\mathbb{R}^s$ ，矩阵 $\boldsymbol{A}_{n,u}\in\mathbb{R}^{s\times s}$ ，两者被定义为两个前馈神经网络的输出，向量 $\boldsymbol{b}_{n}$ 由 $forceing\ network$ 产生；矩阵 $\boldsymbol{A}_{n,u}$ 由 $transition\ network$ 产生。又 $forceing\ network$ 表示为： $\phi_{\boldsymbol{w}}:\mathbb{R}^{2 l_{N}+l_{E}} \rightarrow \mathbb{R}^{s^{2}}$ ； $transition\ network$ 表示为： $\rho_{\boldsymbol{w}}: \mathbb{R}^{l_{N}} \rightarrow \mathbb{R}^{s}$ ，则 $\boldsymbol{b}_{n}$ 和 $\boldsymbol{A}_{n,u}$ 可定义如下：
$\begin{aligned} \boldsymbol{A}_{n, u} &=\frac{\mu}{s|\operatorname{ne}[u]|} \cdot \mathbf\Xi\\ \boldsymbol{b}_{n} &=\rho_{\boldsymbol{w}}\left(l_{n}\right) \end{aligned}$ 这里， $\mu\in(0,1)$ ； $\frac{\mu}{s|\operatorname{ne}[u]|}$ 为系数； $\Xi=\operatorname{resize}\left(\phi_{\boldsymbol{w}}\left(\boldsymbol{l}_{n}, \boldsymbol{l}_{(n, u)}, \boldsymbol{l}_{u}\right)\right)$ ，这里是将 $s^2$ 维向量转化为 $s\times s$ 的矩阵。当我们为 $transition\ network$ 选取合适的激活函数（比如： $t anh ()$ ，双曲正切函数），可以使得 $\left\|\phi_{\boldsymbol{w}}\left(\boldsymbol{l}_{n}, \boldsymbol{l}_{(n, u)}, \boldsymbol{l}_{u}\right)\right\|_{1} \leq s$ 。在这种情况下： $F_{\boldsymbol{w}}(\boldsymbol{x}, \boldsymbol{l})=\boldsymbol{A} \boldsymbol{x}+\boldsymbol{b}$ ，其中， $\boldsymbol{A}$ 和 $\boldsymbol{b}$ 分别是 $\boldsymbol{A}_{n,u}$ 和 $\boldsymbol{b}_{n}$ 的堆叠形式，在通过简单的代数运算即可得：
$\begin{aligned} \left\|\frac{\partial F_{\boldsymbol{w}}}{\partial \boldsymbol{x}}\right\|_{1} &=\|\boldsymbol{A}\|_{1} \leq \max _{u \in \boldsymbol{N}}\left(\sum_{n \in \operatorname{ne}[u]}\left\|\boldsymbol{A}_{n, u}\right\|_{1}\right) \leq \max _{u \in N}\left(\frac{\mu}{s|\operatorname{ne}[u]|} \cdot \sum_{n \in \operatorname{ne}[u]}\|\Xi\|_{1}\right) \leq \mu \end{aligned}$ 即对 $\forall w,\ F_w$ 都是一个与一范式相关的压缩映射函数。
(2) Nonlinear (nonpositional) GNN
$\quad$ 在这种方式下， $\boldsymbol{h_w}$ 直接用多层前馈神经网络实现。为了保证 $\boldsymbol{F_w}$ 是一个压缩映射函数，会有部分的参数 $\boldsymbol{w}$ 不会被使用，这可以通过添加惩罚项来实现，如下所示：
$e_{\boldsymbol{w}}=\sum_{i=1}^{p} \sum_{j=1}^{q_{i}}\left(\boldsymbol{t}_{i, j}-\varphi_{\boldsymbol{w}}\left(\boldsymbol{G}_{i}, n_{i, j}\right)\right)^{2}+\beta L\left(\left\|\frac{\partial F_{\boldsymbol{w}}}{\partial \boldsymbol{x}}\right\|\right)$ ， $L(y)=\begin{cases}& (y-\mu)^2& y>\mu\\&0& y\leq\mu\end{cases}$ ,为惩罚项。
【Tip】至此实现GNN模型的第三个问题解决

Experimental results

$\qquad$ 此部分使用文章所述的两种解决方法 nonlinear 和 linear 将GNN模型用于Subgraph Matching Problem 、Mutagenesis Problem 、Web Page Ranking三个问题的解决上，其效果各有不同，大家有余力可以自行分析。

公式速查

$\begin{array}{r} \mathcal{L}=\left\{\left(\boldsymbol{G}_{i}, n_{i, j}, \boldsymbol{t}_{i, j}\right) \mid, \boldsymbol{G}_{i}=\left(\boldsymbol{N}_{i}, \boldsymbol{E}_{i}\right) \in \mathcal{G}\right. \left.n_{i, j} \in \boldsymbol{N}_{i} ; \boldsymbol{t}_{i, j} \in \mathbb{R}^{m}, 1 \leq i \leq p, 1 \leq j \leq q_{i}\right\} \end{array}$
$\begin{aligned} \boldsymbol{x}_n &=\boldsymbol{f}_w(\boldsymbol{l}_n,\boldsymbol{l}_{co[n]},\boldsymbol{x}_{ne[n]},\boldsymbol{l}_{ne[n]} \\ \boldsymbol{\omicron}_n &=\boldsymbol{g}_w(\boldsymbol{x}_n,\boldsymbol{l}_n) \end{aligned}\tag{1}$
$KaTeX parse error: Got function '\boldsymbol' with no arguments as subscript at position 156: …\boldsymbol{l}_\̲b̲o̲l̲d̲s̲y̲m̲b̲o̲l̲{N}) \end{align…$
$\boldsymbol{x}_{n}=\sum_{u \in \mathrm{ne}[n]} h_{\boldsymbol{w}}\left(\boldsymbol{l}_{n}, \boldsymbol{l}_{(n, u)}, \boldsymbol{x}_{u}, \boldsymbol{l}_{u}\right), \quad n \in \boldsymbol{N}\tag{3}$
$\boldsymbol{x}(t+1)=\boldsymbol{F}_w(\boldsymbol{x}(t),\boldsymbol{l})\tag{4}$
$\begin{aligned} \boldsymbol{x}_{n}(t+1) &=f_{\boldsymbol{w}}\left(\boldsymbol{l}_{n}, \boldsymbol{l}_{\mathbf{c o [ n}]}, \boldsymbol{x}_{\mathrm{ne}[n]}(t), \boldsymbol{l}_{\mathrm{ne}[n]}\right) \\ \boldsymbol{o}_{n}(t) &=g_{\boldsymbol{w}}\left(\boldsymbol{x}_{n}(t), \boldsymbol{l}_{n}\right), \quad n \in \boldsymbol{N} \end{aligned}\tag{5}$
$e_{\boldsymbol{w}}=\sum_{i=1}^{p} \sum_{i=1}^{q_{i}}\left(\boldsymbol{t}_{i, j}-\varphi_{\boldsymbol{w}}\left(\boldsymbol{G}_{i}, n_{i, j}\right)\right)^{2}\tag{6}$

参考文献

[1] Franco Scarselli, Marco Gori, Ah Chung Tsoi, Markus Hagenbuchner, Gabriele Monfardini : The Graph Neural Network Model. IEEE Trans. Neural Networks 20(1): 61-80 (2009)

江上_酒

关注

6
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
论文阅读笔记：The Graph Neural Network

The Graph Neural Network Model于2009年1月发表于IEEE Transactions on Neural Networks，作者主要是来自IEEE的四位会员，是图神经网络的开篇之作。
复制链接

扫一扫

专栏目录