图神经网络基础 naive Graph Neural Network

最新推荐文章于 2024-10-14 18:17:59 发布

cicipupu

最新推荐文章于 2024-10-14 18:17:59 发布

阅读量254

点赞数

分类专栏：经典论文文章标签：神经网络深度学习机器学习知识图谱

本文链接：https://blog.csdn.net/cddddduck/article/details/120045347

版权

经典论文专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文介绍了图神经网络（GNN）的基本原理，包括节点信息传播、消息传递机制、邻接矩阵表示图、置换不变性和等价性。GNN通过节点的局部邻域信息聚合，逐步捕获图的深层结构。基本GNN模型、自环改进、归一化策略、注意力机制以及过平滑问题被详细讨论，展示了GNN如何处理图数据并提取特征。

摘要由CSDN通过智能技术生成

naive Graph Neural Network

图神经网络

图神经网络

basis

CNN的输入为图像 image
RNN的输入为序列 sequence
GNN的输入为图 Graph

用什么来表示图呢？最容易想到的就是邻接矩阵A，他包含了一个图的所有信息。将图的邻接矩阵输入的一个MLP中可以得到图的embedding
$\mathbf{z}_{\mathcal{G}}=\mathbf{M L P}(\mathbf{A}[1] \oplus \mathbf{A}[2] \oplus \ldots \oplus \mathbf{A}[|\mathcal{V}|])$
不过这一模型不是permutation invariant，它会受到邻接矩阵中节点的任意顺序影响，了解语音信号处理的朋友应该知道这一定义，即置换不变性。而下面介绍的GNN则是个permutation equivariant模型
$\begin{aligned} f\left(\mathbf{P A P}^{\top}\right)=f(\mathbf{A}) & \text { (Permutation Invariance) } \\ f\left(\mathbf{P A P}^{\top}\right)=\mathbf{P} f(\mathbf{A}) & \text { (Permutation Equivariance), } \end{aligned}$

Message Passing

先给出一些符号定义：graph $\mathcal{G}=(\mathcal{V}, \mathcal{E})$ ；node features $\mathbf{X} \in \mathbb{R}^{d \times|\mathcal{V}|}$ ；node embeddings $\mathbf{z}_{u}, \forall u \in \mathcal{V}$ 。
我们用 $\mathbf{h}_{u}^{(k)}$ 表示每个节点 $u$ 在GNN第 $k$ 层中对应的hidden embedding，则GNN中的节点信息传播过程可以表示为：
$\begin{aligned} \mathbf{h}_{u}^{(k+1)} &=\operatorname{UPDATE}^{(k)}\left(\mathbf{h}_{u}^{(k)}, \text { AGGREGATE }^{(k)}\left(\left\{\mathbf{h}_{v}^{(k)}, \forall v \in \mathcal{N}(u)\right\}\right)\right) \\ &=\operatorname{UPDATE}^{(k)}\left(\mathbf{h}_{u}^{(k)}, \mathbf{m}_{\mathcal{N}(u)}^{(k)}\right) \end{aligned}$

在这里插入图片描述
从上图可以更直观的理解这一过程，整个过程包含UPDATE 和 AGGREGATE 两个部分，对应于信息的更新和信息的汇聚。

$\mathbf{m}_{\mathcal{N}(u)}$ 表示从邻节点获取到的信息，初始时 $\mathbf{h}_{u}^{(0)}=\mathbf{x}_{u}$ ，经过k轮message passing后得到网络的输出 $\mathbf{z}_{u}=\mathbf{h}_{u}^{(K)}, \forall u \in \mathcal{V}$

对于node embedding初始化时的node features $\mathbf{x}_{u}, \forall u \in \mathcal{V}$ ，在通常情况下有很多选择，比如生物网络中的基因表达特征或社会网络中的文本特征。如果没有这些特征，也可以图本身的node statistics（移步另一专栏）

Motivations and Intuitions

为什么这一信息传播机制是有效的？

在每次迭代时，每个节点都从其局部邻域聚合信息，随着这些迭代的进行，每个节点嵌入包含越来越多的来自图的更深处的信息。准确地说，在第一次迭代(k = 1)之后，每个节点嵌入都包含来自其1-hop邻域的信息，即每个节点嵌入都包含其直接图邻居的特征信息，这些特征在图中可以通过一条长度为1的路径到达;第二次迭代后(k = 2)，每个节点嵌入包含来自其2-hop邻域的信息;一般情况下，经过k次迭代后，每个节点嵌入都包含k-hop邻域信息。

这些“信息”是什么？

structural information about the graph
feature-based information （类似CNN）

Basic GNN

最基本的GNN模型可以定义为：
$\mathbf{h}_{u}^{(k)}=\sigma\left(\mathbf{W}_{\mathrm{self}}^{(k)} \mathbf{h}_{u}^{(k-1)}+\mathbf{W}_{\text {neigh }}^{(k)} \sum_{v \in \mathcal{N}(u)} \mathbf{h}_{v}^{(k-1)}+\mathbf{b}^{(k)}\right)$
$\mathbf{W}_{\text {self }}^{(k)}, \mathbf{W}_{\text {neigh }}^{(k)} \in \mathbb{R}^{d^{(k)} \times d^{(k-1)}}$ 是可学习的参数； $\mathbf{b}^{(k)} \in \mathbb{R}^{d^{(k)}}$ 是bias，~~通常也可以忽略，但是可以使模型获取更优的表现，所以其实是必须的~~，上式也可以写为：
$\mathbf{m}_{\mathcal{N}(u)}=\sum_{v \in \mathcal{N}(u)} \mathbf{h}_{v}$

$\operatorname{UPDATE}\left(\mathbf{h}_{u}, \mathbf{m}_{\mathcal{N}(u)}\right)=\sigma\left(\mathbf{W}_{\text {self }} \mathbf{h}_{u}+\mathbf{W}_{\operatorname{neigh}} \mathbf{m}_{\mathcal{N}(u)}\right)$

上面是node-level的模型，graph-level的也非常类似

Self-loops

为了防止过拟合，需要在基础模型上进行改进。加入self-loop可以防止节点特征在不断获取邻节点信息后丢失原有特征。
$\mathbf{H}^{(t)}=\sigma\left((\mathbf{A}+\mathbf{I}) \mathbf{H}^{(t-1)} \mathbf{W}^{(t)}\right)$
$\mathbf{W}_{\text {self }}$ 和 $\mathbf{W}_{\text {neigh }}$ 可以统一为一个矩阵。

Aggregation

Neighborhood Normalization

当某个节点的邻节点数量不同会导致各个节点敏感度不同，因此需要进行归一化，常用的方式比如取平均：
$\mathbf{m}_{\mathcal{N}(u)}=\frac{\sum_{v \in \mathcal{N}(u)} \mathbf{h}_{v}}{|\mathcal{N}(u)|}$
或是symmetric normalization
$\mathbf{m}_{\mathcal{N}(u)}=\sum_{v \in \mathcal{N}(u)} \frac{\mathbf{h}_{v}}{\sqrt{|\mathcal{N}(u)||\mathcal{N}(v)|}}$

Aggregators

aggregation function有很多的选择，比如：
$\mathbf{m}_{\mathcal{N}(u)}=\operatorname{MLP}_{\theta}\left(\sum_{v \in N(u)} \operatorname{MLP}_{\phi}\left(\mathbf{h}_{v}\right)\right)$

$\mathbf{m}_{\mathcal{N}(u)}=\operatorname{MLP}_{\theta}\left(\frac{1}{|\Pi|} \sum_{\pi \in \Pi} \rho_{\phi}\left(\mathbf{h}_{v_{1}}, \mathbf{h}_{v_{2}}, \ldots, \mathbf{h}_{v_{|\mathcal{N}(u)|}}\right)_{\pi_{i}}\right)$
其中 $\rho_{\phi}$ 可以是处理时序输入的神经网络（如LSTM）

Neighborhood Attention

对聚合过程中每个节点信息赋予不同的权重，得到Graph Attention Network (GAT)：
$\mathbf{m}_{\mathcal{N}(u)}=\sum_{v \in \mathcal{N}(u)} \alpha_{u, v} \mathbf{h}_{v}$
权重 $\alpha$ 为：
$\alpha_{u, v}=\frac{\exp \left(\mathbf{a}^{\top}\left[\mathbf{W h}_{u} \oplus \mathbf{W h}_{v}\right]\right)}{\sum_{v^{\prime} \in \mathcal{N}(u)} \exp \left(\mathbf{a}^{\top}\left[\mathbf{W h}_{u} \oplus \mathbf{W h}_{v^{\prime}}\right]\right)}$
其中 $\oplus$ 为concatenation。
该公式还有一些变形，如
$\alpha_{u, v}=\frac{\exp \left(\mathbf{h}_{u}^{\top} \mathbf{W} \mathbf{h}_{v}\right)}{\sum_{v^{\prime} \in \mathcal{N}(u)} \exp \left(\mathbf{h}_{u}^{\top} \mathbf{W h}_{v^{\prime}}\right)}$

$\alpha_{u, v}=\frac{\exp \left(\operatorname{MLP}\left(\mathbf{h}_{u}, \mathbf{h}_{v}\right)\right)}{\sum_{v^{\prime} \in \mathcal{N}(u)} \exp \left(\operatorname{MLP}\left(\mathbf{h}_{u}, \mathbf{h}_{v^{\prime}}\right)\right)}$