《Graph Representation Learning》笔记 Chapter5

最新推荐文章于 2024-02-17 23:05:37 发布

吊儿郎当的凡

最新推荐文章于 2024-02-17 23:05:37 发布

阅读量2k

点赞数 1

分类专栏：图表示学习文章标签：线性代数机器学习图论图嵌入图计算

本文链接：https://blog.csdn.net/weixin_43269419/article/details/120802513

版权

图表示学习专栏收录该内容

7 篇文章 1 订阅

订阅专栏

系列文章
《Graph Representation Learning》笔记 Chapter2
《Graph Representation Learning》笔记 Chapter3
《Graph Representation Learning》笔记 Chapter4

Permutation invariance and equivariance

为了生成整张图的 embedding ，我们可以将邻接矩阵展平后输入到多层感知机 (MLP) 中
$z_{\mathcal{G}} = MLP(A[1] \oplus A[2] \oplus ... \oplus A[|\mathcal{V}|])$
其中， $R^{|\mathcal{V}|}$ 表示邻接矩阵的第 $i$ 行，使用 $\oplus$ 代表向量拼接。
这种方法高度依赖于邻接矩阵中节点的顺序，我们所期望的模型需要具有排列不变性或排列相等性，这两种性质可用数学公式表示为
$\begin{aligned} f(PAP^T) = f(A) &（排列不变性）\\ f(PAP^T) = Pf(A) &（排列相等性） \end{aligned}$
其中， $f$ 为我们所期望的模型， $P$ 为排列矩阵， $PAP^T$ 表示将邻接矩阵先进行行变换再进行相同规则的列变换，即变换节点在邻接矩阵中所处的顺序。

Neural Message Passing

我们将讨论图神经网络 (GNN) 结构如何用于产生子图和整图的 embeddings 。

Overview of the Message Passing Framework

GNN 在每次信息传递迭代时，每个 hidden embedding $h_u^{(k)}, u ∈ \mathcal{V}$ 被更新通过聚合 $u$ 的邻域 $\mathcal{N}(u)$ 的信息，如下图所示
在这里插入图片描述

它的数学表达示为
$\begin{aligned} h_u^{(k+1)} &= UPDATE^{(k)}(h_u^{(k)}, AGGREGATE^{(k)}(\{h_v^{(k)}, \forall{v} ∈ \mathcal{N}(u)\})) \\ &= UPDATE^{(k)}(h_u^{(k)}, m_\mathcal{N(u)}^{(k)}) \end{aligned}$
其中， $U P D A T E$ 和 $A G G R E G A T E$ 是任意的可微函数， $m_\mathcal{N(u)}$ 是节点 $u$ 邻域 $\mathcal{N}(u)$ 的信息聚合。
在 $K$ 次迭代（信息传递）后，我们可以用最后一层的输出来定义每个节点的 embeddings
$z_u = h_u^{(K)}, \forall{u} ∈ \mathcal{V}$

The Basic GNN

基本 GNN 信息传递被定义为
$h_u^{(k)} = σ(W_{self}^{(k)}h_u^{(k-1)} + W_{neigh}^{(k)}\sum_{v ∈ \mathcal{N}(u)}h_v^{(k-1)} + b^{(k)})$
其中, $W_{self}^{(k)}, W_{neigh}^{(k)} ∈ \mathbb{R}^{d^{(k)} × d^{(k-1)}}$ 是可训练的参数矩阵， $σ$ 表示非线性函数。为了表述简洁，下文中的偏置 $b^{(k)} ∈ \mathbb{R}^{d^{(k)}}$ 会省略，但不可忽视。
定义 $U P G A T E$ 和 $A G G R E G A T E$ 函数
$m_{\mathcal{N}(u)} = AGGREGATE(\{h_v, \forall{v} ∈ \mathcal{N}(u)\}) = \sum_{v ∈ \mathcal{N}(u)}h_v \\ UPDATE(h_u, m_\mathcal{N(u)}) = σ(W_{self}h_u + W_{neigh}m_{\mathcal{N}(u)})$
同样为了表述简洁，我们省略了式中的上角标。

Node vs. graph-level equation

我们可以简洁地定义整图级别的 GNN 模型
$H^{(t)} = σ(AH^{(k-1)}W_{neigh}^{k} + H^{(k-1)}W_{self}^{(k)})$
式中 $H^{(k)} ∈ \mathbb{R}^{|V| × d}$ 表示第 t 层 GNN 输出的节点 embeddings 的集合（按行排列）。

Message Passing with Self-loops

为了简化信息传播方法，我们加入了自循环机制，定义为
$h_u^{(k)} = AGGREGATE(\{h_v^{(k-1)}, \forall{v} ∈ \mathcal{N}(u) \cup \{u\} \}))$
现在， AGGREGATE 的输入变为了集合 $\mathcal{N}(u) \cup \{u\}$ ，不需要额外定义 $U P D A T E$ 函数，这中方法减轻了过拟合现象，但是节点邻域的信息与该节点的信息在聚合时并没有区分开。
对于整图来说，自循环机制相当于将 $W_{self}$ 和 $W_{neigh}$ 的参数进行共享，表达式变为
$H^{(t)} = σ((A+I)H^{(t-1)}W^{(t)})$

Generalized Neighborhood

Neighborhood Normalization

当不同节点所对应的邻域节点数差距过大时，会导致数值的不稳定以及优化困难。一个解决方法是通过节点的 degrees 来标准化 $A G G R E G A T E$ 操作，如下所示
$m_{\mathcal{N}(u)} = \frac{\sum_{v ∈ \mathcal{N}(u)}h_v}{|\mathcal{N}(u)|}$
下面的对称标准化也能起到不错的效果
$m_{\mathcal{N}(u)} = \sum_{v ∈ \mathcal{N}(u)} \frac{h_v}{\sqrt{|\mathcal{N}(u)||\mathcal{N}(v)|}}$

Graph convolutional network(GCNs)

GCN 模型定义信息传递函数为
$h_u^{(k)} = σ(W^{(k)}\sum_{v ∈ \mathcal{N}(u) \cup \{u\} } \frac{h_v}{\sqrt{|\mathcal{N}(u)||\mathcal{N}(v)|}})$

Set Aggregators

Set pooling

我们需要基于上文提到的排列不变性来定义 AGGREGATE 函数， Zaheer 定义了如下函数
$m_{\mathcal{N}(u)} = MLP_θ(\sum_{v ∈ N}MLP_{\phi}(h_v))$
其中， $MLP_θ$ 代表有着可训练参数 $θ$ 的多层感知机。

Janossy pooling

Janossy pooling 计算所有可能的排列输入产生的结果进行平均
$m_{\mathcal{N}(u)} = MLP_θ(\frac{1}{|\Pi|} \sum_{\pi_i ∈ \Pi} ρ_{\phi}(h_{v_1}, h_{v_2}, ..., h_{v_{|\mathcal{N}(u)|}})_{\pi_i})$
其中， $\Pi$ 表示排列函数 $\pi_i$ 的集合， $ρ_{\phi}$ 为序列输入的函数，如 LSTM 。

Neighborhood Attention

第一个引入注意力机制的GNN模型为 Graph Attention Network(GAT) ，它使用注意力权重来聚合邻域信息
$m_{\mathcal{N}(u)} = \sum_{v ∈ \mathcal{N}(u)} α_{u, v}h_v \\$
其中， $α_{u, v}$ 代表注意力权重。有的注意力权重被定义为
$α_{u, v} = \frac{exp(a^T[Wh_u \oplus Wh_v])}{\sum_{v' ∈ \mathcal{N}(u)} exp(a^T[Wh_u \oplus Wh_{v'}])}$
其中， $a$ 是一个可训练的注意力向量， $W$ 是一个可训练的矩阵， $\oplus$ 代表向量拼接操作。
令一种流行的注意力权重被定义为
$α_{u, v} = \frac{exp(h_u^TWh_v)}{\sum_{v' ∈ \mathcal{N}(u)} exp(h_u^TWh_{v'})}$
有人使用 MLPs 来计算注意力权重
$α_{u, v} = \frac{exp(MLP(h_u, h_v))}{\sum_{v' ∈ \mathcal{N}(u)} exp(MLP(h_u, h_{v'}))}$
其中， $M L P$ 被限制为一个标量输出。
有人将 transformer 结构引入 GNN ，这种方法使用不同参数的注意力层计算 $K$ 个不同的注意力权重 $α_{u, v, k}$ ，在信息 $A G G R E G A T E$ 时，先使用这些权重进行信息 transform ，在将变化后的信息堆积在一起，表达式如下
$m_{\mathcal{N}(u)} = [a_1 \oplus a_2 \oplus ... \oplus a_K] \\ a_k = W_i \sum_{v ∈ \mathcal{N}(u)} α_{u, v, k} h_v$

Generalized Update Methods

Over-smoothing and neighbourhood influence

在 GNN 中，对于任意节点对，我们可以通过雅可比矩阵量化 $u$ 对 $v$ 的影响
$I_K(u, v) = \bm1^T(\frac{δh_v^{(K)}}{δh_u^{(0)}}) \bm1$
其中， $\bm1$ 为全1向量。
对于自循环方法来说，信息 $A G G R E G A T E$ 函数表示如下
$AGGREGATE(\{h_v, \forall{v} ∈ \mathcal{N}(u) \cup \{u\} \}) = \frac{1}{f_n(|\mathcal{N}(u) \cup \{u\}|)} \sum_{v ∈ \mathcal{N}(u) \cup \{u\} h_v}$
其中， $\mathbb{R}^+ \rightarrow \mathbb{R}^+$ 是标准化函数。
我们知道
$I_K(u, v) \propto p_{\mathcal{G}, K}(u | v)$
其中， $p_{\mathcal{G}, K}(u | v)$ 代表节点 $u$ 以长度为 $K$ 的随机路径移动到节点 $v$ 的概率。当 $\rightarrow ∞$ 时，对于任意节点对， $p_{\mathcal{G}, K}(u | v)$ 趋于相同，导致邻域信息丢失，即出现过平滑现象。

Concatenation and Skip-Connections

将基本 $U P D A T E$ 的输出与节点的上一层 embedding 拼接，可以在信息传递中保持更多的节点信息
$UPDATE_{concat}(h_u, m_{\mathcal{N}(u)}) = [UPDATE_{base}(h_u, m_{\mathcal{N}(u)}) \oplus h_u]$
除了拼接，其他方式的 skip-connections 也可被使用，比如说线性插值方法，如下所示
$UPDATE_{interpolate}(h_u, m_{\mathcal{N}(u)}) = \alpha_1 \circ UPDATE_{base}(h_u, m_{\mathcal{N}(u)}) + \alpha_2 \odot h_u$
其中， $\alpha_1, \alpha_2 ∈ [0, 1]^d$ 为门控向量， $\alpha_2 = 1 - \alpha_1$ ， $\circ$ 代表 Hadamard 积。

Gated Updates

我们也可以通过观测值使用门控循环单元( gated recurrent unit, GRU )来更新隐藏状态
$h_u^{(k)} = GRU(h_u^{(k-1)}, m_{\mathcal{N(u)}}^{(k)})$

Jumping Knowledge Connections

简单的在信息传递中利用每层的节点表示也可以提升最终的节点表示 $z_u$
$z_u = f_{JK}(h_u^{(0)} \oplus h_u^{(1)} \oplus ... \oplus h_u^{(K)})$
其中， $f_{JK}$ 为任意函数。

Edge Features and Multi-relational GNNs

Relational Graph Neural Networks

aggregation 方法可以通过在每种关系上指定一个单独的转移矩阵来适应多关系情况
$m_{\mathcal{N}(u)} = \sum_{\tau ∈ \mathcal{R}} \sum_{v ∈ \mathcal{N}_{\tau}(u)} \frac{W_{\tau}h_v}{f_n(\mathcal{N}(u), \mathcal{N}(v))}$
其中， $f_n$ 是一个标准化函数， $\mathcal{R}$ 为存在的关系， $W_{\tau}$ 为关系矩阵。

Parameter sharing

上述方法的参数过多，所以有人提出了共享参数的方法
$W_{\tau} = \sum_{i=1}^b \alpha_{i, \tau} B_i$
关系矩阵 $W_{\tau}$ 被定义为 b 个基本矩阵 $B_1, ..., B_b$ 的线性叠加，权重为 $\alpha_{1, \tau}, ..., \alpha_{b, \tau}$ 。
aggregate 函数表示为
$m_{\mathcal{N}(u)} = \sum_{\tau ∈ \mathcal{R}} \sum_{v ∈ \mathcal{N}_{\tau}(u)} \frac{\alpha_{\tau} \times \mathcal{B} \times h_v}{f_n(\mathcal{N}(u), \mathcal{N}(v))}$
其中， $\mathcal{B} = (B_1, ..., B_b)$ 为堆积所有基本矩阵 $B_i$ 的张量， $\alpha_{\tau} = (\alpha_{1, \tau}, ..., \alpha_{b, \tau})$ 为关系 $\tau$ 中的权重向量。

Attention and Feature Concatenation

定义一个新的 aggregation 函数
$m_{\mathcal{N}(u)} = AGGREFATE_{base}(\{ h_v \oplus e_{(u, \tau, v)}, \forall v ∈ \mathcal{N}(u) \})$
其中， $e_{(u, \tau, v)}$ 代表边缘 $\tau, v)$ 的特征向量。

Graph Pooling

Set pooling approaches

我们想要设计一个能将节点嵌入 ${z_1, z_{|V|}\}$ 映射至图嵌入 $z_\mathcal{G}$ 的池化函数 $f_p$ 。
第一种方法是简单的取节点嵌入的和或平均
$z_{\mathcal{G}} = \frac{\sum_{v ∈ \mathcal{V}}z_v}{f_n(|\mathcal{V}|)}$
第二种方法结合了 LSTM 和注意力机制，需要迭代 $t = 1, . . ., T$ 步
$q_t = LSTM(o_{t-1}, q_{t-1}) \\ e_{v, t} = f_a(z_v, q_t), \forall v ∈ \mathcal{V} \\ a_{v, t} = \frac{exp(e_{v, t})}{\sum_{u ∈ \mathcal{V}}e_{u, t}}, \forall v ∈ \mathcal{V} \\ o_t = \sum_{v ∈ \mathcal{V}} a_{v, t}z_v$
其中， $q_t$ 向量代表第 $t$ 轮的查询向量，由上一轮的观测向量和查询向量计算而成。 $f_a: \mathbb{R}^d \times \mathbb{R}^d \rightarrow \mathbb{R}$ 代表注意力函数， $e_{v, t}$ 代表第 $t$ 轮的注意力分数，将注意力分数规则化后变为 $a_{v, t}$ 。最终，将节点嵌入加权相加后得到观测向量。 $q_0$ 和 $o_0$ 初始化为全零向量，整图嵌入表示为
$z_{\mathcal{G}} = o_1 \oplus o_2 \oplus ... \oplus o_T$

Graph coarsening approaches

假定我们由一些聚类函数将所有节点分配到 $c$ 个簇中
$f_c \rightarrow \mathcal{G} \times \mathbb{R}^{|V| \times d} \rightarrow \mathbb{R}^{+|V| \times c} \\ S = f_c(\mathcal{G}, Z)$
其中， $\mathbb{R}^+$ 代表节点 $u$ 和簇 $i$ 的联系强度。
修改邻接矩阵使其表示簇和簇之间的连接强度
$A^{new} = S^TAS ∈ \mathbb{R}^{+c \times c}$
修改嵌入矩阵使其表示簇嵌入
$X^{new} = S^T X ∈ \mathbb{R} ^{c \times d}$
每一轮进行迭代，簇会越来越少，最终形成一个充分粗糙的图嵌入

Generalized Message Passing

信息传递还需利用边和整图的信息，传递方式如下所示
$h_{(u, v)}^{(k)} = UPDATE_{edge} (h_{(u, v)}^{(k-1)}, h_u^{(k-1)}, h_v^{(k-1)}, h_{\mathcal{G}}^{(k-1)}) \\ m_{\mathcal{N}(u)} = AGGREGATE_{node} (\{ h_{(u, v)}^{(k)}, \forall v ∈ \mathcal{N}(u) \}) \\ h_u^{(k)} = UPDATE_{node} (h_u^{(k-1)}, m_{\mathcal{N}(u)}, h_{\mathcal{G}}^{(k-1)}) \\ h_{\mathcal{G}}^{(k)} = UPDATE_{graph}(h_{\mathcal{G}}^{(k-1)}, \{ h_u^{(k)}, \forall u ∈ \mathcal{V} \}, \{ h_{(u, v)}^{(k)}, \forall (u, v) ∈ \mathcal{E} \})$

吊儿郎当的凡

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
《Graph Representation Learning》笔记 Chapter5

系列文章《Graph Representation Learning》笔记 Chapter2《Graph Representation Learning》笔记 Chapter3《Graph Representation Learning》笔记 Chapter4目录Permutation invariance and equivarianceNeural Message PassingOverview of the Message Passing FrameworkPermutation invar
复制链接

扫一扫