GAT(Graph ATtention network)和GCN(Graph Convoluution Network)理论

最新推荐文章于 2024-08-11 21:13:08 发布

Alienge

最新推荐文章于 2024-08-11 21:13:08 发布

阅读量3k

点赞数 9

文章标签：深度学习 gcn 算法图论傅立叶分析

本文链接：https://blog.csdn.net/Alienge/article/details/106439479

版权

代码

如果想直接看代码部分,请移步https://github.com/Alienge/Graph-Network.

背景

最近各种顶会上都可以看到 $G C N$ 和 $G A T$ ，虽然这两篇论文都差不多在18年左右出来的，但是现有论文的网络结构都或多或少的有 $G C N$ 和 $G A T$ 的影子，那么为什么有这么多人去研究图网络呢？或者换句话说使用图网络能解决什么问题？要回答这个问题很容易，因为图结构更符合我们现实生活中的逻辑关系，那么自然而然的就可以去解决很多问题了。比如，个性化推荐，社交网络，特征工程等。

本文会尽量弱化数学公式的影响。

基础知识

在介绍图网络之前我们需要了解一部分图论的基础知识。图是由若干个结点(Node)及连接两个结点的边(edge)所构成的图形，用于刻画不同结点之间的关系。如图1表示了一张图。

图1 non-Euclidean space

那么可以用两个集合量化该图，这两个集合分别是顶点集合和边的集合，分别用 $V$ 和 $E$ 表示。按照图论的定义，可以用一个这个二元组来定义这个图。即
$G=\{V,E\}$ 其中 $V$ 是顶点的集合， $E$ 是边的集合。

拓展一下把这个用到 $G C N$ 或者 $G A N$ 中，对于每一个顶点，都有一个特征，所有顶点的特征聚集在一起可以用一个矩阵来表示，假设顶点有 $∣ V ∣ = N$ 个，特征的维度为 $F_{}$ 图中顶点的特征也叫图的embedding 。那么就可以用一个矩阵 $h$ 来表示，其维度 $s i z e = [N, F]$ . 而边的关系用矩阵e来表示，其 $e_{ij}$ 表示顶点 $v_{i}$ 和顶点 $v_{ij}$ 是否有边相连。维度 $s i z e = [N, N]$ .

$e_{ij}= \begin{cases} 0& \text{如果$v_{i}$与$v_{j}$有边相连}\\ 1& \text{$otherwise$} \end{cases}$
另外图还有一个度矩阵 $D$ ，其维度 $s i z e = [N, N]$ , $D_{ii}$ 表示顶点 $v_{i}$ 的度。

例子：

下面就以 $图 1$ 作为例来表示特征矩阵 $f = h$ , 边矩阵 $A = e$ 和度矩阵 $D$ 。由于只是演示作用，不妨设置特征矩阵的维度为 $1$ 维。即 $f = h = [4, 2, 4, -3]^{T}$

图的拓扑结构	度矩阵(D)	边矩阵(A=e)	特征矩阵(f=h)
	$\left[ \begin{matrix} 2& 0 & 0 & 0 \\ 0 & 3 & 0 & 0 \\ 0 & 0 & 2 & 0 \\ 0 & 0 & 0 &1 \end{matrix} \right]$	$\left[ \begin{matrix} 0& 1 & 1 & 0 \\ 1 & 0 & 1 & 1 \\ 1 & 0 & 1 & 0 \\ 0 & 1 & 0 &0 \end{matrix} \right]$	$\left[ \begin{matrix} 4 \\ 2 \\ 4 \\-3 \end{matrix} \right]$

空域卷积和频域卷积

空域卷积(Spatial Convolution)。从设计理念上看，空域卷积与深度学习中的卷积的应用方式类似，其核心在于聚合邻居结点的信息。比如说，一种最简单的无参卷积方式可以是：将所有直连邻居结点的隐藏状态加和，来更新当前结点的隐藏状态。如图1中顶点 $v_{1}$ 的空域卷积结果为 $f(v_{1})^{l+1} = \frac{f(v_{0}) ^{l}+ f(v_{1}) ^{l}+f(v_{2})^{l}+f(v_{3})^{l}}{4} \tag{1}$ 其中 $f$ 表示是顶点到特征的映射。其中以 $G A T$ 为代表。在下面的说明中, 这种卷积时发生在 $vertex\space domain$ 也称 $\space domain$ 。

频域卷积(Spectral Convolution)。相比于空域卷积而言，它主要利用的是图傅里叶变换(Graph Fourier Transform)实现卷积。简单来讲，它利用图的拉普拉斯矩阵(Laplacian matrix)导出其频域上的的拉普拉斯算子，再类比频域上的欧式空间中的卷积，导出图卷积的公式。虽然公式的形式与空域卷积非常相似，但频域卷积的推导过程却有些艰深晦涩。其中以 $G C N$ 为代表。在下面的说明中，此类卷积是发生在 $\space domain$ 。

空域卷积相比频域卷积非常直观地借鉴了图像里的卷积操作，频域卷积相比空域卷积更加有理论依据。

GAT

在上一节提到的空域卷积的公式 $(1)$ 中，计算 $l + 1$ 层的顶点 $v_{1}$ 的特征时， $l$ 层的顶点 $v_{0},v_{1},v_{2},v_{3}$ 对 $l + 1$ 层的 $v_{1}$ 的权重是一样的，显然这是不合理的。因此 $G A T$ 提出就是解决此问题的一种解决方案。
$G r a p h A t t e n t i o n N e t w o r k (G A T)$ 提出了用注意力机制对邻近节点特征加权求和。邻近节点特征的权重完全取决于节点特征，独立于图结构。那么 $G A T$ 解决了那些问题呢。

$G A T$ 中,图中每个顶点可以根据邻接的顶点确定特征，不由我们指定，权重设置成参数，最终结果由梯度下降得到，免去了人工指定的麻烦。
$G A T$ 的设置，只与相邻节点有关，无需得到整张图的信息。

GAT的理论依据

现有给定如下已知条件：顶点之间的边矩阵为 $\in R^{N \times N}$ , 第 $l$ 层的顶点的特征向量集: $h^{l} = [h_{1}, h_{2},\cdot\cdot\cdot,h_{N} ]^{T}$ , 其中 $h_{i} \in R^{F}$ , $N$ 为图中顶点的个数, 显然可以知道 $\in R^{N \times F}$ 。得到下一层 $l + 1$ 的特征向量势必需要一个权重矩阵，假设下一层的特征向量的维度为 $F^{'}$ ，即 $h_{i}^{l+1} \in R^{F'}$ , 那么需要的权重矩阵 $\in R^{F \times F'}$ 。可以得到的 $l + 1$ 层的特征向量集:
$h^{l+1} = [h_{1}^{'}, h_{2}^{'},\cdot\cdot\cdot,h_{N}^{'} ]^{T}$
显然可以知道 $h^{l+1} \in R^{N \times F'}$ 。
有了这些就可以计算注意力了，针对每个节点可以得到对应的注意力系数, 注意力系数为：

$e_{ij} = a(W^{T}h_{i},W^{T}h_{j}) \tag{2}$
注意一下 $W^{T}h_{i},W^{T}h_{j})$ 是一个 $c o n c a t$ 操作, 可以知道 $(W^{T}h_{i},W^{T}h_{j}) \in R^{2F' \times 1}$ , 而 $\in R^{1 \times 2F'}$
那么以这种方式就可以计算出所有的注意力系数，作者通过 $M a s k A t t e n t i o n$ 将这个注意力机制引入图结构中， $M a s k A t t e n t i o n$ 的含义是：仅将注意力分配到顶点 $i$ 的邻居节点集 $\in N_{i}$ 为了使得注意力系数更容易计算和便于比较，我们引入了 $s o f t m a x$ 对所有的 $i$ 的相邻节点 $\in N_{i}$ 进行正则化:
$a_{ij} = softmax(e_{ij})=\frac{exp(e_{ij})}{\sum_{k\in N_{i}}exp(e_{ik})} \tag{3}$
更直观一点解释就是行归一化，只不过是特殊的行归一化而已。

作者在这里在进行行归一化之前加了一个非线性函数 $L e a k y R e l u$ 。有了 $(2)$ , $(3)$ 和非线性关系 $L e a k R e l u$ ,那么我们就可以轻松得到最后的注意力系数：
$a_{ij} = softmax(LeakyRelu(e_{ij}))=\frac{exp(LeakyRelu(a[Wh_{i},Wh_{j}]))}{\sum_{k\in N_{i}}exp(LeakyRelu(a[Wh_{i},Wh_{k}]))} \tag{4}$
注意一下哈，我在参考其他代码的时候发现系数 $a$ 在每一次计算 $e{ij}$ 的过程中是不变的。
那么上面这公式(2), (3)和(4) 时组成GAT的核心部分。最后一步得到最终的 $a t t e n t i o n$ 就需要把边的矩阵 $A$ 结合起来, 即最后的 $m a s k$ 部分。
即 $attention_{ij}= \begin{cases} a_{ij}& \text{如果$v_{i}$与$v_{j}$有直接边相连}\\ infinite& \text{$otherwise$} \end{cases} \tag{5}$
其中 $\in R^{N\times N}$ 。
有了这个最终 $l + 1$ 层的输出为:
$h^{l+1} = \sigma( attention \times h_{l}W)$
最终得到 $h^{l+1} \in R^{N \times F'}$

自此， $G A T$ 的理论部分基本全部完成，其最终的目的时训练出注意力系数。以这个目的进行了一系列操作，本质上就是这个。

下面是重新整理公式与代码部分的相关的公式, 如果你不想看，可直接跳过.

为了写代码的方便，这里我们把计算 $a t t e n t i o n$ 的部分用矩阵写出来
已知 $h^{l} \in R^{N\times F}$ , $W\in R^{F\times F'}$ , 参数 $\in R^{1\times 2F'}$ ，这里可以解释一下 $a$ 这里的作用，我们可以把 $a$ 分成两部分，一个是自注意力系数，一个是邻居节点的注意力系数，即 $a = [a_{self}, a_{neibor}]$
$h^{l+1} = h^{l} W \tag{6}$
$attention_{self} = h^{l+1} a_{self}^{T}\tag{7}$
$attention_{neibor} = h^{l+1} a_{neibor}^{T}\tag{8}$
$=attention_{self} + attention_{neibor}^{T}\tag{9}$
$LeakRelu(attention)\tag{10}$
$attention_{ij}= \begin{cases} attention_{ij}& \text{如果$v_{i}$与$v_{j}$有直接边相连}\\ infinite& \text{$otherwise$} \end{cases} \tag{11}$
$softmax(attetion)\tag{12}$
$h^{l+1} =\sigma(attention \times h^{l+1} ) \tag{13}$

有了公式 $(6) - (13)$ , 我们可以很容易的实现 $G A T$ 的代码, 具体代码参考GAT的pytorch代码. 这个代码的实现只是我自己参考别人的代码实现，有些地方作了改动。当然也有star很多的代码pytorch星比较多的代码

GCN

深度学习中, $C N N$ 中的卷积本质上是一个共享参数的特征提取, 通过计算中心像素点以及相邻像素点的加权和来构成 $f e a t u r e m a p$ , 实现空间特征的提取。但是这种理论只适用于 $E u c l i d e a n S t r u c t u r e$ , 对于 $G r a p h$ 这种 $N o n E u c l i d e a n S t r u c t u r e$ 并不是很适用。那么如何将 $C N N$ 中的思想引入到 $G r a p h$ 中，成为一个很大的问题。这里为什么要研究GCN的原因，参考的知乎请移步这里。

$\space domain$ 是GCN的理论基础, 主要借助图的 $\space matrix$ 的特征值和特征向量来研究图的性质。

GCN的理论依据

现有给定如下已知条件：顶点之间的边矩阵为 $\in R^{N \times N}$ , $N$ 为图中顶点的个数, 显然可以知道 $\in R^{N \times F}$ 和和度矩阵 $\in R^{N\times N}$ 。 $\space matrix$ 定义为
$\tag{14}$

图的拓扑结构	度矩阵(D)	边矩阵(A=e)	特征矩阵(f=h)	Laplacian matrix
	$\left[ \begin{matrix} 2& 0 & 0 & 0 \\ 0 & 3 & 0 & 0 \\ 0 & 0 & 2 & 0 \\ 0 & 0 & 0 &1 \end{matrix} \right]$	$\left[ \begin{matrix} 0& 1 & 1 & 0 \\ 1 & 0 & 1 & 1 \\ 1 & 0 & 1 & 0 \\ 0 & 1 & 0 &0 \end{matrix} \right]$	$\left[ \begin{matrix} 4 \\ 2 \\ 4 \\-3 \end{matrix} \right]$	$\left[ \begin{matrix} 2& -1 & -1 & 0 \\ -1 & 3 & -1 & -1 \\ -1 & 0 & 1 & 0 \\ 0 & -1 & 0 &1 \end{matrix} \right]$

这里不过多的介绍傅里叶分析里面的东西, 这里只需要记得 $L a p l a c i a n$ 变换可以将上面的 $v e r t e x d o m a i n$ 变换到 $s p e c t r a l d o m a i n$ , 或者简单的把 $L a p l a c i a n$ 变换是操作在 $G r a p h$ 中的一个算子即可。这里并不影响你理解 $G C N$ 。这里简单说一下 $\space matrix$ 的几个好的性质:

$\space matrix$ 是一个对称矩阵, 那么就可以进行特征分解, 也就是谱分解
$\space matrix$ 是一个半正定的矩阵，也就是其特征值 $\lambda_{i} \geq0$

知道了这些，就可以对这些就可以对 $L$ 进行特征分解，在线性代数中，有
$U\Lambda U^{T} \tag{15}$ 其中 $\Lambda = \left[ \begin{matrix} \lambda_{1} & 0 & \cdots & 0 \\ 0 & \lambda_{2} & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda_{N} \\ \end{matrix} \right]$
$[u_{1}, u_{2},\dots,u_{N}] \in R^{N\times N}$ 。
那么这个 $U$ 就是一组标准的正交基向量, 显然有
$UU^{T}=I \tag{16}$
这组标准正交基可以将 $\space domain$ 转化到 $\space doamin$ 中。现假设输入的矩阵为 $x\in R^{N\times F}$ ，那么转化到 $\space doamin$ 中变成:
$\hat{x} = U^{T}x \tag{17}$
所有的特征都转化到 $\space doamin$ 中了，那么自然而然的联想到是否有有在 $Vertex\space domain$ 中的普通神经网络中的
$\theta{x}$
答案是肯定的，但是这个和在 $\space doamin$ 中有稍稍的不同, 我们以图1中的 $G r a p h$ 为例进行简单的解释, 应该是怎么样的一种 $\theta$ 的形式。

在图2中，输入特征矩阵 $x$ (和GAT中的 $h^{l}$ 一致), 经过空间变换(傅里叶变换)成频率空间, $\hat{x}$ 表示 $x$ 经过变换后的结果。那么你看到的频率空间， $\hat{x}$ 就是图2中的 $s (w)$ , 而图2中 $s (t)$ 是时间域的二维图。本质上就是你以什么样的视角去看同一个东西。然后出现的不同结果。那么图3就是 $x$ 在频率上显示的图形。

图2 在不同空间的图解

图3 x在spectral domain上的显示x

解释一下这个是什么意思， $[\lambda_{1},\lambda_{2},\lambda_{3},\lambda_{4}]$ 是在 $\space domain$ 的频率大小。而 $u_{1}x, u_{2}x, u_{3}x,u_{4}x]$ 是每个频率上的数值大小。说白了就是 $x$ 在基向量 $u 1$ 上的投影大小。现在只需要在每个频率上加一个参数就可以实现 $C N N$ 上的 $y=\theta x$ 了。即

图4 参数

那么就有
$\left[ \begin{matrix} \hat{y}_{1} \\ \hat{y}_{2} \\ \hat{y}_{3} \\ \hat{y}_{4} \end{matrix} \right] = \left[ \begin{matrix} \theta_{1}& 0 & 0 & 0 \\ 0 & \theta_{2} & 0 & 0 \\ 0 & 0 & \theta_{3} & 0 \\ 0 & 0 & 0 &\theta_{4} \end{matrix} \right] \left[ \begin{matrix} \hat{x}_{1} \\ \hat{x}_{2} \\ \hat{x}_{3} \\ \hat{x}_{4} \end{matrix} \right]$
显然这个参数与 $\Lambda$ 和 $\theta$ 有关，不妨将其记录为 $g_{\theta}(\Lambda)$ 。那么就有关系：
$\hat{y} = g_{\theta}(\Lambda)\hat{x} \tag{18}$
由公式(17)可知，(18)式可以变成
$\hat{y} = g_{\theta}(\Lambda)U^{T}{x} \tag{19}$
现在只需要把 $\hat{y}$ 反傅里叶变化成 $\space domain$ 中就可以。即
$\hat{y} =U^{T}y= g_{\theta}(\Lambda)U^{T}{x} \tag{20}$
根据正交矩阵的性质, 也即公式(16), 就可以得到

$g_{\theta}(\Lambda)U^{T}{x} \tag{21}$
又因为 $g_{\theta}(\Lambda)$ 是关于 $\Lambda$ 的函数, 就可以变成

$=g_{\theta}(L){x} \tag{22}$

然而公式(22)是所有一切以 $G C N$ 罪恶的开始, 其他的所有都只是在做怎么估计这个 $g_{\theta}(L)$ 。

主流的 $G C N$ 是以 $\space polynomial$ 为基础进行估计 $g_{\theta}(L)$ , $\space polynomial$ 为：
$T_{0}(\widetilde{\Lambda}) = I \space \space T_{1}(\widetilde{\Lambda})=\widetilde{\Lambda}\space \space T_{i}(\widetilde{\Lambda}) = 2\widetilde{\Lambda}T_{i-1}(\widetilde{\Lambda})-T_{i-2}(\widetilde{\Lambda}) \tag{23}$

其中要满足两个关系式 $\widetilde{\Lambda} = \frac{2\Lambda}{\lambda_{max}}-I$ ， $\widetilde{\Lambda}\in[-1,1]$ 。
有了上面的 $\space polynomial$ 递推关系式(23)，不妨设：
$g_{\theta}(\Lambda) = \sum_{k=0}^{n}\theta_{k}\Lambda^{k}$
在 $\space polynomial$ 中，取值 $n=1,\lambda_{max}=2$ ，公式(22)就可以变成:

$=\theta_{0}{x} +\theta_{1}(L-I)x \tag{24}$
取 $L=I-D^{\frac{-1}{2}}AD^{\frac{1}{2}}$ ，这一步在原论文中成为正则化的结果.另外为了防止参数过多,令 $\theta=\theta_{0}=-\theta_{1}$ ，那么式(24)可以变成
$y=\theta(I+D^{\frac{-1}{2}}AD^{\frac{1}{2}})x \tag{25}$ .
又令 $I+D^{\frac{-1}{2}}AD^{\frac{1}{2}}=I+\widetilde{D}^{\frac{-1}{2}}A\widetilde{D}^{\frac{1}{2}}$ ，最终的形式变成了
$y=\theta(\widetilde{D}^{\frac{-1}{2}}A\widetilde{D}^{\frac{1}{2}})x \tag{26}$ .
式(26）再加上一个非线性变化也就是 $G C N$ 的最终形式

$y=\sigma(\theta(\widetilde{D}^{\frac{-1}{2}}A\widetilde{D}^{\frac{1}{2}})x )\tag{26}$ .

代码部分也是参考式(26)的矩阵变形形式所写

$y=\sigma((\widetilde{D}^{\frac{-1}{2}}A\widetilde{D}^{\frac{1}{2}})x \theta)\tag{27}$ .

把最终的结果转换成和GAT一样的参数变量,也即令 $y=h^{l+1}$ , $x = h^{l}$ 就有

$h^{l+1}=\sigma((\widetilde{D}^{\frac{-1}{2}}A\widetilde{D}^{\frac{1}{2}})h^{l} \theta)\tag{28}$ .