图神经网络基础(part 1)

GallopZhang

已于 2023-02-04 00:15:06 修改

阅读量751

点赞数

分类专栏：机器学习与深度学习文章标签：神经网络算法图论傅里叶分析

于 2023-02-04 00:09:21 首次发布

本文链接：https://blog.csdn.net/qq_45448654/article/details/128877640

版权

机器学习与深度学习专栏收录该内容

4 篇文章 11 订阅

订阅专栏

文章介绍了图的基本概念，包括顶点、边、邻接矩阵、度矩阵、路径、距离等，并详细讲解了拉普拉斯矩阵的定义、性质及其在图信号分析中的应用。此外，还提到了图的遍历、图的同构以及图论傅里叶变换，阐述了图在数学和计算领域的理论基础。

摘要由CSDN通过智能技术生成

一、图的基本概念

    对于接触过数据结构和算法的人来说，图并不是一个陌生的概念。一个图(Graph)由一些顶点[Vertex，也称为节点(Node)]和连接这些顶点的边(Edge)组成。给定一个图 $G = (V, E)$ ，其中 $V=\{v_1,v_2,\cdots,v_n\}$ 是一个具有n个顶点的集合， $E{\in}V{\times}V$ 是边的集合。
     a. 邻接矩阵
    我们用邻接矩阵(Adjacent Matrix) $A{\in}R^{n{\times}n}$ 表示顶点之间的连接关系。如果顶点 $v_i$ 和 $v_j$ 之间有连接，就表示 $v_i,v_j)$ 组成了一条边 $(v_i,v_j){\in}E$ ，那么对应的邻接矩阵的元素 $A_{ij}=1$ ，否则 $A_{ij}=0$ 。邻接矩阵的对角线元素通常设置为0。
     b. 顶点的度
    一个顶点的度(Degree)指的是与该顶点连接的边的总数。我们用 $d (v)$ 表示顶点v的度，则顶点的度和边之间有关系 $\sum\nolimits_{v{\in}V}d(v)=2|E|$ ，即所有顶点的度之和是边的数目的两倍
     c. 度矩阵
    图G的度矩阵(Degree Matrix)D是一个 $n{\times}n$ 的对角阵，对角线上的元素是对应顶点的度：
$d_{i,j}= \begin{cases} d(v_i)& \text{如果}i=j\\ 0& \text{其他} \end{cases}$
     d. 路径
    从顶点u到顶点v的一条路径(Path)是指一个序列 $v_0,e_1,v_1,e_2,v_2,\cdots,e_k,v_k$ ，其中 $v_0=u$ 是起点， $v_k=v$ 是终点， $e_i$ 是一条从 $v_{i-1}$ 到 $v_{i}$ 的边
     e. 距离
    如果从顶点u到顶点v的最短路径存在，则这条最短路径的长度称为顶点u与顶点v之间的距离。如果u和v之间不存在路径，则距离为无穷大。
     f. 邻居节点
    如果顶点 $v_i$ 和 $v_j$ 之间有边连接，则 $v_i$ 和 $v_j$ 互为邻接点(Neighborhood)， $v_i$ 的邻接点集合写作 $N_{v_i}$ 或 $N({v_i})$ 。如果 $v_j$ 到 $v_i$ 的距离为 $K$ ，则称 $v_j$ 为 $v_i$ 的K阶邻居节点
     g. 权重图
    如果图里的边不仅表示连接关系，而且具有表示连接强弱的权重，则这个图称为权重图(Weighted Graph)。在权重图中，邻接矩阵的元素不再是0,1，而可以是任意实数 $A_{ij}{\in}R$ 。顶点的度也相对应地变为与该顶点连接的边的权重的和。由于非邻接点的权重为0，所以顶点的度也等价于邻接矩阵A对应行的元素的和。
     h. 有向图
    如果一个图中每条边都有方向，则称这个图为有向图(Directed Graph)，反之称为无向图。在有向图中，从顶点u到v的边和从v到u的边是两条不同的边。反映在邻接矩阵中，有向图的邻接矩阵通常是非对称的，而无向图的邻接矩阵一定是对称的，即 $A_{ij}=A_{ji}$
     i. 图的遍历
    从图的某个顶点出发，沿着图中的边访问每个顶点且只访问一次，这叫做图的遍历(Graph Traversal)。图的遍历一般有两种：深度优先搜索和广度优先搜索。
     j. 图的同构
    图的同构(Graph Isomorphism)指的是两个图完全等价。两个图 $G = (V, E)$ 和图 $G^{'} = (V^{'}, E^{'})$ 是同构的，当且仅当对于任意 $(u,v){\in}E'$ 。

二、简易图谱论

早期，很多图神经网络的概念是基于图信号分析或图扩散的，而这些都需要与图谱论相关的知识。下面介绍一些与图谱论相关的重要概念，如拉普拉斯矩阵及其背后的意义、图论傅里叶变换等。

2.1 拉普拉斯矩阵

    对于一个有n个顶点的图G，它的拉普拉斯矩阵(Laplacian Matrix)定义为：
$L = D - A$     其中，D是图G的度矩阵，A是图G的邻接矩阵。L中的元素可定义为：
$L_{ij}= \begin{cases} d(v_i)& 如果i=j \\ -A_{ij}& 如果i\ {\neq}\ j并且v_i与v_j之间有边 \\ 0& 其他 \end{cases}$     通常，我们需要将拉普拉斯矩阵进行归一化。常用的有两种方式。
    (1) 对称归一化的拉普拉斯矩阵(Symmetric Normalized Laplacian Matrix)
$L^{sym}=D^{-\frac{1}{2}}LD^{-\frac{1}{2}}=I-D^{-\frac{1}{2}}AD^{-\frac{1}{2}}$     (2) 随机游走归一化的拉普拉斯矩阵(Random Walk Normalized Laplacian Matrix)
$L^{rw}=D^{-{1}}L=I-D^{-{1}}A$     以下面这个图为例，假设每条边权重为1，得到这个图的邻接矩阵、度矩阵和拉普拉斯矩阵。
在这里插入图片描述     从这个L矩阵中可以观察到拉普拉斯的以下几条性质。
     ○ L是对称的
     ○ L是半正定矩阵（每个特征值 $\lambda_i{\geq}0$ ）
     ○ L的每一行每一列的和为0
     ○ L的最小特征值为0。给定一个特征向量 $v_0=(1,1,\cdots,1)^T$ ，根据上一条性质，L的每一行之和为0，所以 $Lv_0=0$

2.2 拉普拉斯二次型

拉普拉斯矩阵是半正定矩阵，这就意味着对任意一个n维非0向量 $z$ ， $z^TLz{\geq}0$ 。式子展开后为：
$z^TLz=z^TDz-z^TAz=\sum_{i=1}^nd_iz_i^2-\sum_{i,j=1}^nz_iz_jA_{ij}\\=\frac{1}{2}(\sum_{i=1}^nd_iz_i^2-2\sum_{i,j=1}^nz_iz_jA_{ij}+\sum_{j=1}^nd_jz_j^2)\\=\frac{1}{2}\sum_{i,j=1}^nA_{ij}(z_i-z_j)^2\\=\sum_{(v_i,v_j){\in}E}w_{ij}(z_i-z_j)^2$ 这个式子称为拉普拉斯二次型。其中， $d_i$ 是度矩阵D的对角元素， $d_i=d(v_i)=\sum\nolimits_{j=1}^nA_{ij}$ 。为了区分A中的边和非边元素，我们用 $w_{ij}$ 表示 $v_i$ 与 $v_j$ 连接时它们之间的权重。很显然，这个式子是大于等于0的，所以L是半正定的。

2.3 拉普拉斯矩阵与图扩散

    拉普拉斯矩阵的另一个重要作用是作为图上的离散拉普拉斯算子。假设我们在图上模拟一个热扩散的过程， $\phi(t)$ 是图上每个顶点的热量分布，热量传播的速度和顶点之间的热量差成正比（根据冷却定律），于是在点 $v_i$ 上这个扩散过程可以表示为
$\frac{d\phi_i}{dt} =c\sum_jA_{ij}(\phi_j-\phi_i)\\ =c(\sum_jA_{ij}\phi_j-\sum_jA_{ij}\phi_j)\\ =c(\sum_jA_{ij}\phi_j-d(v_i)\phi_i)\\ =-c\sum_j(d(v_i)\delta_{ij}-A_{ij})\phi_j\\ =-c\sum_jL_{ij}\phi_j$     其中， $\delta_{ij}$ 是一个指示变量，如果 $i = j$ ，则 $\delta_{ij}=1$ ，否则 $\delta_{ij}=0$ 。写成整个图上的矩阵形式，可以得到 $\frac{d\phi(t)}{dt}=-cL\phi(t)$
    对比热传播方程 $\frac{d\phi(t)}{dt}=k\phi(t)=k\triangle\phi(t)$ 可知，-L在上式中相当于拉普拉斯算子 $\triangle$ （欧式空间的二阶微分算子），所以L才被叫作拉普拉斯矩阵(Graph Laplacian)。

2.4 图论傅里叶变换

    图论傅里叶变换(Graph Fourier Transformation)将离散傅里叶变换延伸到处理图上的信号，它已经成为图信号分析的一个基础工具。简单地讲，图论傅里叶变换就是基于图拉普拉斯矩阵将图信号从空域（顶点上）f(t)转换到谱域（频域）F(w)的一种方法。
    让我们看一个传统的（连续）傅里叶变换：
$F(w)={\int}f(t)e^{-iwt}dt$     其中， $e^{-iwt}$ 是其基函数，这个基函数其实与拉普拉斯算子有很大的关系：
${\triangle}e^{-iwt}=-w^2e^{-iwt}$     这是不是与特征值分解方程 $Lu={\lambda}u$ 很像？因此， $e^{-iwt}$ 可以看作拉普拉斯算子的特征函数，而w则与特征值相关。在介绍图扩散的时候说过，图拉普拉斯矩阵对应着图上的拉普拉斯算子，那么如何把傅里叶变换迁移到图上呢？很自然地，我们把拉普拉斯算子的特征函数换成拉普拉斯矩阵的特征向量即可。
$L=U{\Lambda}U^{-1}=U{\Lambda}U^T$     其中，U是一个正交化的特征向量矩阵，有 $UU^T=U^TU=I$ ， $\Lambda$ 是特征值得对角阵。U提供了一个在图上完全正交的基底，图上的任意一个向量f都可以表示成U中特征向量的线性组合：
$f=\sum_l\hat\phi_lu_l$     其中， $u_l$ 是U的第l个列向量，也是对应特征值 $\lambda_l$ 的特征向量。如果我们用这些特征向量替代原来傅里叶变换式中的基底，把原来的时域变为顶点上的空域，那么图上的傅里叶变换就变成
$F(\lambda_l)=\sum_{i=1}^Nf(i)u_l(i)=u_l^Tf=\hat\phi_l$     其中， $\lambda_l$ 表示第l个特征值， $f (i)$ 对应第i个节点上的特征， $u_l(i)$ 表示特征向量 $u_l$ 的第i个元素。推广到矩阵形式就是 $U^Tf$ 。下面给出图信号、图论傅里叶变换以及逆变换的定义。
    ○ 图信号：定义在图上的所有顶点上的信号 $\phi:V{\rightarrow}R^n$ 。可以将图信号当成一个n维的向量 $\phi{\in}R^n$ ，其中 $\phi_i$ 对应顶点 $v_i$ 上的值
    ○ 图论傅里叶变换：对于一个图信号 $\phi$ ，图论傅里叶变换定义为 $\hat{\phi}=U^{-1}\phi=U^T\phi$
    ○ 图论傅里叶逆变换：对于一个谱域上的图信号 $\hat{\phi}$ ，图论傅里叶逆变换定义为 $U\hat{\phi}$
    实际上，图论傅里叶变换本质上就是将一个向量变换到以拉普拉斯矩阵的特征向量为基底的新空间中，这个空间也就是我们常说的谱域，它为图信号在谱域上的处理提供了一个工具。在谱域上，我们可以定义各种图上的信号过滤器，并延伸到定义图上的卷积操作。图论傅里叶变换是可逆的，即 $U\hat{\phi}=UU^{-1}\hat{\phi}=\hat{\phi}$ 。