图神经网络基础

最新推荐文章于 2024-04-08 14:32:14 发布

小武哥Pod

最新推荐文章于 2024-04-08 14:32:14 发布

阅读量212

点赞数

分类专栏：学习笔记

本文链接：https://blog.csdn.net/u014686388/article/details/114850502

版权

学习笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

图神经网络基础

最近在学习GCN，看到很多公式都不太懂，和以前看CNN完全不一样，在这里整理一下一些看到的公式和推导，希望能够帮助理解。

首先，为什么要用GCN呢，因为在面对非欧式空间的数据处理时，发现CNN并不能保证平移不变性，因此图网络结构一直被提出用来处理非欧式空间数据；另一方面，CNN的局限性很严重，比如

（1）take all pixels into consideration regardless of importance，CNN处理所有的像素点都相同，没有考虑到不同感兴趣的贡献度，相关的研究方向为attention；

（2）long-range dependency，这也是目前Transformer比较火热的原因，可以学习到None-local的信息。

（3）could not take care of relationship between pixels，CNN只能通过叠加特征图和调整感受野来增加信息，Transformer和GNN都可以将点之间的关系考虑进去。

好了，到此废话不多说，开始进入到GNN的基础。

GNN主要分为两类研究方向：spatial（空间域）、spectral（频域）。

一、基本图的公式：

$入度/出度矩阵\\ A: 邻接矩阵（0-1矩阵）\\ L: 拉普拉斯矩阵\\$

$\\ \\ L_{i,j} = D - A = \begin{cases} d_v, \text{ if i = j},\\ -1,if \text{\{$v_i$,$v_j$\}$\in$ E and i $\ne$ j,} \\ 0, others \end{cases} \\ L_{i,j}(sys) = \begin{cases} 1, \text{ if i = j},\\ -\frac{1}{\sqrt{d_u}\sqrt{d_v}},if \text{\{$v_i$,$v_j$\}$\in$ E and i $\ne$ j,} \\ 0, others \end{cases} \\$

Let $T$ denote the denote the diagonal matrix with the $(v, v)$ -th entry having value $d_v$ .（实际T就是D）
$L_{i,j}(sys) = D^{-\frac{1}{2}}LD^{-\frac{1}{2}}\\ L_{i,j}(RW) = D^{-1}L$
这里强调几个性质：

（1） $L$ 是半定对称矩阵，特征值均为非负，实数

（2）特征值为0的次数就是联通区域的个数

（3）最小的特征值为0，因为每一行加和都为0

（4）最小不为0的特征值大小就是图的代数连通度

举例子：

A-B-C
$\left[ \begin{array}{ccc} 1 & 0& 0 \\ 0 & 2 & 0 \\ 0 & 0 & 1 \end{array} \right] , A = \left[ \begin{array}{ccc} 0&1&0\\ 1&0&1\\ 0&1&0 \end{array} \right]\\ L = D - A = \left[ \begin{array}{ccc} 1&-1&0\\ -1&2&-1\\ 0&-1&1 \end{array} \right]\\$

$diag(1,2,1)\\ D^{-\frac{1}{2}}=diag(1,\frac{1}{\sqrt{2}},1)\\$

$\begin{aligned} L_{sys} &= D^{-\frac{1}{2}}LD^{-\frac{1}{2}} \\ &=diag(1,\frac{1}{\sqrt{2}},1)\cdot \left[ \begin{array}{ccc} 1&-1&0\\ -1&2&-1\\ 0&-1&1 \end{array} \right] \cdot diag(1,\frac{1}{\sqrt{2}},1)\\ &= \left[ \begin{array}{ccc} 1&-\frac{1}{\sqrt{2}}&0\\ -\frac{1}{\sqrt{2}}&1&-\frac{1}{\sqrt{2}}\\ 0&-\frac{1}{\sqrt{2}}&1 \end{array} \right] \end{aligned}$

$L$ 可以变成酉相似矩阵
$\Lambda U^{-1},\Lambda = diag(\lambda_i,...\lambda_n)$

二、图谱理论、随机游走、特征值分析

三、拉普拉斯矩阵和拉普拉斯算子

其实很难理解的是，为什么要这么定义拉普拉斯矩阵？

这里就比较复杂了，我们从拉普拉斯算子讲起。

拉普拉斯算子（Laplacian）是由欧几里得空间中的一个函数的梯度的散度给出的微分算子。常用数学表示形式： $\bigtriangleup f = \bigtriangledown^{2} f$ 。
$\bigtriangleup f = \sum_{i=1}^{n}{\frac{\rm d^2f}{\rm dx_i^2}}$
上面这个公式，如果按照图像二维的方式计算，实际上就是拉普拉斯算子。
$\begin{aligned} \bigtriangleup f &= \frac{\rm d^2f}{\rm dx^2} + \frac{\rm d^2f}{\rm dy^2}\\ &=[f(x+1,y)+f(x-1,y)-2f(x,y)]+[f(x,y+1)+f(x,y-1)-2f(x,y)]\\ &=f(x+1,y)+f(x-1,y)+f(x,y+1)+f(x,y-1)-4f(x,y) \end{aligned}$
即拉普拉斯算子：
$\left[ \begin{array}{ccc} 0&1&0\\ 1&-4&1\\ 0&1&0 \end{array} \right]$
拉普拉斯算子得到的是对该点进行微小扰动后可能获得的总增益（或者说是总变化）

不难理解，就是一个梯度变化

上面举例的是二维，这种扰动可以看作是一个像素点向周围变化时产生的收益。

推广到图理论中，可以得到：
$\bigtriangleup f_i = \sum_{j \in N_i}{(f_i - f_j)}$
解释一下这个公式的含义，比如对一个节点 $i$ 进行扰动，周围的点与该点值的数值差的和，可以类比上面的图像二维的变化，其实图拉普拉斯算子就是一个图微分操作， $N_i$ 表示节点 $i$ 的近邻点。接下来就好办了：
$\begin{aligned} \bigtriangleup f_i &= \sum_{j \in N_i}{w_{i,j}(f_i - f_j)}\\ &=\sum_{j \in N}{w_{i,j}f_i}-\sum_{j \in N}{w_{i,j}f_j}\\ &=d_if_i-W_if_i\\ \end{aligned}$

$\begin{aligned} \bigtriangleup f &= (\bigtriangleup f_1,\bigtriangleup f_2,...,\bigtriangleup f_N)\\ &= (d_1f_1 - W_1f,d_2f_2 - W_2f,...,d_Nf_N - W_Nf)\\ &= diag(d_1,d_2,...,d_f) \cdot (f_1,f_2,...,f_N) - (W_1,W_2,...,W_N) \cdot (f_1,f_2,...,f_N)\\ &= diag(d_i)f - Wf\\ &= (D-W)f\\ &=Lf \end{aligned}$

从这里我们看到拉普拉斯矩阵就是一个点扰动矩阵，不难看到，这个矩阵将是一些的计算的根源。

四、图卷积推导

从上面我们可以得出结论，节点 $i$ 的拉普拉斯矩阵为：
$Lf(i)=\sum_{j \in N_i}{W_{i,j}(f_i-f_j)}$
其实对于一个不知道的边 $W_{i,j}$ ，我们可以用一种很简单的方式计算，就可以得到一个有效的结果：
$W_{i,j}= \begin{cases} exp(-\frac{(dist(i,j)^2)}{2\theta^2 })\\ 0 \end{cases}$
废话不多说，我们进入到卷积的讲解，不过在此之前，我们先看一下拉普拉斯谱分解

这里有个东西叫亥姆霍兹方程：
$\bigtriangledown^2f=-k^2f,\text{$f$为特征函数，$-k^2$为特征值}$
即，广义上的特征方程。

考虑到：
$\bigtriangledown^2e^{-iwt}=\frac{\rm de^{-iwt}}{\rm dt^2}=-w^2e^{-iwt}$
可以看到 $e^{-iwt}$ 就是拉普拉斯算子的特征函数，所以说离散傅立叶变换是拉普拉斯谱分析的一个特例

反过来看傅里叶变换：
$F(w)=F[f(t)]=\int{f(t)e^{-iwt}dt}$
这里， $e^{-iwt}$ 为基函数，这时考虑图的卷积，那对应的基函数就是拉普拉斯矩阵的特征向量
$Lu_k=\lambda_ku_k$
所以，图上的傅里叶变换为：
$F(\lambda_k)=\hat{f_k}=\sum_{i=1}^{N}{f{i}u_k(i)}\\ \hat{f}=(\hat{f_1},...\hat{f_N})= \left[ \begin{array}{ccc} u_1(1)&...&u_1(n)\\ ...&...&...\\ u_n(1)&...&u_n(n) \end{array} \right] \cdot (f_1,...f_N)^T = U^Tf$
其中， $U$ 为拉普拉斯谱分解的正交矩阵。
$f=UU^{-1}f==UU^Tf=U\hat{f}$

回到图卷积公式，离散的傅里叶变换公式为：
$\begin{aligned} f*h[n] &= \sum_{m=-inf}^{inf}f[n-m]h[m]\\ &= F^{-1}[F(f[n])\cdot F(h[n])]\\ &= F^{-1}[U^Tf \cdot \hat{h}[n]]\\ &= F^{-1}[diag[\hat{h}_1,\hat{h}_2,...,\hat{h}_n] \cdot U^Tf]\\ &= U \cdot diag[\hat{h}_1,\hat{h}_2,...,\hat{h}_n] U^T f \end{aligned}$
这个公式好多人第一眼看着有些快，这里写一下详细步骤：
$\begin{aligned} F[f*h] &= \left[ \begin{array}{c} \hat{f}(\lambda_1)\\ \hat{f}(\lambda_2)\\ ...\\ \hat{f}(\lambda_n) \end{array} \right] \cdot \left[ \begin{array}{c} \hat{h}(\lambda_1)\\ \hat{h}(\lambda_2)\\ ...\\ \hat{h}(\lambda_n) \end{array} \right] = \left[ \begin{array}{c} \hat{f}(\lambda_1) \hat{h}(\lambda_1)\\ \hat{f}(\lambda_2) \hat{h}(\lambda_2)\\ ...\\ \hat{f}(\lambda_n) \hat{h}(\lambda_n)\\ \end{array} \right]\\ &= \left[ \begin{array}{cccc} \hat{h}(\lambda_1)&&&\\ &\hat{h}(\lambda_2)&&\\ &&...&\\ &&&\hat{h}(\lambda_n)\\ \end{array} \right ] \cdot \left[ \begin{array}{c} \hat{f}(\lambda_1)\\ \hat{f}(\lambda_2)\\ ...\\ \hat{f}(\lambda_n) \end{array} \right]\\ &=diag(\hat{h}(\lambda_1),\hat{h}(\lambda_2),...,\hat{h}(\lambda_n)) \cdot U^Tf \end{aligned}\\ \text{and, }F[f]=U^Tf\\$

$\begin{aligned} \text{so, }f*h &=Udiag(h(\lambda_i))U^Tf\\ &=U(U^Th \circ U^Tf) \end{aligned}$

小武哥Pod

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
图神经网络基础

图神经网络基础最近在学习GCN，看到很多公式都不太懂，和以前看CNN完全不一样，在这里整理一下一些看到的公式和推导，希望能够帮助理解。首先，为什么要用GCN呢，因为在面对非欧式空间的数据处理时，发现CNN并不能保证平移不变性，因此图网络结构一直被提出用来处理非欧式空间数据；另一方面，CNN的局限性很严重，比如（1）take all pixels into consideration regardless of importance，CNN处理所有的像素点都相同，没有考虑到不同感兴趣的贡献度，相关的研究
复制链接

扫一扫