图卷积神经网络(Graph Convolutional Network, GCN)

最新推荐文章于 2024-05-30 17:19:13 发布

Jie Qiao

最新推荐文章于 2024-05-30 17:19:13 发布

阅读量1.1w

点赞数 23

分类专栏：人工智能文章标签：图卷积网络 GCN graph 图卷积

本文链接：https://blog.csdn.net/a358463121/article/details/88921154

版权

人工智能专栏收录该内容

51 篇文章 16 订阅

订阅专栏

文章目录

从谱聚类说起
- RatioCut 切图聚类
GCN
参考资料

从谱聚类说起

谱聚类(spectral clustering)是一种针对图结构的聚类方法，它跟其他聚类算法的区别在于，他将每个点都看作是一个图结构上的点，所以，判断两个点是否属于同一类的依据就是，两个点在图结构上是否有边相连，可以是直接相连也可以是间接相连。举个例子，一个紧凑的子图（如完全图）一定比一个松散的子图更容易聚成一类。
在这里插入图片描述
那谱聚类为什么叫谱而不是图聚类呢？这个spectral是什么东西？我们知道一个图是可以用一个邻接矩阵A来表示的。而矩阵的谱（spectral）就是指矩阵的特征值，那么这个特征值跟图的矩阵到底有什么深刻的联系呢？
那么首先，图的聚类是什么？我们可以将聚类问题简化为一个分割问题，如果图的结点被分割成A,B这两个集合，那么我们自然是希望在集合中的结点的相互连接更加紧密比如团，而使得子图之间更加尽可能松散。
为了建立这个联系，我们构造一个laplace matrix：

$L = D - A$

D是一个对角矩阵，每个对角元素 $\displaystyle D_{ii}$ 表示第i个结点的度。A则是这个图邻接矩阵。为什么要这样去构造一个矩阵呢？因为研究图的一些性质的时候，我们常常用到一个类似于下式的目标函数：

$\mathbf{x^{T}} M\mathbf{x} =\sum _{\{u,v\} \in E}( x_{u} -x_{v})^{2}$

这个目标函数可以定义图上的很多问题，比如最小图分割问题，就是要找到一个方法将图分成两块的使得切割的边最少（如果边有权重那就是切割的权重最小）。如下图，你不能找到一个比切两条边更少的分割方法了。
在这里插入图片描述

而这个优化问题其实等价于当 $\displaystyle x\in \{0,1\}^{V}$ 的时候:

$\min\sum _{\{u,v\} \in E}( x_{u} -x_{v})^{2} =\sum _{u\in A,v\not{\in }\overline{A}}( 1-0)^{2} +\sum _{u\in A,v\not{\in }\overline{A}}( 0-1)^{2} =2cut\left( A,\overline{A}\right)$

而这个方程不正是一个二次型吗。为了让二次型得到这个结果。我们发现，当 $\displaystyle M=dI-A=D-A$ 的时候就可以了。验证一下：

$\mathbf{x}^{T}( dI-A)\mathbf{x} =d\mathbf{x}^{T}\mathbf{x} -\mathbf{x}^{T} A\mathbf{x} =\sum _{v} dx^{2}_{v} -2\sum _{\{u,v\} \in E} x_{u} x_{v} =\sum _{\{u,v\} \in E}( x_{u} -x_{v})^{2}$

此外，当A不是邻接矩阵而是权重矩阵W的时候，于是d就从度推广到权重的求和，那么这个公式还可以推广为：

$x^{T} Lx\mathbf{=x}^{T}( dI-W)\mathbf{x} =\sum _{i,j} \omega _{ij}( x_{u} -x_{v})^{2}$

RatioCut 切图聚类

现在，我们可以尝试将这个目标函数与Ratio切图聚类的目标函数建立起联系，建立联系有什么好处呢？好处就是如果我们发现切图的目标函数是这个二次型，那么我们只要优化这个二次型，不就可以用连续的方法来解决一个离散的问题吗？
RatioCut考虑最小化 $\displaystyle cut( A_{1} ,A_{2} ,...,A_{k})$ ，同时最大化每个子图的个数即：

$RatioCut(A_{1} ,A_{2} ,...A_{k} )=\frac{1}{2}\sum\limits ^{k}_{i=1}\frac{cut(A_{i} ,\overline{A}_{i} )}{|A_{i} |}$

其中 $\displaystyle cut(A_{i} ,\overline{A}_{i} )$ 表示两个子图之间的距离(两个子图结点之间距离的求和)：

$cut(A_{i} ,\overline{A}_{i} )=\sum\limits _{i\in A,j\in \overline{A}_{i}} w_{ij}$

这里公式里的是A与A的补集的切图权重（切的边权重的求和），也就是说我们希望子图A与其余的图分离的代价最小，比如我只要切掉一条微不足道的边就能将两个复杂的图（比如两个团）分离开，那么就可以认为这是一个好的切割。

现在我们仿照上面的x，将其推广到多个簇，于是我们用一个指示函数（one-hot）来表达每个结点属于哪个子图，这样就将切割问题跟二次型建立起了联系

我们引入指示向量 $h_{j} \in \{h_{1} ,h_{2} ,..h_{k} \}\ j=1,2,...k$ ，表示有k个子图，对于任意一个向量 $\displaystyle h_{j}$ , 它是一个|V|-维向量（|V|为结点数，用来标记哪个结点属于哪个子图，类似于one-hot），我们定义 $\displaystyle h_{ij}$ 为：
$h_{ij} =\begin{cases} 0 & v_{j} \notin A_{i}\\ \frac{1}{\sqrt{|A_{i} |}} & v_{j} \in A_{i} \end{cases}$

那么，对于每一个子图都有：
$\begin{aligned} h^{T}_{i} Lh_{i} & =\frac{1}{2}\sum\limits ^{|V|}_{m=1}\sum\limits ^{|V|}_{n=1} w_{mn} (h_{im} -h_{in} )^{2}\\ & =\frac{1}{2} (\sum\limits _{m\in A_{i} ,n\notin A_{i}} w_{mn} (\frac{1}{\sqrt{|A_{i} |}} -0)^{2} +\sum\limits _{m\notin A_{i} ,n\in A_{i}} w_{mn} (0-\frac{1}{\sqrt{|A_{i} |}} )^{2}\\ & =\frac{1}{2} (\sum\limits _{m\in A_{i} ,n\notin A_{i}} w_{mn}\frac{1}{|A_{i} |} +\sum\limits _{m\notin A_{i} ,n\in A_{i}} w_{mn}\frac{1}{|A_{i} |}\\ & =\frac{1}{2} (cut(A_{i} ,\overline{A}_{i} )\frac{1}{|A_{i} |} +cut(\overline{A}_{i} ,A_{i} )\frac{1}{|A_{i} |} )\\ & =\frac{cut(A_{i} ,\overline{A}_{i} )}{|A_{i} |} \end{aligned}$

其原理在于，因为当 $\displaystyle m\in A_{i} ,n\notin A_{i}$ 时，因为结点 $\displaystyle v_{m}$ 属于子图i，结点 $\displaystyle v_{n}$ 不属于子图i，于是 $\displaystyle h_{im} -h_{in} =\frac{1}{\sqrt{|A_{i} |}} -0$ ，同理，当 $\displaystyle v_{m}$ , $\displaystyle v_{n}$ 都属于子图的时候 $\displaystyle h_{im} -h_{in} =\frac{1}{\sqrt{|A_{i} |}} -\frac{1}{\sqrt{|A_{i} |}} =0$ 。

上述是第i个子图的式子，我们将k个子图的h合并成一个H，于是式子变成：

$RatioCut(A_{1} ,A_{2} ,...A_{k} )=\sum\limits ^{k}_{i=1} h^{T}_{i} Lh_{i} =\sum\limits ^{k}_{i=1} (H^{T} LH)_{ii} =tr(H^{T} LH)\\ s.t.\ h^{T}_{i} h_{i} =1,\ i=1,2,...,k$

也就是说Ratiocut本质上就是在最小化 $\displaystyle tr(H^{T} LH)$ 这个东西。那么怎么优化呢？注意到每个 $\displaystyle h_{i}$ 都是相互正交的，因为一个结点不能同时属于多个类别，因此H是一个正交矩阵，又因为L是一个对称矩阵，那么可以证明，H是L的特征向量的时候，恰好是这个优化问题的解，我们需要要找到那么特征值比较小的特征向量，就可以找到一种代价最小的切割方法。我们可以来证明一下,特征向量恰好是他的极值：

$\begin{aligned} \nabla _{h}\left( h^{T} Lh-\lambda \left( 1-h^{T} h\right)\right) & =\nabla _{h} tr\left( h^{T} Lh-\lambda \left( 1-h^{T} h\right)\right)\\ & =\nabla _{h} tr\left( h^{T} Lh\right) -\lambda \nabla _{h} tr\left( hh^{T}\right)\\ & =\nabla _{h} tr(hh^{T} L)-\lambda \nabla _{h} tr(hEh^{T} E)\\ & =\nabla _{h} tr(hEh^{T} L)-\lambda \nabla _{h} tr(hEh^{T} E)\\ & =Lh+L^{T} h-\lambda ( h+h)\\ & =2Lh-2\lambda h\\ & =0\\ & \Longrightarrow Lu=\lambda h \end{aligned}$

这里用到了一些最优化求导常用公式技巧，其实这个推导跟PCA是一样的，只不过PCA找的是最大特征值（PCA中L是协方差矩阵，目标是找到一个向量最大化方差），这里是找最小特征值，我们目标是找到一个向量最小化这个二次型矩阵。(PS: 想知道为什么是找特征值最小，而PCA找的是特征值最大的同学，不妨看看我的另外一篇文章：谱图理论(spectral graph theory))
最后，通过找到L的最小的k个特征值，可以得到对应的k个特征向量，这k个特征向量组成一个nxk维度的矩阵，即为我们的H。一般需要对H矩阵按行做标准化，即

$h^{*}_{ij} =\frac{h_{ij}}{(\sum\limits ^{k}_{t=1} h^{2}_{it} )^{1/2}}$

由于我们在使用维度规约的时候损失了少量信息，导致得到的优化后的指示向量h对应的H不能完全指示各样本的归属（因为是连续的优化，不可能恰到得到一个one-hot向量），因此一般在得到nxk维度的矩阵H后还需要对每一行进行一次传统的聚类，比如使用K-Means聚类，从而得到一个真正的one-hot指示向量。

所以谱聚类的流程可以总结如下：

计算标准化后的lapace矩阵
求解标准化lapace矩阵的特征值与特征向量
取最小的k1个特征向量,及其对应的特征向量f
将f排列成一个n*k1的矩阵，对矩阵的每一行进行标准化，然后使用k means聚类，聚类数为k2
得到k2个簇，就是对应k2个划分。

GCN

图卷积神经网络，顾名思义就是在图上使用卷积运算，然而图上的卷积运算是什么东西？为了解决这个问题题，我们可以利用图上的傅里叶变换，再使用卷积定理，这样就可以通过两个傅里叶变换的乘积来表示这个卷积的操作。那么为了介绍图上的傅里叶变换，我接来下从最原始的傅里叶级数开始讲起。

从傅里叶级数到傅里叶变换

此部分主要参考了马同学的两篇文章：

傅里叶级数的直观意义

如下图，傅里叶级数其实就是用一组sin，cos的函数来逼近一个周期函数，那么每个sin，cos函数就是一组基，这组基上的系数就是频域，你会发现随着频域越来越多（基越来越多），函数的拟合就越准确。
在这里插入图片描述

傅里叶变换推导

要讲傅里叶变换的推导，我们要先从傅里叶级数讲起，考虑一周期等于T，现定义于区间[-T/2,T/2]的周期函数f(x)，傅里叶级数近似的表达式如下:

$f(x)=C+\sum ^{\infty }_{n=1}\left( a_{n} cos(\frac{2\pi n}{T} x)+b_{n} sin(\frac{2\pi n}{T} x)\right) ,C\in \mathbb{R}$

利用偶函数*奇函数=奇函数的性质可以计算出 $\displaystyle a_{k}$ 与 $\displaystyle b_{k}$

$a_{n} =\frac{\int ^{T/2}_{-T/2} f(x)cos(\frac{2\pi n}{T} x)dx}{\int ^{T/2}_{-T/2} cos^{2} (\frac{2\pi n}{T} x)dx} =\frac{2}{T}\int ^{T/2}_{-T/2} f(x)cos(\frac{2\pi n}{T} x)dx\\ b_{n} =\frac{\int ^{T/2}_{-T/2} f(x)sin(\frac{2\pi n}{T} x)dx}{\int ^{T/2}_{-T/2} sin^{2} (\frac{2\pi n}{T} x)dx} =\frac{2}{T}\int ^{T/2}_{-T/2} f(x)sin(\frac{2\pi n}{T} x)dx$

利用欧拉公式 $e^{ix} =\cos x+i\sin$ x，我们发现 $\displaystyle \cos x,\sin x$ 可表示成

$\cos x=\frac{e^{ix} +e^{-ix}}{2} ,\sin x=\frac{e^{ix} -e^{-ix}}{2i} ，$

再将傅立叶级数f(x)中 $\cos (\frac{2\pi n}{T} x)$ 和 $\sin (\frac{2\pi n}{T} x)$ 的线性组合式改写如下：

$\begin{aligned} a_{n}\cos (\frac{2\pi n}{T} x)+b_{n}\sin (\frac{2\pi n}{T} x) & =a_{n}\left(\frac{e^{i\frac{2\pi n}{T} x} +e^{-i\frac{2\pi n}{T} x}}{2}\right)+b_{k}\left(\frac{e^{i\frac{2\pi n}{T} x} -e^{-i\frac{2\pi n}{T} x}}{2i}\right)\\ & =\left(\frac{a_{n} -ib_{n}}{2}\right) e^{i\frac{2\pi n}{T} x} +\left(\frac{a_{n} +ib_{n}}{2}\right) e^{-i\frac{2\pi n}{T} x}\\ & =c_{n} e^{i\frac{2\pi n}{T} x} +c_{-n} e^{-i\frac{2\pi n}{T} x} \end{aligned}$

可以验证 $\displaystyle c_{-n} =\frac{a_{-n} -ib_{-n}}{2} =\frac{a_{n} +ib_{n}}{2}$ ，这是因为an是一个偶函数，bn是一个奇函数。此外，若n=0，就有 $c_{0} =a_{0} /2$ 。将以上结果代回f(x)的傅立叶级数即得指数傅立叶级数：

$f(x)=\sum ^{\infty }_{n=-\infty }\underbrace{c_{n}}_{基的坐标} \cdot \underbrace{e^{i\tfrac{2\pi nx}{T}}}_{正交基}$

现在我们知道 $\displaystyle c_{n} =\frac{a_{n} -ib_{n}}{2}$ ，将 $\displaystyle a_{n} ,b_{n}$ 的结果代进去可以得到：
$c_{n} =\frac{1}{T}\int ^{T/2}_{-T/2} f(x)(\cos (\frac{2\pi n}{T} x)-i\sin (\frac{2\pi n}{T} x))dx=\frac{1}{T}\int ^{T/2}_{-T/2} f(x)e^{-i \frac{2\pi n}{T}} x dx$

公式用频率替换： $\displaystyle \Delta \omega =\frac{2\pi }{T}$ ，再令 $\displaystyle \omega _{n} =\omega n$ 现在我们可以写出全新的傅里叶级数：

$f(x)=\sum ^{\infty }_{n=-\infty }\frac{\Delta \omega }{2\pi }\int ^{T/2}_{-T/2} f(x)e^{-i\omega _{n} x} dx\cdot } e^{i\omega _{n} x$

现在令 $\displaystyle T\rightarrow \infty ，\Delta \omega \rightarrow 0$ ，并设 $\displaystyle F{\displaystyle ( \omega ) =\lim _{T\rightarrow \infty }\int ^{T/2}_{-T/2} f(x)e^{-i\omega x} dx}$
$\begin{aligned} {\displaystyle f(x)} & ={\displaystyle \sum ^{\infty }_{n=-\infty }\frac{\Delta \omega }{2\pi } F( \omega _{n}) \cdot } e^{i\omega _{n} x}\\ & ={\displaystyle \frac{1}{2\pi }\sum ^{\infty }_{n=-\infty } F( \omega _{n}) \cdot } e^{i\omega _{n} x} \Delta \omega \\ & ={\displaystyle \frac{1}{2\pi }\int ^{+\infty }_{-\infty } F( \omega ) \cdot } e^{i\omega x} d\omega \end{aligned}$

于是得到了傅里叶变换就是

$F( \omega ) =\int ^{+\infty }_{-\infty } f(x)e^{-i\omega x} dx$

Signal Processing on Graph

在将图的傅里叶变换之前，我们先介绍一下图信号是什么。我们在传统概率图中，考虑每个图上的结点都是一个feature，对应数据的每一列，但是图信号不一样，这里每个结点不是随机变量，相反它是一个object。也就是说，他描绘概率图下每个样本之间的图联系，可以理解为刻画了不满足iid假设的一般情形。
在这里插入图片描述

图上的傅里叶变换

那么我们要怎么将传统的傅里叶变换推广到图结构中去？回忆一下，传统对f作傅里叶变换的方法：

$\hat{f} (\xi ):=\left< f,e^{2\pi i\xi t}\right> =\int _{\mathbb{R}} f(t)e^{-2\pi i\xi t} dt$

我们换了种写法，其实我们发现这个傅里叶变换本质上是一个内积。这个 $\displaystyle e^{-2\pi i\xi t}$ 其实是lapace算子的一个特征函数，可以理解为一种特殊形式的特征向量：

$-\Delta \left( e^{2\pi i\xi t}\right) =-\frac{\partial ^{2}}{\partial t^{2}} e^{2\pi i\xi t} =(2\pi \xi )^{2} e^{2\pi i\xi t}$

注意，这里导数本质上是一个线性变换，因为它满足线性算子的两个性质，T(x+y)=T(x)+T(y), cT(x)=T(cx)。可以看到 $\displaystyle e^{2\pi i\xi t}$ 是laplace算子的特征向量，而 $\displaystyle (2\pi \xi )^{2}$ 则是lapace算子的特征值。那么在图上我们的laplace矩阵就是离散化的lapace算子，而这个算子在图上的基显然就是特征向量了！

关于拉普拉斯算子的直观理解推荐看这篇文章：https://www.zhihu.com/question/54504471/answer/630639025

因此，只要意识到传统的傅里叶变换本质上求的是与正交基的内积（比如基 $\displaystyle e^{2\pi i\xi t}$ ）上的系数，而推广到图上的正交基很显然就是laplace矩阵的特征向量，于是对于laplace矩阵的傅里叶变换就可以表达为:

$\hat{f}( \lambda _{l}) :=< \mathbf{f} ,\mathbf{u}_{l}> =\sum ^{N}_{i=1} f(i)u^{*}_{l} (i)$

f是Graph上的N维向量， $f (i)$ 与Graph的顶点一一对应， $u_l(i)$ 表示第 $l$ 个特征向量的第 $i$ 个分量。那么特征值（频率） $\lambda_l$ 下的，f的Graph 傅里叶变换就是与$lambda_l$对应的特征向量 $u_l$ 进行内积运算。
这个变换就是在求解特征向量的系数，类似于基的系数“频域”。为什么呢？首先f是图上的某个向量，于是我们可以用正交基将其展开：
$f=\lambda_1u_1+\dots+\lambda_lu_l+\dots+\lambda_Nu_N$

那么f跟 $u_l$ 的内积就是：
$\mathbf{f} ,\mathbf{u}_{l}> =\lambda_l$

因为 $u_l$ 跟其他特征向量都正交，所以内积为0，而跟自己的内积则等于1，所以结果就等于 $\lambda_l$ .

因此，可以理解为图上的经过傅里叶变换后的函数 $\displaystyle \hat{f}$ 就是一个计算计算特征向量的系数的函数。

更一般的，图上的傅里叶变换可以写成以下内积的形式，其中U是laplace矩阵的特征向量矩阵：
傅里叶变换：

$\hat{x} =U^{T} x$

傅里叶逆变换：

$x=U\hat{x}$

因此，我们就可以定义图上的卷积，因为它就是简单的两个变换的乘积然后再逆变换而已：
比如，x,y的卷积，就是他们傅里叶变换频域对应相乘，再通过傅里叶逆变换求回去

$x=U\left(\left(U^{T} y\right) \odot\left(U^{T} x\right)\right)$
又因为

$\left( \begin{array}{c}{x_{1}} \\ {\vdots} \\ {x_{n}}\end{array}\right) \odot \left( \begin{array}{c}{y_{1}} \\ {\vdots} \\ {y_{n}}\end{array}\right)=\left( \begin{array}{ccc}{x_{1}} & {\cdots} & {0} \\ {\vdots} & {\ddots} & {\vdots} \\ {0} & {\cdots} & {x_{n}}\end{array}\right) \left( \begin{array}{c}{y_{1}} \\ {\vdots} \\ {y_{n}}\end{array}\right)$
因此我们将 $U^Ty$ 参数并化为一个对角矩阵，设 $\displaystyle g_{\theta } =\operatorname{diag} (\theta )$ ，从而可以训练一个卷积核：

$g_{\theta } \star x=Ug_{\theta } U^{\top } x$

然而计算U的代价太高了，因此要想办法去近似它，有人提出，

$g_{\theta ^{\prime }} (\Lambda )\approx \sum ^{K}_{k=0} \theta ^{\prime }_{k} T_{k} (\tilde{\Lambda } )$
其中 $\displaystyle \tilde{\Lambda } =\frac{2}{\lambda _{\max}} \Lambda -I_{N}$ ，现在假设 $\displaystyle \lambda _{\max} \approx 2$ ,并且k=1，于是

$g_{\theta ^{\prime }} \star x\approx \theta ^{\prime }_{0} x+\theta ^{\prime }_{1}( L-I_{N}) x=\theta ^{\prime }_{0} x-\theta ^{\prime }_{1} D^{-\frac{1}{2}} AD^{-\frac{1}{2}} x$

最后再假设这两个参数是共享的，可以得到：

$g_{\theta } \star x\approx \theta \left( I_{N} +D^{-\frac{1}{2}} AD^{-\frac{1}{2}}\right) x$

最后，再将中间的项用一个trick变成： $\displaystyle I_{N} +D^{-\frac{1}{2}} AD^{-\frac{1}{2}}\rightarrow \tilde{D}^{-\frac{1}{2}}\tilde{A}\tilde{D}^{-\frac{1}{2}}$ ，其中 $\displaystyle \tilde{A} =A+I_{N}$ , $\displaystyle \tilde{D}_{ii} =\sum _{j}\tilde{A}_{ij}$ ，最后的最后，终于得到了这样的近似卷积公式：

$Z=\tilde{D}^{-\frac{1}{2}}\tilde{A}\tilde{D}^{-\frac{1}{2}} X\Theta$

这样我们就可以直接用神经网络训练了：

$H^{(l+1)} =\sigma \left(\tilde{D}^{-\frac{1}{2}}\tilde{A}\tilde{D}^{-\frac{1}{2}} H^{(l)} W^{(l)}\right)$

参考资料

https://towardsdatascience.com/spectral-clustering-82d3cff3d3b7
https://www.cnblogs.com/pinard/p/6221564.html
https://tkipf.github.io/graph-convolutional-networks/
https://ccjou.wordpress.com/2012/04/03/%E5%82%85%E7%AB%8B%E8%91%89%E7%B4%9A%E6%95%B8-%E4%B8%8B/
https://www.matongxue.com/madocs/712/
https://www.youtube.com/watch?v=Q99ZPGnUBAQ

Jie Qiao

关注

23
点赞
踩
96

收藏

觉得还不错? 一键收藏
7
评论
图卷积神经网络(Graph Convolutional Network, GCN)

文章目录从谱聚类说起RatioCut 切图聚类谱分析GCN从傅里叶级数到傅里叶变换傅里叶级数的直观意义傅里叶变换推导Signal Processing on Graph图上的傅里叶变换参考资料从谱聚类说起谱聚类是一种针对图结构的聚类方法，它跟其他聚类算法的区别在于，他将每个点都看作是一个图结构上的点，所以，判断两个点是否属于同一类的依据就是，两个点在图结构上是否属否有边相连，他不一定是直接相连...
复制链接

扫一扫