GCN鼻祖paper笔记

最新推荐文章于 2024-10-30 15:24:06 发布

w55100

最新推荐文章于 2024-10-30 15:24:06 发布

阅读量1.2k

点赞数 1

分类专栏： GNN

本文链接：https://blog.csdn.net/w55100/article/details/109048966

版权

GNN 专栏收录该内容

14 篇文章

订阅专栏

本文介绍了GCN（图卷积网络），其首发于2016年，采用谱方法的卷积。结合切比雪夫多项式化简谱卷积复杂度，将定义式抽象为图卷积层。为方便堆叠更多层，对定义式进行一阶近似，进一步简化参数，最终得到卷积核近似式，还给出了多层GCN的运算示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

https://arxiv.org/pdf/1609.02907.pdf

GCN，论文首发于2016，被ICLR2017接收。
采用的核心原理还是谱方法的卷积，spectral convolution。
结合了一项重要工作，利用切比雪夫多项式对谱卷积的计算复杂度进行化简。

化简部分我写在了这里《图上的卷积》

回顾谱卷积定义式。

$g_{\theta}\star x =Ug_{\theta}U^{T}x \approx\sum_{i=0}^{K-1}[\theta_{k}T_{k}(\hat{L})]x$

$\hat{L}=\frac{2}{\lambda_{max}}L-I_{n}=U\hat{\Lambda}U^{T}$

我们试着从工程角度去考虑这个式子的意义。

不妨假设N个结点，每个结点由一个标量表示，
于是，输入图信号 $\in R^{N}$ ，卷积结果 $g_{\theta}\star x \in R^{N}$ 。
若N个结点，每个结点由一个D维向量表示，
则输入图信号 $\in R^{N\times D}$ ，卷积结果 $g_{\theta}\star x \in R^{N\times D'}$ 。

因为x左边的那部分总是 $R^{N\times N}$ ，
所以输入图信号与卷积结果的张量形状总是一致。

这就很像在2D图像上进行Conv2d的操作了不是吗？
进去一个(B,C,H,W)，出来一个(B,C’,H’,W’)。
进去一个(N,D)，出来一个(N,D’)。

所以我们可以更进一步地，把这条定义式抽象为一个layer。
不妨命名为图卷积层，graph convolution layer，GCL。

那么我们原本熟悉的2D图像那套搭积木方法，又可以操作起来了。
Conv2d->Conv2d->Conv2d。
GCL->GCL->GCL->GCL。
要加残差跳接还是啥的都随意。

但是上式的计算仍然有些复杂了。
我们Deep Learning的门派特征就是deeeeeeeeeeeeeeeep啊。
如果纯粹按照定义式，搭不了太深层数就熄火了。
所以论文作者为了方便stacking more layers，对定义式进行了进一步的一阶近似。

操作如下：
假设 $\lambda_{max}=2$ ，（稍后我们可以证明这个假设是make sense的）
于是
$\hat{L}=\frac{2}{\lambda_{max}}L-I_{n}=L-I_n$
又有对称normalized拉普拉斯矩阵定义式
$L^{sym}=I_{n}-D^{-\frac{1}{2}}AD^{-\frac{1}{2}}$
于是
$\hat{L}=L-I_n=-D^{-\frac{1}{2}}AD^{-\frac{1}{2}}$

再考虑定义式的一阶近似
$g_{\theta}\star x \\ \approx \sum_{i=0}^{K-1}[\theta_{k}T_{k}(\hat{L})]x \\ = \theta_0T_0(\hat{L})x+\theta_1T_1(\hat{L})x+R_{余项} \\ \approx \theta_0T_0(\hat{L})x+\theta_1T_1(\hat{L})x \\ =\theta_0x+\theta_1\hat{L}x \\ =\theta_0x-\theta_1D^{-\frac{1}{2}}AD^{-\frac{1}{2}}x$

如此一来，我们在一次卷积操作中，就只需要学习两个自由参数 $\theta_0,\theta_1$ 。

然后作者说

In practice, it can be beneficial to constrain the number of parameters further to address overfitting
and to minimize the number of operations (such as matrix multiplications) per layer.

他还想进一步简化参数。。。真是强欲的男人啊。
于是我们强行假设 $\theta_0=-\theta_1$ ，将2个自由参数合并为1个 $\theta$ 。

$g_{\theta}\star x \\ \approx \theta_0x-\theta_1D^{-\frac{1}{2}}AD^{-\frac{1}{2}}x \\ \approx \theta(I_n+D^{-\frac{1}{2}}AD^{-\frac{1}{2}})x$

不要忘记这个近似式子来自我们假设 $\lambda_{max}=2$
又由于实对称半正定特征值非负，现在特征值的取值范围只能是[0,2]。

得到了这个近似结果后，会发现很眼熟的 $I_n+D^{-\frac{1}{2}}AD^{-\frac{1}{2}}$ 。
这个东西式子是一个常用的变形操作的一部分。

按照习惯的符号记法，邻居矩阵记为 $A$ 。
我们定义加自边的邻接矩阵 $\tilde{A}=A+I_n$ ，即将A的对角线元素置1，表示有自边。
那么类似的，我们可以求出 $\tilde{A}$ 的度数矩阵
$\tilde{D}_{ii}=\sum_{j}\tilde{A}_{ij}$ 。
显然每行只是多了个1，因此 $\tilde{D}=D+I_n$ 。

容易证明：
$I_n+D^{-\frac{1}{2}}AD^{-\frac{1}{2}} =\tilde{D}^{-\frac{1}{2}}\tilde{A}\tilde{D}^{-\frac{1}{2}}$ 。

我不会证。。。

$I_n+D^{-\frac{1}{2}}AD^{-\frac{1}{2}} \\ =D^{-\frac{1}{2}}DD^{-\frac{1}{2}}+D^{-\frac{1}{2}}AD^{-\frac{1}{2}} \\ !=\tilde{D}^{-\frac{1}{2}}\tilde{A}\tilde{D}^{-\frac{1}{2}}$ 。

于是最终可以写出
$g_{\theta}\star x \\ \approx \theta_0x-\theta_1D^{-\frac{1}{2}}AD^{-\frac{1}{2}}x \\ \approx \theta\tilde{D}^{-\frac{1}{2}}\tilde{A}\tilde{D}^{-\frac{1}{2}}x$
这是单个卷积核的近似式。

再次类比2D图像上的卷积，我们用out_channel个卷积核去扫就能得到对应数量的feature map.
同理，我们用F个图卷积核，也能输出F个新的图信号。
F个图卷积核的卷积过程可以写成矩阵形式

设图信号 $\in \mathbb{R}^{N\times D}$ ，F个filter对应的参数 $\Theta \in \mathbb{R}^{D\times F}$
则有
$Z=\tilde{D}^{-\frac{1}{2}}\tilde{A}\tilde{D}^{-\frac{1}{2}}X\Theta$
卷积结果 $Z\in \mathbb{R}^{N\times F}$ 。

输入 $\mathbb{R}^{N\times D}$ ，输出 $\mathbb{R}^{N\times F}$ ，有内味了？

这里比较神奇的是突然把 $\theta$ 移到最后面，之前的证明中小 $\theta$ 明明一直看作标量的，突然变成了D维向量。

再记 $\hat{A}=\tilde{D}^{-\frac{1}{2}}\tilde{A}\tilde{D}^{-\frac{1}{2}}$ ，上式继续化简，得到
$Z=\hat{A}X\Theta$

直呼内行。

要知道，对GCN的运算而言，邻接关系是不会变的，所以 $\hat{A}$ 运算过程中恒不变。
每层只会接受上一层传来的X，与本层的待学习参数 $\Theta$ 。

我们考虑一个简单的2层GCN，第一层参数为 $W^0$ ，第二层 $W^1$ 。
则给定输入，图信号X与邻接矩阵A。
对一个半监督的多分类任务，输出肯定要softmax。
$Z=f(X,A)=\text{softmax}(\hat{A}\text{ReLU}(\hat{A}XW^{0})W^{1})$

论文用到的数据集