GCN原理的直观解释

最新推荐文章于 2024-03-13 16:56:46 发布

啊喔呃鸭

最新推荐文章于 2024-03-13 16:56:46 发布

阅读量2.8k

点赞数 4

文章标签：图嵌入深度学习

本文链接：https://blog.csdn.net/qq_20805805/article/details/116935919

版权

本文为学习笔记，整理了自己对GCN的直观理解帮助记忆，不涉及过多数学知识，若有错误和理解不到位的地方请原谅和指正。

GCN的核心公式

$f(H^{(l)}, A) = \sigma\left( \hat{D}^{-\frac{1}{2}}\hat{A}\hat{D}^{-\frac{1}{2}}H^{(l)}W^{(l)}\right)$
其中， $A$ 为邻接矩阵， $\hat{A}=A+I$ ， $D$ 为度矩阵， $H^{(l)}$ 为输入特征，即节点的特征表示， $W^{(l)}$ 为网络参数， $\sigma(·)$ 为激活函数， $f(H^{(l)}, A)$ 为本层输出，在多层GCN中也为下一层的输入，即 $H^{(l+1)}$ 。

为了更直观地理解GCN的公式，先举一个最简单的版本，再递进地理解GCN的核心思想。
$f(H^{(l)}, A) = \sigma\left( AH^{(l)}W^{(l)}\right)$
引入一个简单的无向图辅助分析。
一个简单的例子
可获得其邻接矩阵
$=\begin{bmatrix} 0 & 1 & 1&0&0&0 \\ 1 & 0&1&0&0&0\\1&1&0&1&0&0\\0 &0&1&0&1&1\\0&0&0&1&0&0\\0&0&0&1&0&0 \end{bmatrix}$
假设特征矩阵为 $H$ ，行向量为对应索引节点的特征。
$\begin{bmatrix} 1 & 1 & 1&1&1&1 \\ 2 & 2&2&2&2&2\\3&3&3&3&3&3\\4 &4&4&4&4&4\\5&5&5&5&5&5\\6&6&6&6&6&6 \end{bmatrix}$
计算 $A H$ 实际上就是将每个节点邻接的节点特征相加，作为该节点新的特征表示，如果不好理解可以看下方图例。

以节点1为中心
在这里插入图片描述
卷积计算

以节点2为中心
在这里插入图片描述

卷积计算2
其他节点同理。如果熟悉卷积网络，就可以看出上述操作实际上是使用了一个全1的卷积核，对邻居节点进行了一次卷积操作，从而将邻居节点的信息聚集到了中心节点上。

由此引申出两个问题：

在简单版本中，只将邻居节点的特征相加得到节点的新特征表示，而没有考虑到节点自身的特征。在一些研究工作中，节点的初始特征往往是经由预训练模型(如bert)或算法得到的，包含丰富的信息，不能直接忽略。
由于是新节点特征是简单相加得到，因此拥有较多邻居的节点特征会迅速增大，而邻居较少的节点特征变化不明显，从上图中 $A H$ 节点4的特征变化情况可以看出。容易导致梯度过大，对模型训练产生不利影响。

对第一个问题，GCN对给邻接矩阵加上一个单位矩阵，即 $\hat{A}=A+I$ ，令节点形成自环，在卷积操作时，会加上节点自身特征。针对第二个问题，GCN对矩阵 $\hat{A}$ 进行归一化。

邻接矩阵的对称归一化

再写一遍GCN核心公式
$f(H^{(l)}, A) = \sigma\left( \hat{D}^{-\frac{1}{2}}\hat{A}\hat{D}^{-\frac{1}{2}}H^{(l)}W^{(l)}\right)$
GCN采用对称归一化方法，实践中可采用上式的 $\hat{D}^{-\frac{1}{2}}\hat{A}\hat{D}^{-\frac{1}{2}}$ 部分，会将原本的 $\hat{A}$ 进行归一化，避免梯度爆炸的发生，也一定程度上提升了相对重要的节点所占的权重。 $\hat{D}$ 为 $\hat{A}$ 的度矩阵，注意包含自环。
$\hat{D}= \begin{bmatrix} 3 & 0 & 0&0&0&0 \\ 0 & 3&0&0&0&0\\0&0&4&0&0&0\\0 &0&0&4&0&0\\0&0&0&0&2&0\\0&0&0&0&0&2 \end{bmatrix}$

'''code'''
A = torch.FloatTensor([
    [1,1,1,0,0,0],
    [1,1,1,0,0,0],
    [1,1,1,1,0,0],
    [0,0,1,1,1,1],
    [0,0,0,1,1,0],
    [0,0,0,1,0,1]])
    
D = []
for i in A:
    D.append(sum(i))
D = torch.tensor(D)
D = D.pow(-0.5)

# 使用按位乘法简化矩阵乘法
DA= torch.mul(A,D.view(-1,1))
DAD= torch.mul(DA,D.view(1,-1))

'''output'''
DAD=
tensor([
		[0.3333, 0.3333, 0.2887, 0.0000, 0.0000, 0.0000],
        [0.3333, 0.3333, 0.2887, 0.0000, 0.0000, 0.0000],
        [0.2887, 0.2887, 0.2500, 0.2500, 0.0000, 0.0000],
        [0.0000, 0.0000, 0.2500, 0.2500, 0.3536, 0.3536],
        [0.0000, 0.0000, 0.0000, 0.3536, 0.5000, 0.0000],
        [0.0000, 0.0000, 0.0000, 0.3536, 0.0000, 0.5000]])

假设归一化后的邻接矩阵为 $\tilde{A}$ ，可得每位的计算公式为
$\tilde{A}_{i,j}=\hat{D}^{-\frac{1}{2}}_{i}* \hat{A}_{i,j}* \hat{D}^{-\frac{1}{2}}_j$
再与特征矩阵相乘，每个节点聚合后的新特征表示为相邻节点特征的加权求和
$\hat{H}_i=\sum_{j=1}^N\tilde{A}_{i,j}*H_j$
因此可将核心公式简化为
$f(H^{(l)}, A) = \sigma\left( \hat{H}^{(l)}W^{(l)}\right)$
即，将聚合后特征输入到一个参数为 $W^{(l)}$ 的全连接层，再通过激活函数 $\sigma(·)$ ，输出节点特征，是一层非常简单的神经网络。

参考

GCN作者自己的讲解（推荐阅读）
对称归一化的原理解释

啊喔呃鸭

关注

4
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
GCN原理的直观解释

本文为学习笔记，整理了自己对GCN的直观理解帮助记忆，不涉及过多数学知识，若有错误和理解不到位的地方请原谅和指正。GCN的核心公式f(H(l),A)=σ(D^−12A^D^−12H(l)W(l))f(H^{(l)}, A) = \sigma\left( \hat{D}^{-\frac{1}{2}}\hat{A}\hat{D}^{-\frac{1}{2}}H^{(l)}W^{(l)}\right)f(H(l),A)=σ(D^−21A^D^−21H(l)W(l))其中，AAA为邻接矩阵，A^=A+
复制链接

扫一扫