论文学习笔记：Semi-Supervised Classification with Graph Convolutional Network

最新推荐文章于 2021-12-25 14:35:50 发布

weixin_40675092

最新推荐文章于 2021-12-25 14:35:50 发布

阅读量90

点赞数

分类专栏：图卷积

本文链接：https://blog.csdn.net/weixin_40675092/article/details/118269786

版权

图卷积专栏收录该内容

8 篇文章 0 订阅

订阅专栏

原文链接：Semi-Supervised Classification with Graph Convolutional Network
代码实现：https://github.com/tkipf/pygcn

一、亮点

1.分层传播规则，模型 $f (A, X)$ 直接编码结构信息，不需要显式的使用图正则。
2.节点的半监督分类实现

二、显式的图正则

基于图的半监督学习问题，需要通过显式的基于图的正则化项来将标签信息平滑到整个图上。在损失函数中使用Laplace正则化项
$\mathcal{L}=\mathcal{L}_0+\lambda \mathcal{L}_{reg}, 其中，\mathcal{L}_{reg}=\sum_{ij}A_{ij}||f(X_i)-f(X_j)||^2=f(X)^T\Delta f(X)$
上式中， $A_{ij}$ 为邻接矩阵； $f(\cdot)$ 神经网络模型；X表示节点的特征矩阵； $f(X_i)$ 代表节点i的特征表示(包含结构和顶点特征信息)； $A_{ij}||f(X_i)-f(X_j)||^2$ 的意义是如果节点i和j之间边的权重很大，即 $A_{ij}$ 很大，那么节点i、j之间特征表示的距离越近。

三、分层传播规则

1.Fast Approximate Convolutions on Graphs

图卷积模型的分层向前传播规则如下
$H^{(l+1)} = \sigma(\tilde{D}^{-\frac{1}{2}}\tilde{A}\tilde{D}^{-\frac{1}{2}}H^{(l)}W^{(l)})$
其中， $H^{(l+1)}$ 代表第l+1层的激活值， $H^{(0)}=X$ ； $\sigma(\cdot)$ 表示激活值； $\tilde{A}=A+I_N$ 表示给每个节点加上自连接的边( $I_N$ )； $W^{(l)}$ 表示第l层的权重； $\tilde{D}=\sum_j \tilde{A}_{ij}$

2.传播规则是图谱滤波的一阶近似

定义图谱卷积是信号和过滤器 $g_{\theta}$ 的乘积， $g_{\theta}$ 是由 $\theta \in \mathbb{R}^N$ 在傅里叶域内参数化得到， $g_{\theta}=diag(\theta)$ 。
$g_{\theta} \ast x = Ug_{\theta}U^Tx$
$U$ 是标准化laplace算子 $L$ 的特征向量， $L=I_N-D^{-\frac{1}{2}}AD^{-\frac{1}{2}}=U\Lambda U^T$ 。 $g_{\theta}$ 可以理解为关于 $L$ 的特征值 $\Lambda$ 的函数，如 $g_{\theta}(\Lambda)$ 。其计算代价为 $O(N^2)$ 。

为了克服计算复杂，使用切比雪夫多项式k-阶展开
$g_{\theta'}\approx\sum_{k=0}^K \theta_k'T_k(\tilde{\Lambda})$
其中， $\tilde{\Lambda}=\frac{2}{\lambda_{max}}L-I_N$ ， $\lambda_{max}$ 是L最大的特征值； $\theta'$ 为切比雪夫系数。
回到我们定义的信号x和 $g_{\theta}$ 的卷积，得到
$g_{\theta'} \ast x \approx \sum_{k=0}^K \theta_k'T_k(\tilde{L})x$
其中， $\tilde{L}=\frac{2}{\lambda_{max}}L-I_N$ ；切比雪夫多项式 $T_k(\tilde{L})=2\tilde{L}T_{k-1}(\tilde{L})-T_{k-2}(\tilde{L})$ ，所以 $T_k(\tilde{L})$ 是关于 $\tilde{L}$ 的k阶多项式。所以上式反映是中心节点的k阶领域。

3.逐层学习模型

基于图卷积的神经网络模型就是如上式中模式的多个卷积层的堆积。每个层后跟一个非线性运算。限制K=1，上式就是一个关于L的线性函数。我们可以通过堆叠这样的层来恢复卷积滤波器函数。此时， $T_0(\tilde{L})=1, T_1(\tilde{L})=\tilde{L}$ 。
近似 $\lambda = 2$ ，可得
$g_{\theta'}\ast x=\theta_0'x+\theta_1'\tilde{L}x=\theta_0'x+\theta_1'(L-I_N)x=\theta_0'x+\theta_1'D^{-\frac{1}{2}}AD^{-\frac{1}{2}}x$
连续运用这种形式的过滤器k次，有效卷积一个节点的k阶邻域。k就是卷积层的个数。

在实际中，衰减参数的个数进一步防止过拟合，同时最小化每层中的矩阵乘法操作数，简化得
$g_{\theta'}\ast x = \theta (I_N+D^{-\frac{1}{2}}AD^{-\frac{1}{2}})x$
上式中， $\theta=\theta_0'=-\theta_1'$ ， $I_N+D^{-\frac{1}{2}}AD^{-\frac{1}{2}}$ 的特征值近似在 $[0, 2]$ 之间。在神经网络中多次重复使用此操作会导致数值不稳定、梯度爆炸/消失，缓解的trick是 $I_N+D^{-\frac{1}{2}}AD^{-\frac{1}{2}} \longrightarrow \tilde{D}^{-\frac{1}{2}}\tilde{A}\tilde{D}^{-\frac{1}{2}}$ ，其中， $\tilde{A}=A+I_N, \tilde{D}_{ii}=\sum_j\tilde{A}_{ij}$

将信号 $X$ 定义为更一般化的 $X\in \mathbb{R}^{N\times C}$ ， C表示channel数，代表每个节点的特征维度。那么
$\tilde{D}^{-\frac{1}{2}}\tilde{A}\tilde{D}^{-\frac{1}{2}}X\Theta$

四、节点的半监督分类

预先计算 $\hat{A}=\tilde{D}^{-\frac{1}{2}}\tilde{A}\tilde{D}^{-\frac{1}{2}}$ ，向前传播模型
$softmax(\hat{A} Relu(\hat{A}XW^{(0)})W^{(1)})$

只是用有标签的数据计算损失， $\mathcal{y}_L$ 表示有标签的节点的集合，交叉熵损失函数定义如下：
$\mathcal{L}=-\sum_{l\in \mathcal{y}_L}\sum_{f=1}^FY_{lf}\ln Z_{l}$

weixin_40675092

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文学习笔记：Semi-Supervised Classification with Graph Convolutional Network

原文链接：Semi-Supervised Classification with Graph Convolutional Network代码实现：https://github.com/tkipf/pygcn一、亮点1.分层传播规则，模型f(A,X)f(A, X)f(A,X)直接编码结构信息，不需要显式的使用图正则。2.节点的半监督分类实现二、显式的图正则基于图的半监督学习问题，需要通过显式的基于图的正则化项来将标签信息平滑到整个图上。在损失函数中使用Laplace正则化项L=L0+λLreg.
复制链接

扫一扫