Semi-supervised Classfication WITH GRAPH Convolutional Networks 阅读笔记

几夏经秋

已于 2022-04-07 21:31:09 修改

阅读量227

点赞数 1

分类专栏：图神经网络图卷积神经网络GCN 文章标签：神经网络深度学习机器学习

于 2020-11-08 22:11:48 首次发布

本文链接：https://blog.csdn.net/qq_38296005/article/details/109379460

版权

图神经网络同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

图卷积神经网络GCN

1 篇文章 0 订阅

订阅专栏

Semi-supervised Classfication WITH GRAPH Convolutional Networks（基于图卷积网络的半监督分类 ICLR2017）

摘要
1. 绪论
2.图的快速近似卷积
- 2.1谱图卷积
- 2.2 Layer-wise线性模型（分层线性模型）
3半监督节点分类
- 3.1 例子
- 3.2 实施方式
4 相关工作
- 4.1 基于图的半监督学习
- 4.2 图神经网络
5 实验
8 总结

摘要

提出一种基于图结构数据的可扩展的半监督学习方法，这种方法是CNN在图结构数据上的一种有效变体，可以对图结构进行直接操作。（即能对图结构进行卷积操作，即将可卷积范围扩展至图这种结构数据【换一种说法就是，将可卷积范围从欧式空间扩展是非欧式空间】）。
通过谱图卷积（spectral graph convolutions）的局部一阶近似（localized first-order approximation） 来确定卷积网络结构。【换一种说法就是：提出的GCN的本质是谱图卷积的局部一阶近似】
模型在图的边的数量上是线性缩放，并学习(同时编码了局部图结构和节点特征的)隐藏层表示。通过与引文的网络进行了大量对比实验表明方法比相关方法具有更好性能。【这里隐含表述：图的边可能和整体结构的性能有较大关系】
个人总结：文章提出了一种图卷积网络（GCNs)，即将可卷积范围从传统的欧式空间拓展至了非欧空间，可以对图这种非欧空间的结构数据进行卷积操作。从模型的本质来说，GCN是基于频域的谱图卷积的局部一阶近似。同时GCN的模型规模与图中边的数量的正线性相关，且GCN能够用在对局部图结构和节点特征进行编码表示。

1. 绪论

基于图的半监督学习问题：在图（例如文献引用网络）中对其节点（例如引用网络中的文章）进行分类的问题，问题中仅有少量的节点是有标注的。半监督节点分类问题（需要依靠这些少量的已经标注的节点来对那些没有标注过的节点进行分类）。
解决该问题的方法：通过一些形式的基于图的显示正则化方法来平滑标签信息（Zhu,2003; Zhou,2004; Belkin ,2006; Weston , 2012)具体的方法是：在损失函数中添加图拉普拉斯正则化项：
$\mathcal{L}=\mathcal{L}_{0}+\lambda \mathcal{L}_{\mathrm{reg}} \qquad (1)$
with $\quad \mathcal{L}_{\mathrm{reg}}=\sum_{i, j} A_{i j}\left\|f\left(X_{i}\right)-f\left(X_{j}\right)\right\|^{2}=f(X)^{\top} \Delta f(X)$
- $\mathcal{L}_{0}$ 表示有label部分的监督损失
- $\mathcal{f(⋅)}$ 是一个类似于神经网络中的可微函数
- $\lambda$ 是权重
- $X$ 是节点特征向量 $X_i$ 的矩阵，特征矩阵
- $\Delta =D-A$ 表示一个无向图 $\mathcal{G}=(\mathcal{V}, \mathcal{E})$ 的未归一化的图拉普拉斯算子（矩阵）。节点集 $v_{i} \in \mathcal{V},$ 边集 $\left(v_{i}, v_{j}\right) \in \mathcal{E}.$
- $\in \mathbb{R}^{N \times N}$ (binary or weighted) 是图的邻接矩阵
- $D_{i i}=\sum_{j} A_{i j}$ 是图的度矩阵.
- 公式（1）需要满足假设：图中的相邻节点可能具有相同的标签。
- 存在问题：假设会限制建模能力，因为图的边不仅仅需要编码节点相似性，而且可能包含其他信息
本文中，直接使用一个神经网络模型 $f (X, A)$ 对图结构进行编码，使用带标签的所有节点在训练中计算 $\mathcal{L}_{0}$ ，从而可以不用在损失函数中添加基于图的显示正则化【不需要和公式1一样添加一个图的拉普拉斯正则化项）。
图的邻接矩阵上的条件 $\mathcal{f(⋅)}$ 可以允许模型从监督损失 $\mathcal{L}_{0}$ 中分配梯度信息，使得模型可以学习有标签和无标签的节点表示
文章有两个创新点
- 1.给神经网络模型引入一个简单且性能良好的分层传播规则，并展示了如何从谱图卷积的一阶近似来确定它。【即提出了对谱图卷积使用一阶近似简化计算的的GCN图卷积网络这一方法】
- 2.验证了如何将基于图的神经网络模型用于图中节点的快速和可扩展的半监督分类。同时在诸多数据集上的与最新的半监督学习方法相比，分类准确性和效率都要更好。

2.图的快速近似卷积

本节中将提供本文其他部分中使用的基于特定图的神经网络模型 $f (X, A)$ 的理论动机。
多层图卷积网络（GCN)的分层传播规则：
$H^{(l+1)}=\sigma\left(\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} H^{(l)} W^{(l)}\right) \qquad (2)$
- $\tilde{A}$ = $A+I_N$ 是增加了的自连接的无向图 $G$ 的邻接矩阵
- $I_N$ 是单位矩阵
- $D_{i i}=\sum_{j} \tilde A_{i j}$ 和 $W^{(l)}$ 是一个特定层的可训练的权重矩阵
- $\sigma(⋅)$ 是激活函数，例如ReLU(⋅)=max(0,⋅).
- $H^{(l)}\in \mathbb{R}^{N \times D}$ 是第 $l$ 层的激活矩阵
- $H^{(0)} =X$
- 通过图上局部频谱滤波器的一阶近似来得到这种传播规则的形式
2.1谱图卷积
【由于GCN就是谱图卷积的局部一阶近似，所以首先介绍什么是谱图卷积，作者方法就是在谱图卷积上进行改进的。】
- 图上的频谱卷积定义为信号 $x\in \mathbb{R}^N$ (每一个节点的标量)与滤波器 $g_{\theta}=diag(\theta)$ $(\theta\in \mathbb{R}^N$ )在傅里叶域中的乘积：
  $g_{\theta} \star x=U g_{\theta} U^{\top} x \qquad (3)$
  - $U$ 是归一化后的图拉普拉斯算子的特征向量的矩阵（即谱矩阵）： $L=I_{N}-D^{-\frac{1}{2}} A D^{-\frac{1}{2}}=$ $\Lambda U^{\top}$ ,其特征值矩阵（对角阵） $\Lambda$ ， $\dot{U}^{\top} x$ 是x的图傅里叶变换。
  - 可以将 $g_{\theta}$ 理解为 $L$ 的特征值函数：即 $g_{\theta}(\Lambda)$ .
  - 1.整个公式计算开销比较大，使用特征向量矩阵 $U$ 进行矩阵乘法的时间复杂度是 $\mathcal{O}\left(N^{2}\right)。$ 对于大图来说，计算 $L$ 的特征分解需要很大的计算量。【因为这种对谱图卷积进行直接计算的时间复杂度过大，所以作者考虑采取改进措施减少这里的时间复杂度】
  - 注：此处公式的推导如下：
    - 1.卷积定理：信号卷积的傅立叶变换等价于信号傅立叶变换的乘积： $\star g)=F(f) \cdot F(g) \qquad (3.1)$ 其中 $, f, g$ 表示两个原始信号 $, F (f)$ 表示 $f$ 的傅立叶变换，・表示乘积算子, $\star$ 表示卷积算子. 对上式根据卷积定理有：两端做傅立叶逆变换,可以得到： $\star g=F^{-1}(F(f) \cdot F(g)) \qquad (3.2)$
    - 2.图上的傅里叶变换依赖于图上的拉普拉斯矩阵，所以图上的傅里叶变换的定义依赖于拉普拉斯矩阵的特征向量，以特征向量作为谱空间的一组基底：则图上x的的傅里叶变换为：
      $F(x)=\hat{x}=\boldsymbol{U}^{\mathrm{T}} x \qquad (3.3)$
      * 3.其中, $x$ 指信号在节点域的原始表示. $\hat{x}$ 指信号 $x$ 变换到谱域后的表示 $\boldsymbol{U}^{\mathrm{T}}$ 表示特征向量矩阵的转置,用于做傅立叶变换。信号 $x$ 的傅立叶逆变换为:
      $x=\boldsymbol{U} \hat{x} \qquad (3.4)$
    - 4.利用图上傅立叶变换和逆变换,我们可以基于卷积定理实现图卷积算子：
      $x_{G}^{\star} y=\boldsymbol{U}\left(\left(\boldsymbol{U}^{\mathrm{T}} x\right) \odot\left(\boldsymbol{U}^{\mathrm{T}} y\right)\right)\qquad (3.5)$
      * 5.其中 $\stackrel{\star}{G}$ 表示图卷积算子, $x, y$ 表示图上节点域的信号, $\odot$ 指哈达玛乘法, 表示两个向量的对应元素相乘. 我们用一个对角阵 $g_{0}$ 代替向量 $U^{\mathrm{T}} y,$ 那么哈达玛乘法可以转化成矩阵乘法. 将卷积核 $g_{\theta}$ 作用在信号上, 图卷积可以表示成如下形式
      $g_{\theta} \star x=\boldsymbol{U} g_{\theta} \boldsymbol{U}^{\mathrm{T}} x \qquad (3.6)$
  - 在上面推导的最后那个公式3.6中， $g_{\theta}$ 即为需要学的卷积核，在谱图神经网络中， $g_{\theta}$ 是对角线阵的形式。且有n个需要学习的参数，为了解决这个算法时间复杂度过高的这个问题，使用切比雪夫多项式对其进行改造，具体做法是使用切比雪夫多项式 $T_{k}(x)$ 的 $K^{\text {th }}$ 阶截断来获得对 $g_{\theta}(\Lambda)$ 的近似：
    $g_{\theta^{\prime}}(\Lambda) \approx \sum_{k=0}^{K} \theta_{k}^{\prime} T_{k}(\tilde{\Lambda}) \qquad (4)$
    - 其中 $\Lambda=\frac{2}{\lambda_{\max }} \Lambda-I_{N}$ ，其中 $\lambda_{\max }$ 是 $L$ 的最大特征值。公式含义是：表示经过 $L$ 的最大特征值缩放后的特征向量矩阵。 $\theta^{\prime} \in \mathbb{R}^{K}$ 是切比雪夫系数向量。
    - 切比雪夫的多项式递归为： $T_{k}(x)=$ $2 x T_{k-1}(x)-T_{k-2}(x),$ with $T_{0}(x)=1$ and $T_{1}(x)=x .$
- 回到信号 $x$ 与滤波器 $g_{\theta^{\prime}}$ 卷积的定义：
  $g_{\theta^{\prime}} \star x \approx \sum_{k=0}^{K} \theta_{k}^{\prime} T_{k}(\tilde{L}) x \qquad (5)$
  - $\tilde{L}=\frac{2}{\lambda_{\max }} L-I_{N} ;$
  - 易知 $\left(U \Lambda U^{\top}\right)^{k}=U \Lambda^{k} U^{\top} .$
  - 注：此公式推导为：从公式（4）到公式（5）：
    - 1.切比雪夫网络利用特征值矩阵的多项式参数化卷积核，实现谱卷积神经网络，且巧妙利用了 $L=I_{N}-D^{-\frac{1}{2}} A D^{-\frac{1}{2}}=$ $\Lambda U^{\top}$ 引入了拉普拉斯矩阵。将表达式变成了K的范围内，此时对 $g_{\theta}$ 是拉普拉斯算子的一个k阶多项式， $g_{\theta}$ 避免了拉普拉斯矩阵的特征分解，大大降低了时间复杂度。
    - 此处即避免了花费大量精力去直接计算 $\ U g_{\theta} U^{\mathrm{T}}$ ，而通过且比雪夫网络进行参数化，并通过 $\Lambda U^{\top}$ 这一特性引入拉普拉斯矩阵，通过拉普拉斯矩阵来彻底简化计算
  - 表达式是K局部的，因为是Laplacian中的k阶多项式，它仅取决于距离中心节点最多k步的节点( $K$ 阶邻居）。且该式是线性阶的 $\mathcal{O}(|\mathcal{E}|),$ Defferrard (2016) 使用了K局部卷积来定义图卷积神经网络。
2.2 Layer-wise线性模型（分层线性模型）
【介绍完前人研究的谱图卷积之后，开始介绍谱图卷积的局部一阶近似】
- 1.基于图卷积的神经网络模型可以通过使用公式（5）叠加多个卷积层来构建，每层之后是一个逐点非线性。将分层卷积运算限制为K = 1（请参见等式5），即一个线性函数L，因此在拉普拉斯谱图上具有线性函数。
- 2.通过上面的方式，可以通过堆叠多个这样的层来恢复一类丰富的卷积滤波器函数，
- 3.为了使得图卷积神经网络能够在图的半监督学习领域发挥作用，文章对切比雪夫网络进行了简化，提出了一阶图卷积神经网络，但是可以不局限于使用类似切比雪夫多项式给出的显示参数化，这种模型可以缓解节点度分布非常宽的图存在的局部邻域结构过拟合的问题。同时这种分层的线性公式可以使得能够建立更加深层的模型，提升对其他领域的建模能力。
- 4.将 $\ \lambda_{max}$ =2则有： $g_{\theta^{\prime}} \star x \approx \theta_{0}^{\prime} x+\theta_{1}^{\prime}\left(L-I_{N}\right) x=\theta_{0}^{\prime} x-\theta_{1}^{\prime} D^{-\frac{1}{2}} A D^{-\frac{1}{2}} x \qquad (6)$
  具有两个自由参数 $\theta_{0}^{\prime}$ and $\theta_{1}^{\prime} .$ 过滤器参数可以在整个图上共享，然后，这种形式的滤波器的连续应用可以有效地对节点的 $k^{\text {th }}$ 阶邻域进行卷积，其中k是神经网络模型中连续滤波操作的次数或者叫卷积层的数量。
- 5.因为在图上半监督学习场景下，带标签的数据非常少，所以为了避免解决过拟合问题，使用了单一参数 $\theta=\theta_{0}^{\prime}=-\theta_{1}^{\prime}$ 来降低模型的参数数量，同时对权重矩阵做了归一化处理，最终的一阶图卷积神经网络公式如下： $g_{\theta} \star x \approx \theta\left(I_{N}+D^{-\frac{1}{2}} A D^{-\frac{1}{2}}\right) x \qquad (7)$
  - $I_{N}+D^{-\frac{1}{2}} A D^{-\frac{1}{2}}$ 的特征值为 range $[0, 2] .$ 因此当在深度神经网络模型中使用该运算符时，反复使用该运算符可能会导致数值不稳定以及梯度爆炸或者梯度消息的现象。（个人理解：这就是为啥图卷积神经网络中层数越深，效果越差的根源）。
  - 缓解办法: $I_{N}+D^{-\frac{1}{2}} A D^{-\frac{1}{2}} \rightarrow \tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}},$ with
    $\tilde{A}=A+I_{N}$ and $\tilde{D}_{i i}=\sum_{j} \tilde{A}_{i j}$ 。
  - 即该定义可以概括为具有C个输入通道（每个节点的C维特征向量）的信号 $\in \mathbb{R}^{N \times C}$ with $C$ 和F个滤波器或者特征图：
    $Z=\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} X \Theta \qquad (8)$
    其中 $\Theta \in \mathbb{R}^{C \times F}$ 是滤波器参数的矩阵， $\in \mathbb{R}^{N \times F}$ i是卷积信号矩阵. 这个操作具有的时间复杂度为 $\mathcal{O}(|\mathcal{E}| F C),$ 因此 $\tilde{A} X$ 可以有效地实现为稀疏矩阵与密集矩阵的乘积。

3半监督节点分类

为了实现在图上进行有效的信息传播，引入了一个简单灵活的模型 $f (X, A)$ 。通过在数据X和基础图结构的邻接矩阵A上调节模型 $f (X, A)$ 来放宽在基于图的半监督学习中的一些假设。

3.1 例子

考虑在具有对称邻接矩阵A的图上使用两层GCN进行半监督节点分类，其中在预处理步骤中计算 $\hat{A}=\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}}$ 。同时算法的前向模型如下：
$A)=\operatorname{softmax}\left(\hat{A} \operatorname{ReLU}\left(\hat{A} X W^{(0)}\right) W^{(1)}\right) \qquad (9)$
- $W^{(0)} \in \mathbb{R}^{C \times H}$ 是具有H个特征图的隐藏层的输入到隐藏层的权重矩阵。 $W^{(1)} \in \mathbb{R}^{H \times F}$ 是一个隐藏层到输出的权重矩阵，其中softmax激活函数定义为： $\operatorname{softmax}\left(x_{i}\right)=\frac{1}{Z} \exp \left(x_{i}\right)$ with $\mathcal{Z}=\sum_{i} \exp \left(x_{i}\right),$ 按行进行. 对于半监督的多类分类，评估所有标记示例的交叉熵误差：
  $\mathcal{L}=-\sum_{l \in \mathcal{Y}_{L}} \sum_{f=1}^{F} Y_{l f} \ln Z_{l f} \qquad (10)$
  其中 $\mathcal{Y}_{L}$ 是具有标签的节点索引集。
神经网络的权重 $W^{(0)}$ and $W^{(1)}$ 使用梯度下降法进行训练.使用每次训练迭代的完整数据集执行批量梯度下降。使用 $A$ 的稀疏矩阵表示, 内存需求为 $\mathcal{O}(|\mathcal{E}|)$ , 即边树是线性的。训练过程中通过dropout引入随机性，同时保留了具有微型批处理随机梯度下降功能的内存有效扩展。

3.2 实施方式

对于公式9使用稀疏-密集矩阵乘法在有效的基于GPU的TensorFlow实现，公式9的计算复杂度为： $\mathcal{O}(|\mathcal{E}|CHF)$ ，所以图的边数是线性的。

4 相关工作

*GCN的灵感来源于基于图的半监督学习领域和图神经网络。

4.1 基于图的半监督学习

1.之前研究：使用图表示的半监督学习方法分为两大类：
- 使用某种形式的显示图拉普拉斯正则化的方法
- 基于图嵌入的方法
2.最新进展
- 通过跳跃语法模型启发的方法中学习图嵌入模型
- 通过预测节点的本地邻域来学习嵌入的DeepWalk，这些节点是从图中使用随机游走进行取样
- LINE和node2vec通过更加复杂的随机游动或者广度优先搜索方案扩展了DeepWalk。
- 缺陷：都需要包括随机游走生成和半监督训练的多步骤流水线，且没饿过步骤都必须分别进行优化。
- 一种解决方法是：通过学习嵌入过程中注入标签信息来缓解

4.2 图神经网络

2005年已经出现在图上运行的神经网络（Gori）
2009年作为递归神经网络的一种形式，在框架中重读使用收缩图作为传播函数，直到节点表示形式达到稳定的固定点时候结束。（Scarseli)
2016年通过将现代递归神经网络训练实践引入原始图神经网络框架的方法减轻了上面方法的限制。（Li）
2015年在图上引入了类似于卷积的传播规则，并提出了图分类方法，这种方法需要学习特定于节点度的权重矩阵，该权重矩阵无法缩放为具有宽节点度分布的大型图。（Duvenaud)
- 本文算法在模型的每一层中使用单个权重矩阵，并通过对邻接矩阵进行适当的归一化处理不同的节点度。
2016年引入了一种基于图的神经网络进行节点分类的相关方法，但是时间复杂度是 $\mathcal{O}\left(N^{2}\right)$ 级别的。（Atwood&Towsley）
2016年在一个不同的模型中（与上面有相关性）将图本地转换为序列，并馈入常规一维卷积神经网络，但是需要在预处理步骤中定义节点排序（Niepert）

5 实验

本文在下面这些实验中测试了本文算法：
- 引用网络中的半监督分类文档
- 从知识图提取的二分图中的半监督分类实体
- 各种图传播模型的评估以及对随机图的运行时分析
  此部分跳过，下面直接到总结部分

8 总结

介绍了一种用于图结构数据的半监督分类的新方法。 GCN模型使用有效的分层传播规则，该规则基于图谱卷积的一阶近似，即使用图谱卷积的一阶近似来简化计算，降低计算复杂度。在许多网络数据集上的实验表明，提出的GCN模型能够以对半监督分类有用的方式对图形结构和节点特征进行编码。在这种情况下，模型在计算效率方面要明显优于最近提出的几种方法。

注：文章实验部分暂时没细致学习，后续学习之后再更新

几夏经秋

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Semi-supervised Classfication WITH GRAPH Convolutional Networks 阅读笔记

Semi-supervised Classfication WITH GRAPH Convolutional Networks（基于图卷积网络的半监督分类 ICLR2017）摘要绪论图的快速近似卷积谱图卷积Layer-wise线性模型摘要提出一种基于图结构数据的可扩展的半监督学习方法，这种方法是CNN在图结构数据上的一种有效变体，可以对图进行直接操作（即能对图结构进行卷积操作，即将可卷积范围扩展至图这种结构数据）。通过谱图卷积（spectral graph convolutions）的局部一阶近似
复制链接

扫一扫