《Simple and Deep Graph Convolutional Networks》--论文阅读笔记_chenm,weiz,huangz,etal.simpleanddeepgraphconvolu-t-CSDN博客

本文链接：https://blog.csdn.net/LIYUO94/article/details/107498408

《Simple and Deep Graph Convolutional Networks》

简单和深度图卷积网络目录

作者：魏哲巍、Ming Chen、Zengfeng Huang、Bolin Ding、Yaliang Li
时间：2020年 ICML
篇幅：11页
魏老师简介：http://www.weizhewei.com/

Abstract

图卷积网络(GCNS)是一种强大的图结构数据深度学习方法。最近，GCNS及其后续变体在真实数据集上的各个应用领域都显示出了优异的性能。尽管取得了成功，但由于过度平滑的问题，目前的大多数GCN模型都很浅。本文研究了深图卷积网络的设计与分析问题。我们提出了GCNII模型，它是对vanilla GCN 型的扩展，使用了两个简单而有效的技术：初始残差和单位映射。我们提供了理论和经验证据，证明这两种技术有效地缓解了过平滑问题。我们的实验表明，深度GCNII模型在各种半监督和全监督任务上的性能优于最先进的方法。

注：

**- vanilla GCN（原版GCN）：Kipf, T. N. and Welling, M. Semi-supervised
classification with graph convolutional networks. In ICLR, 2017.
vanlilla GCN的解读可以点击查看:vanlilla GCN 论文解读

现有GCN大多数是浅层结构（GCN、GAT；2层结构），如果做深，将会出现过平滑现象（随着层数增加，节点的表示趋于某一个值，节点变得无法区分），ResNet使用残差连接解决了计算机深层网络训练问题。但是在GCN中增加残差连接只能缓解过平滑问题，所以GCN、GAT浅层结构的性能超过深层GCN。**本文研究了深图卷积网络的设计与分析问题，提出了GCNII模型，使用了两个简单而有效的技术（初始残差和单位映射）实现了对vanilla GCN 型的扩展，有效解决了过平滑问题，并随着GCNII网络深度的增加而不断提高其性能。特别是，深度GCNII模型在各种半监督和全监督任务上取得了新的最先进的结果。

1. Introduction

图形卷积网络将卷积神经网络(CNNs)推广到图结构数据。为了了解图形表示，“图形卷积”操作将相同的线性变换应用于节点的所有邻居，后跟非线性激活函数。近年来，GCN及其变体已成功地应用于广泛的应用包括社会分析、交通预测、生物学、推荐系统、交通预测、推荐系统、交通预测、推荐系统。

尽管取得了巨大的成功，但目前的大多数GCN模式都很肤浅。大多数最近的型号，如gcn和gat，都在2层模型上实现了最佳性能。这种浅层体系结构限制了它们从高阶邻居中提取信息的能力。但是，堆叠更多的层和添加非线性往往会降低这些模型的性能。这种现象被称为过平滑，这表明随着层数的增加，GCN中节点的表示倾向于收敛到某个值，因此变得无法区分。RESNET解决了具有残余连接的计算机视觉中的类似问题，这对于训练非常深的神经网络是有效的。不幸的是，在；深层GCN模型的表现仍然被GCN或GAT等2层模型所超越。

最近，有几项工作试图解决超平滑问题。JKNet(Xu等人，2018年)使用密集跳过连接来组合每层的输出，以保持节点表示的局部性。最近，DropEdge(Rong等人，2020)建议通过从输入图中随机删除一些边，可以减轻过度平滑的影响。实验(Rong等人，2020)表明，随着网络深度的增加，这两种方法可以减缓性能下降。然而，对于半监督任务，最先进的结果仍然是通过浅层模型实现的，因此增加网络深度所带来的好处仍然是值得怀疑的。

另一方面，有几种方法将深度传播和浅层神经网络相结合。SGC(Wu等人，2019年)试图通过在单个神经网络层中应用图形卷积矩阵的K次方来捕获图形中的高阶信息。PPNP和APPNP(Klicpera等人，2019a)用个性化PageRank矩阵取代了图的卷积矩阵的幂，以解决过平滑问题。GDC(Klicpera等人，2019b)通过将个性化PageRank(Page等人，1999)推广到任意图扩散过程，进一步扩展了APPNP。然而，这些方法在每一层中对相邻特征进行线性组合，失去了深层非线性结构的强大表达能力，这意味着它们仍然是浅层模型。

总之，如何设计一个GCN模型来有效地防止过度平滑，并通过真正深入的网络结构实现最先进的结果，仍然是一个悬而未决的问题。由于这一挑战，在设计新的图神经网络时，网络深度是一种资源还是一种负担甚至是不清楚的。在本文中，我们通过证明Vanilla GCN(Kipf&Well，2017)可以通过两个简单而有效的修改将其扩展到深度模型，从而给出了这个开放问题的肯定答案。特别地，我们提出了基于初始残差和单位映射的图卷积网络(GCNII)，这是一种解决过平滑问题的深层GCN模型。在每一层，初始残差从输入层构建跳过连接，而单位映射将单位矩阵添加到权重矩阵。实证研究表明，这两种简单得令人惊讶的技术可以防止过度平滑，并随着GCNII网络深度的增加而不断提高其性能。特别是，深度GCNII模型在各种半监督和全监督任务上取得了新的最先进的结果。

其次，对GCN和GCNII模型进行了理论分析。众所周知(Wu等人，2019年)，通过堆叠k层，其次，对GCN和GCNII模型进行了理论分析。众所周知(Wu等人，2019年)，通过堆叠k层，香草GCN实质上模拟具有预定系数的K阶多项式滤波器。(Wang等人，2019年)指出，这样的滤波器模拟懒惰的随机行走，最终收敛到静止向量，从而导致过度平滑。另一方面，我们证明了K层GCNII模型可以表示任意系数的K阶多项式谱滤波器。这一性质对于设计深度神经网络是必不可少的。我们还推导了平稳向量的闭合形式，并分析了香草GCN的收敛速度。我们的分析表明，在多层GCN模型中，度数越高的节点更有可能遭受过平滑，并通过实验证实了这一理论猜想。GCN实质上模拟具有预定系数的K阶多项式滤波器。(Wang等人，2019年)指出，这样的滤波器模拟懒惰的随机行走，最终收敛到静止向量，从而导致过度平滑。另一方面，我们证明了K层GCNII模型可以表示任意系数的K阶多项式谱滤波器。这一性质对于设计深度神经网络是必不可少的。我们还推导了平稳向量的闭合形式，并分析了香草GCN的收敛速度。我们的分析表明，在多层GCN模型中，度数越高的节点更有可能遭受过平滑，并通过实验证实了这一理论猜想。

注解：
面对过平滑问题前人的研究：

1.2018年JKNet使用密集跳过连接来组合每层的输出，以保持节点表示的局部性。

2.2020年DropEdge等人建议通过从输入图中随机删除一些边，可以减轻过度平滑的影响。效果：随着网络深度的增加，这两种方法可以减缓性能下降。

问题： 对于半监督任务，最先进的结果仍然是通过浅层模型实现的，因此增加网络深度所带来的好处仍然是值得怀疑的。

另一方面的研究，将深度传播和浅层神经网络相结合解决过平滑问题：

1.2019年 Wu等人提出的SGC试图通过在单个神经网络层中应用图形卷积矩阵的K次方来捕获图形中的高阶信息；
2.2019a年Klicpera等人的PPNP和APPNP用个性化PageRank矩阵取代了图的卷积矩阵的幂，以解决过平滑问题。
3.2019b年Klicpera等人提出的GDC通过将个性化PageRank推广到任意图扩散过程，进一步扩展了APPNP。

**问题：**这些方法在每一层中对相邻特征进行线性组合，失去了深层非线性结构的强大表达能力，这意味着它们仍然是浅层模型。

因此，如何设计一个GCN模型来有效地防止过度平滑，并通过真正深入的网络结构实现最先进的结果，仍然是一个悬而未决的问题。

**设计新图神经网络挑战：**理论较少，网络深度是一种资源还是一种负担甚至是不清楚的。
在此贡献：对GCN和GCNII模型进行了理论分析。还推导了平稳向量的闭合形式，并分析了原始GCN的收敛速度。

2. Preliminaries

符号。给出一个有n个结点和m条边的简单连通无向图G=(V，E)。定义自环图 $\tilde{G}=(V, \tilde{E})$ 为G中每个结点都有一个自环的图，用{1，…，n}表示G和 $\tilde{G}$ 的节点ID，用dj和dj+1表示G和 $\tilde{G}$ 中的节点j的度.。设A表示邻接矩阵，D表示对角度矩阵。因此， $\tilde{G}$ 的邻接矩阵和对角度矩阵分别定义为 $\tilde{A}=A+I$ 和 $\tilde{D}=D+I$ 。设 $\mathbf{X} \in \mathbf{R}^{n \times d}$ 表示节点特征矩阵，即每个节点v有一个d维特征向量 $X_v$ 相关联。规范图拉普拉斯矩阵定义为 $\mathbf{L}=\mathbf{I}_{n}-\mathbf{D}^{-1 / 2} \mathbf{A} \mathbf{D}^{-1 / 2}$ ，L的对称特征分解矩阵 $UΛU^T$
Λ是L的特征值的对角矩阵， $\mathbf{U} \in \mathbf{R}^{n \times n}$ 是由L的特征向量组成的酉矩阵.,信号x与滤波器gγ(Λ)=diag(γ)之间的图形卷积运算被定义为 $gγ(L)∗x=Ugγ(Λ)U^{T}x$ ，其中参数 $\mathbf{γ} \in\mathbf{R}^{n \times n}$ 对应于谱滤波器系数的向量。

Vanilla GCN. 建议可以进一步用拉普拉斯的K次多项式来逼近图的卷积运算: $\mathbf{U} g_{\theta}(\Lambda) \mathbf{U}^{T} \mathbf{x} \approx \mathbf{U}\left(\sum_{\ell=0}^{K} \theta_{\ell} \mathbf{\Lambda}^{\ell}\right) \mathbf{U}^{\top} \mathbf{x}=\left(\sum_{\ell=0}^{K} \theta_{\ell} \mathbf{L}^{\ell}\right) \mathbf{x}$
其中 $\mathbf{ θ} \in\mathbf{R }^{K+1}$ 对应于多项式系数的向量。

其中 $\theta \in \mathbf{R}^{K+1}$ 对应于多项式系数的向量。vanilla GCN设置 $\theta_{0}=2 \theta$ and $\theta_{1}=-\theta$ 来获得卷积运算 $\mathbf{g}_{\theta} * \mathbf{x}=\theta\left(\mathbf{I}+\mathbf{D}^{-1 / 2} \mathbf{A} \mathbf{D}^{-1 / 2}\right) \mathbf{x} .$ 。最后，通过重整化技巧，用归一化版本 $\tilde{\mathbf{P}}=$ $\tilde{\mathbf{D}}^{-1 / 2} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-1 / 2}=\left(\mathbf{D}+\mathbf{I}_{n}\right)^{-1 / 2}\left(\mathbf{A}+\mathbf{I}_{n}\right)\left(\mathbf{D}+\mathbf{I}_{n}\right)^{-1 / 2}$ 替换矩阵 $\mathbf{I}+\mathbf{D}^{-1 / 2} \mathbf{A} \mathbf{D}^{-1 / 2}$ 得到图的卷积层:
$\mathbf{H}^{(\ell+1)}=\sigma\left(\tilde{\mathbf{P}} \mathbf{H}^{(\ell)} \mathbf{W}^{(\ell)}\right)$ 其中σ:表示RELU操作。

SGC: 证明了在 $\bar{G}$ .的图谱域上， $\tilde{\mathbf{L}}=\mathbf{I}_{n}-\tilde{\mathbf{D}}^{-1 / 2} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-1 / 2}$ 表示自环图˜G的归一化图拉普拉斯矩阵。因此，对信号x应用K层GCN $\left(\tilde{\mathbf{D}}^{-1 / 2} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-1 / 2}\right)^{K} \mathbf{x}=\left(\mathbf{I}_{n}-\tilde{\mathbf{L}}\right)^{K} \mathbf{x} .$ 中。(Wu等人，2019年)还表明，通过向每个节点添加自循环， $\mathbf{L}$ 有效地缩小了底层图谱。