《Simple and Deep Graph Convolutional Networks》--论文阅读笔记

《Simple and Deep Graph Convolutional Networks》


作者:魏哲巍、Ming Chen、Zengfeng Huang、Bolin Ding、Yaliang Li
时间:2020年 ICML
篇幅:11页
魏老师简介:http://www.weizhewei.com/

Abstract

图卷积网络(GCNS)是一种强大的图结构数据深度学习方法。最近,GCNS及其后续变体在真实数据集上的各个应用领域都显示出了优异的性能。尽管取得了成功,但由于过度平滑的问题,目前的大多数GCN模型都很浅。本文研究了深图卷积网络的设计与分析问题。我们提出了GCNII模型,它是对vanilla GCN 型的扩展,使用了两个简单而有效的技术:初始残差和单位映射。我们提供了理论和经验证据,证明这两种技术有效地缓解了过平滑问题。我们的实验表明,深度GCNII模型在各种半监督和全监督任务上的性能优于最先进的方法。

注:

**- vanilla GCN(原版GCN) :Kipf, T. N. and Welling, M. Semi-supervised
classification with graph convolutional networks. In ICLR, 2017.
vanlilla GCN的解读可以点击查看:vanlilla GCN 论文解读

现有GCN大多数是浅层结构(GCN、GAT;2层结构),如果做深,将会出现过平滑现象(随着层数增加,节点的表示趋于某一个值,节点变得无法区分),ResNet使用残差连接解决了计算机深层网络训练问题。但是在GCN中增加残差连接只能缓解过平滑问题,所以GCN、GAT浅层结构的性能超过深层GCN。**本文研究了深图卷积网络的设计与分析问题,提出了GCNII模型,使用了两个简单而有效的技术(初始残差和单位映射)实现了对vanilla GCN 型的扩展,有效解决了过平滑问题,并随着GCNII网络深度的增加而不断提高其性能。特别是,深度GCNII模型在各种半监督和全监督任务上取得了新的最先进的结果。

1. Introduction

图形卷积网络将卷积神经网络(CNNs)推广到图结构数据。为了了解图形表示,“图形卷积”操作将相同的线性变换应用于节点的所有邻居,后跟非线性激活函数。近年来,GCN及其变体已成功地应用于广泛的应用包括社会分析、交通预测、生物学、推荐系统、交通预测、推荐系统、交通预测、推荐系统。

尽管取得了巨大的成功,但目前的大多数GCN模式都很肤浅。大多数最近的型号,如gcn和gat,都在2层模型上实现了最佳性能。这种浅层体系结构限制了它们从高阶邻居中提取信息的能力。但是,堆叠更多的层和添加非线性往往会降低这些模型的性能。这种现象被称为过平滑,这表明随着层数的增加,GCN中节点的表示倾向于收敛到某个值,因此变得无法区分。RESNET解决了具有残余连接的计算机视觉中的类似问题,这对于训练非常深的神经网络是有效的。不幸的是,在 ;深层GCN模型的表现仍然被GCN或GAT等2层模型所超越。

最近,有几项工作试图解决超平滑问题。JKNet(Xu等人,2018年)使用密集跳过连接来组合每层的输出,以保持节点表示的局部性。最近,DropEdge(Rong等人,2020)建议通过从输入图中随机删除一些边,可以减轻过度平滑的影响。实验(Rong等人,2020)表明,随着网络深度的增加,这两种方法可以减缓性能下降。然而,对于半监督任务,最先进的结果仍然是通过浅层模型实现的,因此增加网络深度所带来的好处仍然是值得怀疑的。

另一方面,有几种方法将深度传播和浅层神经网络相结合。SGC(Wu等人,2019年)试图通过在单个神经网络层中应用图形卷积矩阵的K次方来捕获图形中的高阶信息。PPNP和APPNP(Klicpera等人,2019a)用个性化PageRank矩阵取代了图的卷积矩阵的幂,以解决过平滑问题。GDC(Klicpera等人,2019b)通过将个性化PageRank(Page等人,1999)推广到任意图扩散过程,进一步扩展了APPNP。然而,这些方法在每一层中对相邻特征进行线性组合,失去了深层非线性结构的强大表达能力,这意味着它们仍然是浅层模型。

总之,如何设计一个GCN模型来有效地防止过度平滑,并通过真正深入的网络结构实现最先进的结果,仍然是一个悬而未决的问题。由于这一挑战,在设计新的图神经网络时,网络深度是一种资源还是一种负担甚至是不清楚的。在本文中,我们通过证明Vanilla GCN(Kipf&Well,2017)可以通过两个简单而有效的修改将其扩展到深度模型,从而给出了这个开放问题的肯定答案。特别地,我们提出了基于初始残差和单位映射的图卷积网络(GCNII),这是一种解决过平滑问题的深层GCN模型。在每一层,初始残差从输入层构建跳过连接,而单位映射将单位矩阵添加到权重矩阵。实证研究表明,这两种简单得令人惊讶的技术可以防止过度平滑,并随着GCNII网络深度的增加而不断提高其性能。特别是,深度GCNII模型在各种半监督和全监督任务上取得了新的最先进的结果。

其次,对GCN和GCNII模型进行了理论分析。众所周知(Wu等人,2019年),通过堆叠k层,其次,对GCN和GCNII模型进行了理论分析。众所周知(Wu等人,2019年),通过堆叠k层,香草GCN实质上模拟具有预定系数的K阶多项式滤波器。(Wang等人,2019年)指出,这样的滤波器模拟懒惰的随机行走,最终收敛到静止向量,从而导致过度平滑。另一方面,我们证明了K层GCNII模型可以表示任意系数的K阶多项式谱滤波器。这一性质对于设计深度神经网络是必不可少的。我们还推导了平稳向量的闭合形式,并分析了香草GCN的收敛速度。我们的分析表明,在多层GCN模型中,度数越高的节点更有可能遭受过平滑,并通过实验证实了这一理论猜想。GCN实质上模拟具有预定系数的K阶多项式滤波器。(Wang等人,2019年)指出,这样的滤波器模拟懒惰的随机行走,最终收敛到静止向量,从而导致过度平滑。另一方面,我们证明了K层GCNII模型可以表示任意系数的K阶多项式谱滤波器。这一性质对于设计深度神经网络是必不可少的。我们还推导了平稳向量的闭合形式,并分析了香草GCN的收敛速度。我们的分析表明,在多层GCN模型中,度数越高的节点更有可能遭受过平滑,并通过实验证实了这一理论猜想。

注解:
面对过平滑问题前人的研究:

1.2018年JKNet使用密集跳过连接来组合每层的输出,以保持节点表示的局部性。

2.2020年DropEdge等人建议通过从输入图中随机删除一些边,可以减轻过度平滑的影响。 效果:随着网络深度的增加,这两种方法可以减缓性能下降。

问题: 对于半监督任务,最先进的结果仍然是通过浅层模型实现的,因此增加网络深度所带来的好处仍然是值得怀疑的。

另一方面的研究,将深度传播和浅层神经网络相结合解决过平滑问题:

1.2019年 Wu等人提出的SGC试图通过在单个神经网络层中应用图形卷积矩阵的K次方来捕获图形中的高阶信息;
2.2019a年Klicpera等人 的PPNP和APPNP用个性化PageRank矩阵取代了图的卷积矩阵的幂,以解决过平滑问题。
3.2019b年Klicpera等人提出的GDC通过将个性化PageRank推广到任意图扩散过程,进一步扩展了APPNP。

**问题:**这些方法在每一层中对相邻特征进行线性组合,失去了深层非线性结构的强大表达能力,这意味着它们仍然是浅层模型。

因此,如何设计一个GCN模型来有效地防止过度平滑,并通过真正深入的网络结构实现最先进的结果,仍然是一个悬而未决的问题。

**设计新图神经网络挑战:**理论较少,网络深度是一种资源还是一种负担甚至是不清楚的。
在此贡献:对GCN和GCNII模型进行了理论分析。还推导了平稳向量的闭合形式,并分析了原始GCN的收敛速度。

2. Preliminaries

符号。给出一个有n个结点和m条边的简单连通无向图G=(V,E)。定义自环图 G ~ = ( V , E ~ ) \tilde{G}=(V, \tilde{E}) G~=(V,E~)为G中每个结点都有一个自环的图,用{1,…,n}表示G和 G ~ \tilde{G} G~的节点ID,用dj和dj+1表示G和 G ~ \tilde{G} G~中的节点j的度.。设A表示邻接矩阵,D表示对角度矩阵。因此, G ~ \tilde{G} G~的邻接矩阵和对角度矩阵分别定义为 A ~ = A + I \tilde{A}=A+I A~=A+I D ~ = D + I \tilde{D}=D+I D~=D+I。设 X ∈ R n × d \mathbf{X} \in \mathbf{R}^{n \times d} XRn×d表示节点特征矩阵,即每个节点v有一个d维特征向量 X v X_v Xv相关联。规范图拉普拉斯矩阵定义为 L = I n − D − 1 / 2 A D − 1 / 2 \mathbf{L}=\mathbf{I}_{n}-\mathbf{D}^{-1 / 2} \mathbf{A} \mathbf{D}^{-1 / 2} L=InD1/2AD1/2,L的对称特征分解矩阵 U Λ U T UΛU^T UΛUT
Λ是L的特征值的对角矩阵, U ∈ R n × n \mathbf{U} \in \mathbf{R}^{n \times n} URn×n是由L的特征向量组成的酉矩阵.,信号x与滤波器gγ(Λ)=diag(γ)之间的图形卷积运算被定义为 g γ ( L ) ∗ x = U g γ ( Λ ) U T x gγ(L)∗x=Ugγ(Λ)U^{T}x gγ(L)x=Ugγ(Λ)UTx,其中参数 γ ∈ R n × n \mathbf{γ} \in\mathbf{R}^{n \times n} γRn×n对应于谱滤波器系数的向量。

Vanilla GCN. 建议可以进一步用拉普拉斯的K次多项式来逼近图的卷积运算: U g θ ( Λ ) U T x ≈ U ( ∑ ℓ = 0 K θ ℓ Λ ℓ ) U ⊤ x = ( ∑ ℓ = 0 K θ ℓ L ℓ ) x \mathbf{U} g_{\theta}(\Lambda) \mathbf{U}^{T} \mathbf{x} \approx \mathbf{U}\left(\sum_{\ell=0}^{K} \theta_{\ell} \mathbf{\Lambda}^{\ell}\right) \mathbf{U}^{\top} \mathbf{x}=\left(\sum_{\ell=0}^{K} \theta_{\ell} \mathbf{L}^{\ell}\right) \mathbf{x} Ugθ(Λ)UTxU(=0KθΛ)Ux=(=0KθL)x
其中 θ ∈ R K + 1 \mathbf{ θ} \in\mathbf{R }^{K+1} θRK+1对应于多项式系数的向量。

其中 θ ∈ R K + 1 \theta \in \mathbf{R}^{K+1} θRK+1 对应于多项式系数的向量。vanilla GCN设置 K = 1 , θ 0 = 2 θ K=1, \theta_{0}=2 \theta K=1,θ0=2θ and θ 1 = − θ \theta_{1}=-\theta θ1=θ 来获得卷积运算 g θ ∗ x = θ ( I + D − 1 / 2 A D − 1 / 2 ) x . \mathbf{g}_{\theta} * \mathbf{x}=\theta\left(\mathbf{I}+\mathbf{D}^{-1 / 2} \mathbf{A} \mathbf{D}^{-1 / 2}\right) \mathbf{x} . gθx=θ(I+D1/2AD1/2)x. 。最后,通过重整化技巧,用归一化版本 P ~ = \tilde{\mathbf{P}}= P~= D ~ − 1 / 2 A ~ D ~ − 1 / 2 = ( D + I n ) − 1 / 2 ( A + I n ) ( D + I n ) − 1 / 2 \tilde{\mathbf{D}}^{-1 / 2} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-1 / 2}=\left(\mathbf{D}+\mathbf{I}_{n}\right)^{-1 / 2}\left(\mathbf{A}+\mathbf{I}_{n}\right)\left(\mathbf{D}+\mathbf{I}_{n}\right)^{-1 / 2} D~1/2A~D~1/2=(D+In)1/2(A+In)(D+In)1/2替换矩阵 I + D − 1 / 2 A D − 1 / 2 \mathbf{I}+\mathbf{D}^{-1 / 2} \mathbf{A} \mathbf{D}^{-1 / 2} I+D1/2AD1/2 得到图的卷积层:
H ( ℓ + 1 ) = σ ( P ~ H ( ℓ ) W ( ℓ ) ) \mathbf{H}^{(\ell+1)}=\sigma\left(\tilde{\mathbf{P}} \mathbf{H}^{(\ell)} \mathbf{W}^{(\ell)}\right) H(+1)=σ(P~H()W())其中σ:表示RELU操作。

SGC: 证明了在 G ˉ \bar{G} Gˉ.的图谱域上, L ~ = I n − D ~ − 1 / 2 A ~ D ~ − 1 / 2 \tilde{\mathbf{L}}=\mathbf{I}_{n}-\tilde{\mathbf{D}}^{-1 / 2} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-1 / 2} L~=InD~1/2A~D~1/2表示自环图˜G的归一化图拉普拉斯矩阵。因此,对信号x应用K层GCN ( D ~ − 1 / 2 A ~ D ~ − 1 / 2 ) K x = ( I n − L ~ ) K x . \left(\tilde{\mathbf{D}}^{-1 / 2} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-1 / 2}\right)^{K} \mathbf{x}=\left(\mathbf{I}_{n}-\tilde{\mathbf{L}}\right)^{K} \mathbf{x} . (D~1/2A~D~1/2)Kx=(InL~)Kx.中。(Wu等人,2019年)还表明,通过向每个节点添加自循环, L \mathbf{L} L 有效地缩小了底层图谱。

APPNP 使用 PageRank获得K阶的固定滤波器。设 f θ ( X ) f_θ(X) fθ(X)表示特征矩阵X上的两层全连接层的输出,PPNP的模型被定义为:
H = α ( I n − ( 1 − α )

  • 4
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
### 回答1: 简单而深入的图卷积网络(Simple and Deep Graph Convolutional Networks)是一种用于图像识别和分类的深度学习模型。它通过对图像的局部特征进行卷积操作,从而实现对图像的分类和识别。与传统的卷积神经网络不同,简单而深入的图卷积网络可以处理非欧几里得空间中的数据,例如社交网络、蛋白质结构等。该模型的优点在于可以处理不同大小和形状的图像,并且可以自适应地学习图像的特征。 ### 回答2: 简单而深入的图卷积神经网络simple and deep graph convolutional networks)是一种用于图数据上的深度学习模型。随着图数据的普及和应用,图卷积神经网络成为了研究热点。 传统的卷积神经网络在处理图数据时存在局限性,无法充分地利用图结构信息,因此图卷积神经网络应运而生。简单而深入的图卷积神经网络是其中的一种,具有以下特点: 1. 简单易懂:简单而深入的图卷积神经网络结构简单,易于理解和实现。该模型采用了局部连接和权值共享的思想,可以通过少量的超参数调整来完成训练。 2. 深度学习:简单而深入的图卷积神经网络可以通过多层的卷积层来提取数据的特征。随着层数的增加,模型可以逐步抽象出更高层次的特征,从而提高模型的表达能力。 3. 基于图结构:简单而深入的图卷积神经网络基于图结构进行设计和训练,能够充分地利用节点之间的连接信息和边的权重信息。因此,该模型可以用于处理图、网络等复杂结构数据。 简单而深入的图卷积神经网络可以应用于多个领域,如推荐系统、社交网络分析、语义分析等。在推荐系统中,该模型可以利用用户之间的关注关系、商品之间的相似性等信息,提高推荐的准确率;在社交网络分析中,该模型可以用于社区发现、节点分类等任务;在语义分析中,该模型可以用于文本分类、情感分析等任务。 总之,简单而深入的图卷积神经网络是一种有效的图数据处理工具,具有简单易懂、深度学习、基于图结构等特点。在未来的研究中,将有更多的研究者致力于探索和发展该模型,在图数据处理方面取得更加卓越的成果。 ### 回答3: 简单且深入的图卷积网络(Simple and Deep Graph Convolutional Networks)是一种用于图形数据表示学习的深度学习模型。它是一种预测节点或图形属性的网络,可以处理具有不同特征的大量非结构化数据,例如社交网络,分子结构和语言文本。 图卷积网络(GCN)是一种在图形数据上执行卷积运算的神经网络,它使用图形中的节点和它们的边缘来表示数据,并学习一个表示全部节点和边缘的嵌入向量。简单而深入的GCN模型最初由石遥等人于2018年提出,它将传统的GCN模型中局部和全局信息相结合,并通过嵌入节点特征进行表述。该模型可以减少过拟合,提高分类准确性和泛化能力。 简单而深入的GCN模型具有以下优点: 1. 处理稀疏和密集的图形数据。它可以处理具有不同特征的大量非结构化数据,例如社交网络,分子结构和语言文本 2. 减少过拟合。该模型将过量的学习策略应用于不同的图形,减少了过拟合的风险 3. 提高分类准确性和泛化能力。该模型通过在测试数据上进行处理,并使用自适应特征选择策略改善分类准确性和泛化能力 除此之外,简单而深入的GCN模型还可以应用于多个应用程序,例如社交网络分析,图像分割和分子预测。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值