GCN 学习 Simple and Deep Graph Convolutional Networks


一、Introduction

本次阅读文章为升级版GCN,使用两种技术即初始残差恒等映射来缓解过度平滑即梯度爆炸或缺失的问题。这种深度GCNII模型在半监督和完全监督任务上的性能优于最新方法。
虽然GCN在后续的升级中取得了比较优越的性能,但是由于过度平滑的问题,大多数目前的GCN模型都是浅层的。最近的模型,例如GCN和GAT,在两层模型取得了非常好的性能,但这样的浅层结构限制了他们从更高阶的邻居中提取信息的能力。然而单纯的叠加层和增加非线性往往会降低模型的性能。因为在之前DropOut的论文中也提到过,GCN中的节点在更高的层数时往往会倾向于收敛到某个值。使得图不可区分,丧失节点特性。

二、ResNet的引入

什么是Resnet

从经验来看,网络的深度对模型的性能至关重要,当增加网络层数后,网络可以进行更加复杂的特征模式的提取,所以当模型更深时理论上可以取得更好的结果,从图2中也可以看出网络越深而效果越好的一个实践证据。但是更深的网络其性能一定会更好吗?实验发现深度网络出现了退化问题(Degradation problem):网络深度增加时,网络准确度出现饱和,甚至出现下降。这个现象可以在图3中直观看出来:56层的网络比20层网络效果还要差。这不会是过拟合问题,因为56层网络的训练误差同样高。我们知道深层网络存在着梯度消失或者爆炸的问题,这使得深度学习模型很难训练。但是现在已经存在一些技术手段如BatchNorm来缓解这个问题。因此,出现深度网络的退化问题是非常令人诧异的。在这里插入图片描述
在这里插入图片描述
你必须要知道CNN模型:ResNet

不过单纯的在GCN中添加残差结构仅仅能够减缓过度平滑的现象,而无法根本的解决问题,两层以上的GCN仍面临过拟合的问题。

本文方案

在每一层,初始残差从输入层构建一个跳跃连接,而恒等映射在权值矩阵中添加一个单位矩阵。实验研究表明,当我们增加GCNII的网络深度时,这两种简单的技术可以有效地防止过度平滑,并一致地提高其性能。

其次,本文也对多层GCN和GCNII模型进行了理论分析。已知叠加 K K K 层的GCN本质上模拟了一个具有预定系数的 K K K 阶多项式滤波器。之前的研究指出,该滤波器模拟了一个懒惰的随机游走(lazy random walk),最终收敛到平稳向量,从而导致过平滑。

并且本文还证明了 K K K 层GCNII模型可以表示任意系数的 K K K 阶多项式谱滤波器。这个特性对于设计深度神经网络是必不可少的。并且作者还推导了平稳向量的封闭形式,并分析了普通GCN的收敛速度。分析表明,在多层GCN模型中,度比较大的节点更有可能出现过度平滑的现象。

GCNII 模型

我们已知K层GCN在图 G ^ \hat G G^的谱域上模拟了一个系数固定的K阶多项式滤波器 ( ∑ l = 0 K θ l L ^ ) x (\sum _{l=0}^{K}\theta_l\hat L)x (l=0KθlL^)x
)x。而固定的系数限制了多层GCN模型的表达能力,从而导致过度平滑。为了将GCN扩展到深层模型,我们需要使GCN能够表达一个具有任意系数的K阶多项式滤波器。本文证明这可以通过两种简单的技术来实现:初始残差连接和恒等映射。
形式上,我们将GCNII的第1层定义为:
在这里插入图片描述

α l 和 β l \alpha_l和\beta_l αlβl是后续要讨论的两个超参数。
两点改进:
1.将带有初始残差连接的平滑表示 P ^ H ( l ) \hat PH^{(l)} P^Hl)与第一层 H ( 0 ) H^{(0)} H(0)相结合
2.在第l个权重矩阵上面增加了一个恒等映射 I n I_n In

初始残差连接

作者提出与其使用剩余连接来融合来自前一层的信息,不如构建一个与初始表示 H ( 0 ) H^{(0)} H(0)
的连接。初始残差连接确保了即使我们堆叠了许多层,每个节点的最终表示也都至少保留了来自输入层的部分 α l \alpha_l αl输入。可以将初始值设置为0.1,这样每个节点的表示至少包括最初始输入的一部分。

恒等映射

恒等映射同样借鉴于ResNet。在第 l l l 层中,作者在权重 W ( l ) W^{(l)} W(l) 中添加了一个单位矩阵 I n I_n In

  • 和ResNet类似,恒等映射保证了深度模型至少与浅层模型准确率相同。 β l \beta_l βl足够小就可以忽视权重矩阵。
  • 在半监督任务中,特征矩阵的不同维数之间的频繁相互作用会降低模型的性能。
  • 恒等映射在半监督学习非常有效。
  • 加入 β l \beta_l βl控制的权重矩阵和单位矩阵后,可以讲权重矩阵的范数变得很小,防止收敛率过高,减轻信息丢失。
    设置 β l \beta_l βl的目的是保证权重矩阵的衰减岁堆叠的层数增加而自适应增加。

迭代收缩阈值

作者考虑Lasso算法。


参考

https://blog.csdn.net/weixin_44936889/article/details/107880076

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值