Revisiting Oversmoothing in Deep GCNs 重新探究深度GCN中的过度平滑

最新推荐文章于 2023-09-29 15:45:16 发布

JYHuahua

最新推荐文章于 2023-09-29 15:45:16 发布

阅读量1.9k

点赞数 1

文章标签：深度学习算法神经网络

本文链接：https://blog.csdn.net/JYHlong/article/details/107085855

版权

过度平滑被认为是深度图卷积网络（GCN）中性能下降的主要原因。在本文中，我们提出了一种新的观点，即深层GCN可以在训练过程中真正学会抗过度平滑。这项工作将标准GCN体系结构解释为多层感知器（MLP）的分层集成和图正则化。我们分析并得出结论，在训练之前，深层GCN的最终表示确实会过度平滑，但是，它会在训练过程中学习到反过度平滑的功能。根据结论，本文进一步设计了一种便宜而有效的技巧来改善GCN训练。我们验证我们的结论并评估三个引文网络上的技巧，并进一步提供有关GCN中邻域聚集的见解。

引言

本文指出：深度GCN在训练之前确实会出现过度平滑，这也是GCN的特性，但在训练过程中它会学习抗过度平滑。通过两步来重构基于MLP的图正则化模型。每一步最小化一个损失函数，其中 $\iota _{reg}$ 是图正则化损失，表示的是相连节点对之间的平滑性。 $\iota _{0}$ 是经验损失。步骤一隐式地将正则化损失编码为MLP的层级传播，得到GCN结构；步骤二在GCN结构上执行标准的反向传播算法来最小化 $\iota _{0}$
所以GCN能被表示为两步最小化：

在前向传播的过程中编码 $\iota _{reg}$ ，并在 $\iota _{0}$ 的监督下训练参数。
在这里插入图片描述
该图很明显的说明了在前向传播过程中（训练之前），GCN确实会遇到过平滑，因为特征之间的平滑性得分和节点之间的平滑性得分越来越高，说明特征和节点之间趋于一致，由于深层GCN体系结构的影响自然会使 $\iota _{reg}$ 最小，因此逐渐使所有节点表示与拉普拉斯算子的最大特征向量成比例。但是在step2训练过程中GCN会学习阻止过平滑。因为：（1）过平滑的情况取决于 $\left \{ W_{l} \right \}$
（2）step2的目标是找到最优的 $\left \{ W_{l} \right \}$ ，也就是最小化经验损失 $\iota _{0}$
（3）只要过平滑存在，节点间的表达就会变得难以区分，所以最小化 $\iota _{0}$ ，模型必须学习使特征变得可分，也就意味着抗过平滑。

1.1基于图的正则化

图正则化是一种相当通用的图嵌入算法，它被描述为：找到一个映射 $f\left ( \cdot \right )$ ,来最小化下面的损失函数：
在这里插入图片描述
第一项是标签集的经验风险，第二项是相连节点对的图正则化项。
其中：
$\Delta =I-D^{-1/2}AD^{-1/2}$ 是正则化后的拉普拉斯算子， $\iota _{reg}$ 是对相邻节点间引起的变化进行惩罚。

1.2梯度下降来最小化 $\iota _{reg}$

给定拉普拉斯算子 $\Delta\in \mathbb{R}^{n\times n}$ ，特征矩阵 $\Delta\in \mathbb{X}^{n\times d}$ ，为了防止出现平凡解 $X=0\in \mathbb{R}^{n\times d}$ ，加入一个限制条件， $\left | \left | X \right | \right |_{F}^{2}=c_{1}\in \mathbb{R}^{\dotplus }$ ，即 $X$ 的F范数必须为正数，F范数是矩阵各项绝对值平方之和。那么这个最优化问题就变为了：
在这里插入图片描述
我们把这个最优化问题转化成瑞利熵：

瑞利熵： 一个向量 $x\in \mathbb{R}^{m}$ 的瑞利熵是一个标量：

它对 $x$ 具有尺度不变性，即对于任意 $c_{1}\neq 0\in \mathbb{R}$ ,有

最低0.47元/天解锁文章

JYHuahua

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
Revisiting Oversmoothing in Deep GCNs 重新探究深度GCN中的过度平滑

过度平滑被认为是深度图卷积网络（GCN）中性能下降的主要原因。在本文中，我们提出了一种新的观点，即深层GCN可以在训练过程中真正学会抗过度平滑。这项工作将标准GCN体系结构解释为多层感知器（MLP）的分层集成和图正则化。我们分析并得出结论，在训练之前，深层GCN的最终表示确实会过度平滑，但是，它会在训练过程中学习到反过度平滑的功能。根据结论，本文进一步设计了一种便宜而有效的技巧来改善GCN训练。我们验证我们的结论并评估三个引文网络上的技巧，并进一步提供有关GCN中邻域聚集的见解。
复制链接

扫一扫