过度平滑被认为是深度图卷积网络(GCN)中性能下降的主要原因。 在本文中,我们提出了一种新的观点,即深层GCN可以在训练过程中真正学会抗过度平滑。 这项工作将标准GCN体系结构解释为多层感知器(MLP)的分层集成和图正则化。 我们分析并得出结论,在训练之前,深层GCN的最终表示确实会过度平滑,但是,它会在训练过程中学习到反过度平滑的功能。 根据结论,本文进一步设计了一种便宜而有效的技巧来改善GCN训练。 我们验证我们的结论并评估三个引文网络上的技巧,并进一步提供有关GCN中邻域聚集的见解。
引言
本文指出:深度GCN在训练之前确实会出现过度平滑,这也是GCN的特性,但在训练过程中它会学习抗过度平滑。通过两步来重构基于MLP的图正则化模型。每一步最小化一个损失函数,其中 ι r e g \iota _{reg} ιreg是图正则化损失,表示的是相连节点对之间的平滑性。 ι 0 \iota _{0} ι0是经验损失。步骤一隐式地将正则化损失编码为MLP的层级传播,得到GCN结构;步骤二在GCN结构上执行标准的反向传播算法来最小化 ι 0 \iota _{0} ι0
所以GCN能被表示为两步最小化:
在前向传播的过程中编码 ι r e g \iota _{reg} ιreg,并在 ι 0 \iota _{0} ι0的监督下训练参数。
该图很明显的说明了在前向传播过程中(训练之前),GCN确实会遇到过平滑,因为特征之间的平滑性得分和节点之间的平滑性得分越来越高,说明特征和节点之间趋于一致,由于深层GCN体系结构的影响自然会使 ι r e g \iota _{reg} ιreg最小,因此逐渐使所有节点表示与拉普拉斯算子的最大特征向量成比例。但是在step2训练过程中GCN会学习阻止过平滑。因为:(1)过平滑的情况取决于 { W l } \left \{ W_{l} \right \} {
Wl}
(2)step2的目标是找到最优的 { W l } \left \{ W_{l} \right \} {
Wl},也就是最小化经验损失 ι 0 \iota _{0} ι0
(3)只要过平滑存在,节点间的表达就会变得难以区分,所以最小化 ι 0 \iota _{0} ι0,模型必须学习使特征变得可分,也就意味着抗过平滑。
1.1基于图的正则化
图正则化是一种相当通用的图嵌入算法,它被描述为:找到一个映射 f ( ⋅ ) f\left ( \cdot \right ) f(⋅),来最小化下面的损失函数:
第一项是标签集的经验风险,第二项是相连节点对的图正则化项。
其中:
Δ = I − D − 1 / 2 A D − 1 / 2 \Delta =I-D^{-1/2}AD^{-1/2} Δ=I−D−1/2AD−1/2是正则化后的拉普拉斯算子, ι r e g \iota _{reg} ιreg是对相邻节点间引起的变化进行惩罚。
1.2梯度下降来最小化 ι r e g \iota _{reg} ιreg
给定拉普拉斯算子 Δ ∈ R n × n \Delta\in \mathbb{R}^{n\times n} Δ∈Rn×n ,特征矩阵 Δ ∈ X n × d \Delta\in \mathbb{X}^{n\times d} Δ∈Xn×d ,为了防止出现平凡解 X = 0 ∈ R n × d X=0\in \mathbb{R}^{n\times d} X=0∈Rn×d,加入一个限制条件, ∣ ∣ X ∣ ∣ F 2 = c 1 ∈ R ∔ \left | \left | X \right | \right |_{F}^{2}=c_{1}\in \mathbb{R}^{\dotplus } ∣∣X∣∣F2=c1∈R∔,即 X X X的F范数必须为正数,F范数是矩阵各项绝对值平方之和。那么这个最优化问题就变为了:
我们把这个最优化问题转化成瑞利熵:
瑞利熵: 一个向量 x ∈ R m x\in \mathbb{R}^{m} x∈Rm的瑞利熵是一个标量:
它对 x x x具有尺度不变性,即对于任意 c 1 ≠ 0 ∈ R c_{1}\neq 0\in \mathbb{R} c1=0∈R,有 R ( x