这篇文章主要指出,在先前的研究中,表明GNN性能随深度加深而下降的主要原因是过平滑。然而,本文作者分析得出,过平滑是一个重要的原因,主要原因是由于训练的困难和过拟合。训练的困难是由于梯度消失引起的,这可以通过引入残差连接来解决,但过拟合是训练深层GCN的主要障碍,他不能通过现有的规范法技巧来解决,同时,深层GCN会遭遇训练不稳定的问题,减缓训练过程。因此,本文提出了一种节点规范化技巧NodeNorm,它是在训练过程中使用节点自身的统计特性来对每个节点做规范化处理,这个方法通过阻止隐藏嵌入的逐特征相关性来规范化深层GCN,同时增加了模型的平滑度,从而有效减小了过拟合。
作者为了说明所提出方法NodeNormd的有效性,主要从以下几个方面进行论述:
1.为什么深层GCN会失败?
作者主要在GCN层中做了几个消融实验来检测GCN性能随深度下降的主要原因。一般的,一个 l l l层的GCN模型是由 l l l个前向传播的图卷积层组成的,被表示为:
H ( l + 1 ) = R e L U ( A ^ H ( l ) W ( l ) ) H^{\left ( l+1 \right )}=ReLU\left ( \hat{A} H^{\left ( l \right )}W^{\left ( l \right )}\right ) H(l+1)=ReLU(A^H(l)W(l)),其中 A ^ = D ~ − 1 / 2 A ~ D ~ − 1 / 2 \hat{A}=\tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2} A^=D~−1/2A~D~−1/2, A ~ = A + I \tilde{A}=A+I A~=A+I
根据该公式,一个GCN层是由两个步骤组成,传播步骤和转换步骤,即: H ˉ ( l ) = A ^ H ( l ) ( p r o p a g a t i o n ) \bar{H}^{\left ( l \right )}=\hat{A}H^{\left ( l \right )}\left ( propagation \right ) Hˉ(l)=A^H(l)(propagation