Why Do Attributes Propagate in Graph Convolutional Neural Networks？ —— 传播本质

山、、、

已于 2022-05-07 19:57:11 修改

阅读量306

点赞数 1

分类专栏：论文文章标签：神经网络人工智能

于 2022-03-21 16:20:35 首次发布

本文链接：https://blog.csdn.net/qq_44689178/article/details/123610130

版权

论文专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1. 经典的GCN（Kipf and Welling 2017）

2. Multi-scale Extensions - 使用 multiple-hop信息

准备试试这个地方可不可以参考强化学习的累计收益计算方式。

3.Initial Residual in GCN - 加上最初节点特征

4.Learning Propagation Weight - 引入注意力机制

提出GRL框架

框架综述

带噪声的GRL框架（没太看明白具体的意思）

同理可以证明，带噪声的GRL框架的解也等价于< Learning Propagation Weight - 引入注意力机制>处的GNN模型。

结论

这一部分详细的介绍作者思路，按照作者思路一步步推理得到：为什么传播的本质其实是成对相似性的数学优化过程！

必要准备

准备（一）：线性系统中的梯度下降的介绍

首先，对于对称的正定系统有下面这个公式，A是对称正定的矩阵，u和x是N维向量。这个公式在理工科很常用。一般来讲，我们给出A和x，需要求u。求这个u给出两种方式。

方法一:将方程改为求函数最小值

上面的方程可以改为求，下面这个函数的最小值。使得函数f（u）最小的u就是上面方程的近似解。

对求函数的最小值，我们有很多方法，这边采用梯度下降的方法。因此，求解u的公式如下

对上面这个梯度下降方法进行一定的变形，得到共轭梯度方法——相当于在梯度下降方法的基础上加入了动量。

方法二：直接求方程的解

Ax=b方程的解就是 x = A逆*b。所以只要能求出来A逆，方程就能直接求出来。

下面谈谈如何求A逆。

首先，先把A的特征多项式表示为下面这种形式，s表示特征值，I是单位矩阵：

根据凯莱-哈密顿定理——矩阵论知识点，可以把A代入上面这个特征多项式得到方程如下：

上面这个式子，通过移项，同乘A逆，并同除αN就能得到，A的逆矩阵

上面这个（I-A）的逆矩阵，思路与求A的逆矩阵一样，只要把上面的A替换为（I-A）就行，（I-A）的次方可以展开，化成A的次方。

将求得的A逆，代入 x = A逆b，那么对于方程Au=x，就能得到求u的公式：

准备（二）：各种GNN模型的介绍

各种模型都只是粗略介绍一下。

1. 经典的GCN（Kipf and Welling 2017）

这个是最经典的GNN模型，做GNN的没人不知道，不多介绍。想知道这个GCN的来龙去脉请参考里面基于谱的GNN。

基于空间的图卷积网络和基于谱的图卷积网络（spectral-based GCN and spatial-based GCN)_山、、、的博客-CSDN博客_基于谱的图卷积网络基于空间的图卷积网络和基于谱的图卷积网络（spectral-based GCN and spatial-based GCN)的介绍https://blog.csdn.net/qq_44689178/article/details/123396737

2. Multi-scale Extensions - 使用 multiple-hop信息

SGC (Wu et al. 2019) 简化GCN，去掉了非线性函数（为什么能去掉呢，估计得看这篇论文）。这个里面用了A的L次方矩阵来表示多跳的信息。离散数学图论部分提过，如果A是邻接矩阵，那么A的平方就表示路径长度为2的邻接，A的L次方就表示路径长L的邻接。

N-GCN (Abu-ElHaija et al. 2019a) and MixHop (Abu-El-Haija et al. 2019b)选择将多跳信息连接起来。

LanczosNet (Liao et al. 2019) and Krylov GCN (Luan et al. 2019)选择对多跳信息求和

准备试试这个地方可不可以参考强化学习的累计收益计算方式。

3.Initial Residual in GCN - 加上最初节点特征

GCNII(Chen et al. 2020)在GCN模型的基础上，每一层都带了最初的节点特征X。

从这个公式可以看出来，迭代后的节点包含三部分信息，节点本身信息+节点邻居信息+最初节点特征信息。加入节点最初的特征信息可以防止over smoothing。

4.Learning Propagation Weight - 引入注意力机制

之前的那些GNN模型，在聚集邻居节点的信息时，每个邻居节点的贡献度是相同的。引入注意力机制就是在聚集邻居节点信息时，重要的邻居节点占比更高。

目前的注意力机制都是考虑局部，是不是可以考虑全局注意力机制呢？？

Graph Attention Network (GAT) (Velickovic et al. 2018), Gated AttentionNetwork (GaAN) (Zhang et al. 2018) and Probabilistic GCN(Yang et al. 2020)。这些网络的框架都是相似的，先计算节点之间的相似性，各个模型的相似性计算方式如下：

然后利用softmax函数，将节点之间的相似性转换为注意力。

提出GRL框架

这个框架是这篇文章的核心创新点，这个框架真的很妙!!这个框架可以看作有两个版本，正常版本和带噪声处理版本。

框架综述

给定一个图G(V,E,X）——（点，边，特征），我们用GNN去获得节点表示U。

这个节点表示，会有两重限制。（1）一元限制：得到的节点表示U应该与原始节点特征X相似。（2）成对限制：在一元限制的基础上，连接的节点应该获得相似的节点表示。

将这个成对的限制，表示函数的形式，那么这个目标函数为：

这个公式是这篇文章的核心。其中sim表示相似性，dis表示距离函数，Oij表示i和j两个节点的相似性。

为了简化，可以用欧氏距离来来作为相似性度量，那么公式可以化为：

？？上面公式的第二部分可以被看作是图正则化？？

有时内积也可以用来计算相似性，那么公式可以化为：

节点表示u可以化为矩阵形式，那么上面两个公式也可以相应的化为矩阵形式。并且求极值，可以取梯度为零（求导），那么上面两种公式，就可以化为下面右边这种形式。也就是说，右边矩阵方程求得的U,就是左边目标函数的解。

对上面矩阵形式的公式解释一下，看不懂没关系。只要记住，M和（I+M)都是对称正定矩阵，那么显而易见，这个矩阵方程可以用< 准备（一）：线性系统中的梯度下降的介绍> 部分的理论来计算这个矩阵的解！！！！

带噪声的GRL框架（没太看明白具体的意思）

对于上一小节提到的成对限制：在一元限制的基础上，连接的节点应该获得相似的节点表示。这一部分的限制，当有噪声连接（本来没有，出错了他有了）时，这个连接的节点，它不应该获得相似的节点表示。在实际中，数据带有噪声是不可避免的，那么我们得优化GRL框架，使得它能够有能力处理这个噪声连接。

ρ(·) 是一个惩罚函数，去修正噪声连接。使用一个辅助变量 l ij来代替这个惩罚函数，那么上面的公式可以化为

ψ(l ij )用来惩罚噪声连接边（i，j）。因此 ψ(l ij ) 的值，在边被保留时趋向于0。当边被修正时趋向于1。

根据 (Shah and Koltun 2017)，一个著名的Geman-McClure估计器中，这个惩罚函数 ρ(·)被表示为， µ 为超参数。这个ρ(·)可以等价为取 ψ(l ij )为。

在下面公式中，有两个变量U和L，这个公式是双凸函数。在固定L时，可以最小化C(U,L),求得U。那么在固定U时可以最小化C(U,L)得到L的值。

然后就可以得到L的值为

根据GRL框架推理得到GNNs

根据 SGC (Wu et al. 2019)，权重矩阵在连续的层中会塌陷and 非线性函数可以去掉（不知道为什么可以）。所以这篇文章在下面推理的时候，去掉权重矩阵和非线性函数。

结论1：

<Initial Residual in GCN - 加上最初节点特征>，这部分的GNN模型，就相当于GRL的解——当取时。

推理证明：

前面我们得到了GRL框架的解可以化为下面这种矩阵模式。

这里我们使用UM=X，这个矩阵形式。根据<准备（一）>中的<方法一:将方程改为求函数最小值>，提出的求解矩阵的公式，我们可以得到

再把，M = D0-O 代入上面的公式，此时取D0 = I（单位矩阵）

得到求解U的迭代公式

那么我们此时，把这个利用GRL框架，利用矩阵求解公式，得到的迭代公式与 <Initial Residual in GCN - 加上最初节点特征>中GCN模型的节点表示迭代公式对比（去掉权重矩阵和非线性函数）

你就会发现，这两者是等价的！！！

推论：上面的推导也能反过来证明，对GCN而言，增加这个初始节点特征X是有必要的。因为有这个X，GCN才会更加近似于GRL的解。也就说明了，为什么GCNⅡ比GCN表现更好！

结论2：

<Multi-scale Extensions - 使用 multiple-hop信息> 处的GNN模型，等价于GRL的解——当

推理证明：

< 准备（一）>中的< 方法二：直接求方程的解 >处推导得到

对矩阵方程 UM=X, 得U =X $\small M^{-1}$ ，已知M = D0 - O。取D0=I(单位矩阵)，

代入 O =

就可以得到

对比SGC (Wu et al. 2019)

你会发现，GRL的近似解等价于SGC模型！！

同理可以证明，带噪声的GRL框架的解也等价于< Learning Propagation Weight - 引入注意力机制>处的GNN模型。

结论

结论1和结论2证明GNNs等价于提出的图表示学习框架的优化步骤(梯度下降步骤或高阶逼近步骤)。也就是说，它们是由成对相似要求的数值优化引入的。因此，决定如何传播的成对相似约束是GNN的关键。

THE END!

山、、、

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Why Do Attributes Propagate in Graph Convolutional Neural Networks？ —— 传播本质

这一部分详细的介绍作者思路，按照作者思路一步步推理得到：为什么传播的本质其实是成对相似性的数学优化过程！必要准备准备（一）：线性系统中的梯度下降的介绍首先，对于对称的正定系统有下面这个公式，A是对称正定的矩阵，u和x是N维向量。这个公式在理工科很常用。一般来讲，我们给出A和x，需要求u。求这个u给出两种方式。方法一:将方程改为求函数最小值上面的方程可以改为求，下面这个函数的最小值。使得函数f（u）最小的u就是上面方程的近似解。对求函数的最小值，我们有...
复制链接

扫一扫

专栏目录