Why Do Attributes Propagate in Graph Convolutional Neural Networks? —— 传播本质

目录

必要准备

准备(一):线性系统中的梯度下降的介绍

方法一:将方程改为求函数最小值

方法二:直接求方程的解

准备(二):各种GNN模型的介绍

1.  经典的GCN(Kipf and Welling 2017)

2. Multi-scale Extensions - 使用 multiple-hop信息

准备试试这个地方可不可以参考强化学习的累计收益计算方式。

 3.Initial Residual in GCN - 加上最初节点特征

4.Learning Propagation Weight  -  引入注意力机制

提出GRL框架

框架综述

带噪声的GRL框架(没太看明白具体的意思)

根据GRL框架推理得到GNNs

结论1:

推理证明:

结论2:

推理证明:

同理可以证明,带噪声的GRL框架的解也等价于< Learning Propagation Weight  -  引入注意力机制>处的GNN模型。

结论


这一部分详细的介绍作者思路,按照作者思路一步步推理得到:为什么传播的本质其实是成对相似性的数学优化过程!

必要准备

准备(一):线性系统中的梯度下降的介绍

首先,对于对称的正定系统有下面这个公式,A是对称正定的矩阵,u和x是N维向量。这个公式在理工科很常用。一般来讲,我们给出A和x,需要求u。求这个u给出两种方式。

方法一:将方程改为求函数最小值

上面的方程可以改为求,下面这个函数的最小值。使得函数f(u)最小的u就是上面方程的近似解。

 对求函数的最小值,我们有很多方法,这边采用梯度下降的方法。因此,求解u的公式如下

对上面这个梯度下降方法进行一定的变形,得到共轭梯度方法——相当于在梯度下降方法的基础上加入了动量。

方法二:直接求方程的解

 Ax=b方程的解就是 x = A逆*b。所以只要能求出来A逆,方程就能直接求出来。

下面谈谈如何求A逆

首先,先把A的特征多项式表示为下面这种形式,s表示特征值,I是单位矩阵:

 根据凯莱-哈密顿定理——矩阵论知识点,可以把A代入上面这个特征多项式得到方程如下:

 上面这个式子,通过移项,同乘A逆,并同除αN就能得到,A的逆矩阵

 上面这个(I-A)的逆矩阵,思路与求A的逆矩阵一样,只要把上面的A替换为(I-A)就行,(I-A)的次方可以展开,化成A的次方。

将求得的A逆,代入 x = A逆b,那么对于方程Au=x,就能得到求u的公式:

准备(二):各种GNN模型的介绍

各种模型都只是粗略介绍一下。

1.  经典的GCN(Kipf and Welling 2017)

 这个是最经典的GNN模型,做GNN的没人不知道,不多介绍。想知道这个GCN的来龙去脉请参考里面基于谱的GNN。

基于空间的图卷积网络和基于谱的图卷积网络(spectral-based GCN and spatial-based GCN)_山、、、的博客-CSDN博客_基于谱的图卷积网络基于空间的图卷积网络和基于谱的图卷积网络(spectral-based GCN and spatial-based GCN)的介绍https://blog.csdn.net/qq_44689178/article/details/123396737

2. Multi-scale Extensions - 使用 multiple-hop信息

SGC (Wu et al. 2019) 简化GCN,去掉了非线性函数(为什么能去掉呢,估计得看这篇论文)。这个里面用了A的L次方矩阵来表示多跳的信息。离散数学图论部分提过,如果A是邻接矩阵,那么A的平方就表示路径长度为2的邻接,A的L次方就表示路径长L的邻接。

 N-GCN (Abu-ElHaija et al. 2019a) and MixHop (Abu-El-Haija et al. 2019b)选择将多跳信息连接起来。

 LanczosNet (Liao et al. 2019) and Krylov GCN (Luan et al. 2019)选择对多跳信息求和

准备试试这个地方可不可以参考强化学习的累计收益计算方式。

 3.Initial Residual in GCN - 加上最初节点特征

GCNII(Chen et al. 2020)在GCN模型的基础上,每一层都带了最初的节点特征X。

 从这个公式可以看出来,迭代后的节点包含三部分信息,节点本身信息+节点邻居信息+最初节点特征信息。加入节点最初的特征信息可以防止over smoothing。

4.Learning Propagation Weight  -  引入注意力机制

        

之前的那些GNN模型,在聚集邻居节点的信息时,每个邻居节点的贡献度是相同的。引入注意力机制就是在聚集邻居节点信息时,重要的邻居节点占比更高。

目前的注意力机制都是考虑局部,是不是可以考虑全局注意力机制呢??

 Graph Attention Network (GAT) (Velickovic et al. 2018), Gated AttentionNetwork (GaAN) (Zhang et al. 2018) and Probabilistic GCN(Yang et al. 2020)。这些网络的框架都是相似的,先计算节点之间的相似性,各个模型的相似性计算方式如下:

然后利用softmax函数,将节点之间的相似性转换为注意力。

提出GRL框架

这个框架是这篇文章的核心创新点,这个框架真的很妙!!这个框架可以看作有两个版本,正常版本和带噪声处理版本。

框架综述

给定一个图G(V,E,X)——(点,边,特征),我们用GNN去获得节点表示U。

这个节点表示,会有两重限制。(1)一元限制:得到的节点表示U应该与原始节点特征X相似。(2)成对限制:在一元限制的基础上,连接的节点应该获得相似的节点表示。

将这个成对的限制,表示函数的形式,那么这个目标函数为

 这个公式是这篇文章的核心。其中sim表示相似性,dis表示距离函数,Oij表示i和j两个节点的相似性。

为了简化,可以用欧氏距离来来作为相似性度量,那么公式可以化为:

 ??上面公式的第二部分可以被看作是图正则化??

有时内积也可以用来计算相似性,那么公式可以化为:

 节点表示u可以化为矩阵形式,那么上面两个公式也可以相应的化为矩阵形式。并且求极值,可以取梯度为零(求导),那么上面两种公式,就可以化为下面右边这种形式。也就是说,右边矩阵方程求得的U,就是左边目标函数的解。

对上面矩阵形式的公式解释一下,看不懂没关系。只要记住,M和(I+M)都是对称正定矩阵,那么显而易见,这个矩阵方程可以用< 准备(一):线性系统中的梯度下降的介绍> 部分的理论来计算这个矩阵的解!!!!

 

带噪声的GRL框架(没太看明白具体的意思)

对于上一小节提到的成对限制:在一元限制的基础上,连接的节点应该获得相似的节点表示。这一部分的限制,当有噪声连接(本来没有,出错了他有了)时,这个连接的节点,它不应该获得相似的节点表示。在实际中,数据带有噪声是不可避免的,那么我们得优化GRL框架,使得它能够有能力处理这个噪声连接。

  ρ(·) 是一个惩罚函数,去修正噪声连接。使用一个辅助变量 l ij来代替这个惩罚函数,那么上面的公式可以化为

 ψ(l ij )用来惩罚噪声连接边(i,j)。因此 ψ(l ij ) 的值,在边被保留时趋向于0。当边被修正时趋向于1。

根据 (Shah and Koltun 2017),一个著名的Geman-McClure估计器中,这个惩罚函数  ρ(·)被表示为, µ 为超参数。这个ρ(·)可以等价为取 ψ(l ij )为

在下面公式中,有两个变量U和L,这个公式是双凸函数。在固定L时,可以最小化C(U,L),求得U。那么在固定U时可以最小化C(U,L)得到L的值。

 然后就可以得到L的值为

根据GRL框架推理得到GNNs

根据 SGC (Wu et al. 2019),权重矩阵在连续的层中会塌陷and 非线性函数可以去掉(不知道为什么可以)。所以这篇文章在下面推理的时候,去掉权重矩阵和非线性函数

结论1:

<Initial Residual in GCN - 加上最初节点特征>,这部分的GNN模型,就相当于GRL的解——当取时。

推理证明:

前面我们得到了GRL框架的解可以化为下面这种矩阵模式。

 

这里我们使用UM=X,这个矩阵形式。根据<准备(一)>中的<方法一:将方程改为求函数最小值>,提出的求解矩阵的公式,我们可以得到

 再把M = D0-O 代入上面的公式,此时取D0 = I(单位矩阵)

得到求解U的迭代公式

 那么我们此时,把这个利用GRL框架,利用矩阵求解公式,得到的迭代公式与 <Initial Residual in GCN - 加上最初节点特征>中GCN模型的节点表示迭代公式对比(去掉权重矩阵和非线性函数)

你就会发现,这两者是等价的!!!

推论: 上面的推导也能反过来证明,对GCN而言,增加这个初始节点特征X是有必要的。因为有这个X,GCN才会更加近似于GRL的解。也就说明了,为什么GCNⅡ比GCN表现更好!

结论2:

<Multi-scale Extensions - 使用 multiple-hop信息> 处的GNN模型,等价于GRL的解——当

推理证明:

准备(一)>中的< 方法二:直接求方程的解 >处推导得到

 对矩阵方程 UM=X, 得U =X\small M^{-1},已知M = D0 - O。 取D0=I(单位矩阵),

代入 O  =  

就可以得到

 对比SGC (Wu et al. 2019)

 你会发现,GRL的近似解等价于SGC模型!!

同理可以证明,带噪声的GRL框架的解也等价于< Learning Propagation Weight  -  引入注意力机制>处的GNN模型。

结论

结论1和结论2证明GNNs等价于提出的图表示学习框架的优化步骤(梯度下降步骤或高阶逼近步骤)。也就是说,它们是由成对相似要求的数值优化引入的。因此,决定如何传播的成对相似约束是GNN的关键。

THE END!

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值