目录
1. 经典的GCN(Kipf and Welling 2017)
2. Multi-scale Extensions - 使用 multiple-hop信息
3.Initial Residual in GCN - 加上最初节点特征
4.Learning Propagation Weight - 引入注意力机制
同理可以证明,带噪声的GRL框架的解也等价于< Learning Propagation Weight - 引入注意力机制>处的GNN模型。
这一部分详细的介绍作者思路,按照作者思路一步步推理得到:为什么传播的本质其实是成对相似性的数学优化过程!
必要准备
准备(一):线性系统中的梯度下降的介绍
首先,对于对称的正定系统有下面这个公式,A是对称正定的矩阵,u和x是N维向量。这个公式在理工科很常用。一般来讲,我们给出A和x,需要求u。求这个u给出两种方式。
方法一:将方程改为求函数最小值
上面的方程可以改为求,下面这个函数的最小值。使得函数f(u)最小的u就是上面方程的近似解。
对求函数的最小值,我们有很多方法,这边采用梯度下降的方法。因此,求解u的公式如下
对上面这个梯度下降方法进行一定的变形,得到共轭梯度方法——相当于在梯度下降方法的基础上加入了动量。
方法二:直接求方程的解
Ax=b方程的解就是 x = A逆*b。所以只要能求出来A逆,方程就能直接求出来。
下面谈谈如何求A逆。
首先,先把A的特征多项式表示为下面这种形式,s表示特征值,I是单位矩阵:
根据凯莱-哈密顿定理——矩阵论知识点,可以把A代入上面这个特征多项式得到方程如下:
上面这个式子,通过移项,同乘A逆,并同除αN就能得到,A的逆矩阵
上面这个(I-A)的逆矩阵,思路与求A的逆矩阵一样,只要把上面的A替换为(I-A)就行,(I-A)的次方可以展开,化成A的次方。
将求得的A逆,代入 x = A逆b,那么对于方程Au=x,就能得到求u的公式:
准备(二):各种GNN模型的介绍
各种模型都只是粗略介绍一下。
1. 经典的GCN(Kipf and Welling 2017)
这个是最经典的GNN模型,做GNN的没人不知道,不多介绍。想知道这个GCN的来龙去脉请参考里面基于谱的GNN。
2. Multi-scale Extensions - 使用 multiple-hop信息
SGC (Wu et al. 2019) 简化GCN,去掉了非线性函数(为什么能去掉呢,估计得看这篇论文)。这个里面用了A的L次方矩阵来表示多跳的信息。离散数学图论部分提过,如果A是邻接矩阵,那么A的平方就表示路径长度为2的邻接,A的L次方就表示路径长L的邻接。
N-GCN (Abu-ElHaija et al. 2019a) and MixHop (Abu-El-Haija et al. 2019b)选择将多跳信息连接起来。
LanczosNet (Liao et al. 2019) and Krylov GCN (Luan et al. 2019)选择对多跳信息求和
准备试试这个地方可不可以参考强化学习的累计收益计算方式。
3.Initial Residual in GCN - 加上最初节点特征
GCNII(Chen et al. 2020)在GCN模型的基础上,每一层都带了最初的节点特征X。
从这个公式可以看出来,迭代后的节点包含三部分信息,节点本身信息+节点邻居信息+最初节点特征信息。加入节点最初的特征信息可以防止over smoothing。
4.Learning Propagation Weight - 引入注意力机制
之前的那些GNN模型,在聚集邻居节点的信息时,每个邻居节点的贡献度是相同的。引入注意力机制就是在聚集邻居节点信息时,重要的邻居节点占比更高。
目前的注意力机制都是考虑局部,是不是可以考虑全局注意力机制呢??
Graph Attention Network (GAT) (Velickovic et al. 2018), Gated AttentionNetwork (GaAN) (Zhang et al. 2018) and Probabilistic GCN(Yang et al. 2020)。这些网络的框架都是相似的,先计算节点之间的相似性,各个模型的相似性计算方式如下:
然后利用softmax函数,将节点之间的相似性转换为注意力。
提出GRL框架
这个框架是这篇文章的核心创新点,这个框架真的很妙!!这个框架可以看作有两个版本,正常版本和带噪声处理版本。
框架综述
给定一个图G(V,E,X)——(点,边,特征),我们用GNN去获得节点表示U。
这个节点表示,会有两重限制。(1)一元限制:得到的节点表示U应该与原始节点特征X相似。(2)成对限制:在一元限制的基础上,连接的节点应该获得相似的节点表示。
将这个成对的限制,表示函数的形式,那么这个目标函数为:
这个公式是这篇文章的核心。其中sim表示相似性,dis表示距离函数,Oij表示i和j两个节点的相似性。
为了简化,可以用欧氏距离来来作为相似性度量,那么公式可以化为:
??上面公式的第二部分可以被看作是图正则化??
有时内积也可以用来计算相似性,那么公式可以化为:
节点表示u可以化为矩阵形式,那么上面两个公式也可以相应的化为矩阵形式。并且求极值,可以取梯度为零(求导),那么上面两种公式,就可以化为下面右边这种形式。也就是说,右边矩阵方程求得的U,就是左边目标函数的解。
对上面矩阵形式的公式解释一下,看不懂没关系。只要记住,M和(I+M)都是对称正定矩阵,那么显而易见,这个矩阵方程可以用< 准备(一):线性系统中的梯度下降的介绍> 部分的理论来计算这个矩阵的解!!!!
带噪声的GRL框架(没太看明白具体的意思)
对于上一小节提到的成对限制:在一元限制的基础上,连接的节点应该获得相似的节点表示。这一部分的限制,当有噪声连接(本来没有,出错了他有了)时,这个连接的节点,它不应该获得相似的节点表示。在实际中,数据带有噪声是不可避免的,那么我们得优化GRL框架,使得它能够有能力处理这个噪声连接。
ρ(·) 是一个惩罚函数,去修正噪声连接。使用一个辅助变量 l ij来代替这个惩罚函数,那么上面的公式可以化为
ψ(l ij )用来惩罚噪声连接边(i,j)。因此 ψ(l ij ) 的值,在边被保留时趋向于0。当边被修正时趋向于1。
根据 (Shah and Koltun 2017),一个著名的Geman-McClure估计器中,这个惩罚函数 ρ(·)被表示为, µ 为超参数。这个ρ(·)可以等价为取 ψ(l ij )为。
在下面公式中,有两个变量U和L,这个公式是双凸函数。在固定L时,可以最小化C(U,L),求得U。那么在固定U时可以最小化C(U,L)得到L的值。
然后就可以得到L的值为
根据GRL框架推理得到GNNs
根据 SGC (Wu et al. 2019),权重矩阵在连续的层中会塌陷and 非线性函数可以去掉(不知道为什么可以)。所以这篇文章在下面推理的时候,去掉权重矩阵和非线性函数。
结论1:
<Initial Residual in GCN - 加上最初节点特征>,这部分的GNN模型,就相当于GRL的解——当取时。
推理证明:
前面我们得到了GRL框架的解可以化为下面这种矩阵模式。
这里我们使用UM=X,这个矩阵形式。根据<准备(一)>中的<方法一:将方程改为求函数最小值>,提出的求解矩阵的公式,我们可以得到
再把,M = D0-O 代入上面的公式,此时取D0 = I(单位矩阵)
得到求解U的迭代公式
那么我们此时,把这个利用GRL框架,利用矩阵求解公式,得到的迭代公式与 <Initial Residual in GCN - 加上最初节点特征>中GCN模型的节点表示迭代公式对比(去掉权重矩阵和非线性函数)
你就会发现,这两者是等价的!!!
推论: 上面的推导也能反过来证明,对GCN而言,增加这个初始节点特征X是有必要的。因为有这个X,GCN才会更加近似于GRL的解。也就说明了,为什么GCNⅡ比GCN表现更好!
结论2:
<Multi-scale Extensions - 使用 multiple-hop信息> 处的GNN模型,等价于GRL的解——当
推理证明:
< 准备(一)>中的< 方法二:直接求方程的解 >处推导得到
对矩阵方程 UM=X, 得U =X,已知M = D0 - O。 取D0=I(单位矩阵),
代入 O =
就可以得到
对比SGC (Wu et al. 2019)
你会发现,GRL的近似解等价于SGC模型!!
同理可以证明,带噪声的GRL框架的解也等价于< Learning Propagation Weight - 引入注意力机制>处的GNN模型。
结论
结论1和结论2证明GNNs等价于提出的图表示学习框架的优化步骤(梯度下降步骤或高阶逼近步骤)。也就是说,它们是由成对相似要求的数值优化引入的。因此,决定如何传播的成对相似约束是GNN的关键。
THE END!