ICLR 19 ：APPNP + ICML 20 GCNII

Complicated__76

已于 2022-09-20 13:01:43 修改

阅读量968

点赞数 1

分类专栏： GNN-scalable MLP 文章标签：机器学习算法深度学习

于 2022-09-17 15:03:42 首次发布

本文链接：https://blog.csdn.net/qq_40926715/article/details/126903189

版权

GNN-scalable MLP 专栏收录该内容

15 篇文章 3 订阅

订阅专栏

APPNP

在这里插入图片描述
其中 predict 指的是采用 neural network 降维得到 hi。 hi 进行propagate得到zi（通过PageRank）

1. 方法一（PPNP） PageRank计算对于每个节点其他节点的 score，从而一次传播得到结果，这样做的坏处，求解矩阵A的逆很复杂会导致一个n*n的 dense矩阵

在这里插入图片描述

2. 方法二（APPNP）通过幂迭代多次来逼近这个 PPR矩阵，从而使得问题可以解决 APPNP 另外的角度就是 randomwalk with restart。 PR就是通过随机游走来获得其余的节点对于节点的重要性，teleport使得节点下一次的状态都有一定的概率到达自身的状态

在这里插入图片描述

GCNII

layer：传播公式

在这里插入图片描述
对比GCNII的公式和 APPNP 公式4的第二行。可以发现 GCNII就是给APPNP 乘了（1-β）In + βW，同时加上了激活函数，成为了非线性。

根据矩阵乘法分配律，单位矩阵I和参数矩阵W分别和左边相乘。单位矩阵的效果就是 APPNP的Z ， W就是增加了参数量，使得表征在不断的交互。 β足够小的时候，模型就是 APPNP+非线性

Note：作者说 appnp 若采用多次非线性来处理特征矩阵会过拟合，因此采用了线性组合从而推出------- appnp还是一个 shallow的模型。？？？？不加激活函数的非线性就是浅层吗

在这里插入图片描述
公式5 作者说借鉴了 Resnet的思想，给W增加一个I，使得模型至少和浅层版本（appnp）效果一样，同时这个单位矩阵的好处，使得最优的参数矩阵W 有很小的范数，因此避免了过拟合（相当于给W加了正则），同时唯一关键点是全局最优
在这里插入图片描述

对于APPNP和GCNII相似的model来说。 GPRGNN也是APPNP的变分，他是每层的H 采用了不同的系数，其实也可以在GPRGNN上增加这个单位映射非线性

有关GCN过平滑和参数矩阵W的关系，好几篇文章都对于 W进行正则项约束，EGNN那篇通过迪利克雷能量也对W做了约束。下面这篇文章说出 GCN的收敛速率决定于 W的最小奇异值。通过（1-β）I+ βW，两个矩阵相加的范数小于两个矩阵范数的和（三角不等式），因此，使得W的范数 = 整体的范数- 单位矩阵的范数。
在这里插入图片描述
这里就是通过 resnet和这个W+I的范数两个角度为这个简单模型奠定了理论基础。

Code — APPNP (pytorch)

包含ppnp和appnp。ppnp： PPRExact，通过calc_ppr_exact来计算原文公式3. PPRPowerIteration 就是通过幂迭代求解下一层=这一层传播+最初
在这里插入图片描述

Code ---- GCNII

pyG的代码：

在这里插入图片描述

其中 x.mul_(1-self.alpha) 计算出在这里插入图片描述
下面采用 torch.addmm(input,mat1,mat2,beta,alpha) : res = betainput+alpha(mat1mat2)
这里是将左边括号 PH+H0 拆开计算
第一个 torch.addmm 计算了传播后的表征PH 和单位矩阵（没有显式写出来，矩阵单位=自身，因此只有 x*1-beta）相乘，同时加上传播后的表征和参数矩阵weight1 相乘再乘以beta。
第二个 torch.addmm 计算了 H0 和单位矩阵和参数矩阵的结果
在这里插入图片描述
两个整体就是一层的表征

Note 这里有一个 weight2 矩阵。就是如果没有第二个参数矩阵，就对应的原论文公式5. 左边两个表征求和，在和右边的矩阵进行带参数的乘法。 weight2矩阵是对于传播后的表征和原始残差分别学习参数，即：把左边括号拆开。右边W是W1，W2.

默认情况下 shared_weight 默认的是 True，就是一个矩阵，和论文一样
在这里插入图片描述

GCNII Code 作者自己的pytorch版本有太多不同的tricks，看起来挺恶心的，还是PyG的版本最符合论文

重新定义Graphconv ：这里又提出了两种，variant1，2 分别是探究了括号左边两个表征如何结合，采用拼接，或者加法，其中加法版本就是论文的版本，计算出的support 为左边括号整体，但这里r 永远又是加法的版本。左边整体和右边括号里面的两个矩阵相乘拆开，一个和weight相乘一个和单位阵（隐式）
在这里插入图片描述
而且，这里又有一个 residual的参数，来对所融合的表征再加一个x。。。相当于在原有的公式基础上还增加了上一层表征。