ICLR21： EGNN Dirichlet Energy Constrained Learning for Deep Graph Neural Networks

Complicated__76

已于 2022-09-20 13:52:59 修改

阅读量1k

点赞数

分类专栏： GNN-scalable MLP 文章标签：机器学习算法线性代数

于 2022-09-13 16:35:06 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40926715/article/details/126832896

版权

GNN-scalable MLP 专栏收录该内容

15 篇文章

订阅专栏

1. Dirichlet Energy Constrained Learning

1.1 dirichlet energy

归一化拉普拉斯矩阵+ 归一化邻接矩阵
在这里插入图片描述
通过拉普拉斯矩阵和特征矩阵的形式求得节点与节点之间特征的差值：谱图理论书中第一节就有相关的定义，reyleigh 熵和二次型的样子。实质就是拉普拉斯矩阵的性质。

指出：小的迪利克雷能量表明节点很相似，over-smoothing。大的表明 over-separating，有可能相同类别的节点都变得很远。当层数变多，这个能量上界收敛到0.

1.2 松弛分析

首先本文沿着 SGC，去掉了非线性。
lemma1 表明：能量的上下界和拉普拉斯矩阵的特征值有关。同时参数矩阵 Wk的最小和最大奇异值也有一定给关系
在这里插入图片描述
lemma2
先松弛下界。真实的图拉普拉斯矩阵的特征值[0,2) 之间，上界λ0=0时，下界的λ1=1时，lemma1 松弛到lemma2
通过经验表明当采用 glort初始化和l2正则，在深层gcn中 Wk趋近于0，因此相应的奇异值也趋近于0。相反，如果没有l2和初始化，则 smax过大，导致 over-separating。
在这里插入图片描述

1.3 约束

在这里插入图片描述
先通过linear转化最开始的X获得 X0
下界： c min，（0，1）。选择合适的cmin 满足大于0，且k层的E大于最开始X0层的E，即：E(X(k)) ≥ ckminE(X(0)) > 0. （使得所有层的能量都大于cmin，从而不会过平滑）
上界：c max （0，1]。避免相同类有很大的 E，避免过分开

优化目标：
交叉熵+ W的范数约束 + 能量约束条件
在这里插入图片描述
此方程的求解是 non-trivial的，求得X的E是很昂贵的，许多的约束使问题成为一个非常复杂的优化超平面，在其中原始任务目标往往落入局部最优。

2.Energetic GNN

由于上述约束导致问题难以求解，作者通过以下三个方式来满足上述约束，权重，残差，激活

2.1 Orthogonal Weight Controlling

优化目标6 如果不对 W 加正则约束，能量上界会越界大于 E(X0). 采用两种正则

2.1.1 Orthogonal initialization 初始化方式

广泛使用的 glort正则不能约束 W的奇异值，作者采用显示地初始化W成为对角阵，从而控制奇异值，标黄的为约束的等式，即就让每一层的能量小于下届
在这里插入图片描述
第一层 W1 初始化sqrt（cmax）以及后续层（奇异值平方=1）的初始化方式，这样使得每一层都小于 cmaxE（X0）

2.1.2 Orthogonal regularization 训练过程正则

训练过程这些W还是会变，不能够保证满足初始时候的理想约束。这里对于 W1 和后续的W 在进行约束，通过矩阵的F范数，使得训练时候的权重和初始化权重之间的距离不太远。大的γ 约束力强，小的γ 使得损失侧重于task的损失（分类）
在这里插入图片描述

2.2 Lower-bounded Residual Connection

尽管上面约束了上界，但有时候能量会小于下界。 lemma1 的下界，在真实情况下，当λ1=1，会松驰到 lemma2. 这里没怎么解释清楚，为什么会当smin>0 ，也会小于下界。可能是有的图的拉普拉斯矩阵的特征值不在 [0,2) 之间。

本文通过 alpha+beta = cmin 来增加上一层和初始残差来保证下界。
在这里插入图片描述

2.3 SReLU Activation

relu 会使得小于0的值变成0，从而减小了能量（表征间的差值）。如果不加激活函数，比如 SGC，缺少了非线性。本文设计的SReLU在线性和非线性之间，当b无限大，激活函数成为线性。当X小于b，则为非线性映射到b。试验中初始化b为一个负值，通过损失来调节。
在这里插入图片描述

3.code

SReLU的实现：借用了 relu max（0，x）。如果 x-b 大于0，则返回 x-b+b =x 如果 x-b 小于0，返回 0+b ，返回b
在这里插入图片描述

c min 和max的调节，beta，srelu里面的 b 。

代码关于参数矩阵 W的处理：

第一层 W1 初始化为单位矩阵* sqrt（cmax），其余层 cmax=1，，对应文章的第一个 change
在这里插入图片描述

代码关于参数矩阵W 后续通过损失约束：

通过 torch.norm 来计算损失，后续的k-1层每一层计算W权重（model.layers_GCN.weight) 和第0层 standard（sqrt(cmax)）的范数
在这里插入图片描述

传播

在这里插入图片描述

layer中的以下代码等价于上面的公式（计算表征*W)，没有激活

model中增加激活函数层

4.think

对于 W 进行正交约束 2022有个正交GNN，采用两种残差，这个想法很直接，也可以尝试。激活函数也是比较简单实现，可以尝试替换。

文章对W 初始化限制并加上约束也很有理论依据。（奇异值）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。