Elastic Graph neural network

Starry memory

已于 2025-01-15 11:01:32 修改

阅读量398

点赞数

分类专栏：人工智能文章标签：机器学习深度学习矩阵

于 2022-05-07 10:51:41 首次发布

本文链接：https://blog.csdn.net/doswynkfsw/article/details/120315159

版权

人工智能专栏收录该内容

41 篇文章

订阅专栏

文章来源

Liu X, Jin W, Ma Y, et al. Elastic graph neural networks[C]//International Conference on Machine Learning. PMLR, 2021: 6837-6849.

摘要

虽然许多现有的图神经网络（GNN）已被证明可以执行“基于2的图平滑”，在全局范围内强制平滑，但在这项工作中，我们的目标是通过“基于1的图平滑来进一步增强GNN的局部平滑自适应性。因此，我们引入了一个基于“1”和“2”图平滑的GNN家族（弹性GNN）。特别是，我们提出了一种新颖而通用的GNN消息传递方案。这种消息传递算法不仅对反向传播训练友好，而且在理论收敛保证的情况下实现了所需的平滑特性。在半监督学习任务上的实验表明，所提出的弹性GNN在基准数据集上具有更好的自适应性，并且对图形对抗攻击具有显著的鲁棒性。Elastic GNN的实现可以在https://github/lxiaorui/ElasticGNN上找到。

介绍

图神经网络（GNN）将传统的深度神经网络（DNN）从图像、视频和文本等规则网格推广到社交网络、交通网络和生物网络等不规则数据，这些数据通常表示为图（Defferrard等人，2016；Kipf&Welling，2016）。一个流行的泛化是神经消息传递框架（Gilmer等人，2017）：
在这里插入图片描述
最近的研究（Ma等人，2020）证明，许多流行的GNN（如GCN、GAT、PPNP和APPNP）中的消息传递方案本质上对图信号执行基于2的图平滑，可以认为它们解决了图信号去噪问题：

其中Xin 2 Rnd是输入信号，L 2 Rn n是编码图结构的图拉普拉斯矩阵。第一项引导F接近输入信号Xin，而第二项强制滤波信号F的全局平滑性。得到的消息传递方案可以由不同的优化求解器得出，它们通常需要聚合来自相邻节点的节点特征，这直观地与相邻节点应相似的集群或一致性假设相吻合（Zhu&Ghahramani；Zhou等人，2004）。虽然现有的GNN主要由“基于2的图平滑”驱动，但基于2的方法在全局范围内强制平滑，平滑程度通常在整个图中共享。然而，图形不同区域的平滑度可能不同。例如，节点特征或标签可以在集群之间发生显著变化，但在集群内可以平稳变化（Zhu，2005）。因此，希望
增强GNN的局部平滑自适应性。

相关工作

由于其高度的实用价值，可以观察到人们对这个问题的研究兴趣日益浓厚，并且已经提出了许多基于会话的推荐建议。基于马尔可夫链，一些工作（Shani、Brafman和Heckerman 2002；Rendle、Freudenthaler和Schmidt-Thieme 2010）基于前一个行为预测了用户的下一个行为。在强独立性假设下，过去分量的独立组合限制了预测精度。

弹性图神经网络

弹性消息传递

对于基于2的图平滑器，消息传递方案可以从图信号去噪问题的梯度下降迭代中推导出来，就像GCN和APPNP的情况一样（Ma等人，2020）。然而，由于非光滑性，计算由（7）和（8）定义的估计器更具挑战性，并且这两个分量，即f（f）和g（_{f），是不可分的，因为它们是由图差算子}耦合的。在文献中，研究人员开发了用于图趋势滤波问题的优化算法（4），如交替方向乘子法（ADMM）和牛顿型算法（Wang等人，2016；Varma等人，2019）。然而，这些算法需要在每次迭代中解决一个非平凡子问题的最小化，这导致了很高的计算复杂度。此外，尚不清楚如何使这些迭代与深度学习模型的反向传播训练兼容。这促使我们设计一种不仅高效而且对反向传播训练友好的算法。为此，我们建议使用具有高效计算的原始对偶算法来解决等效鞍点问题。

弹性图神经网络 (Elastic GNN) 被提出\upcite{17}，一般的图拉普拉斯被定义 ${\bf{L}} = {\bf{D}} - {\bf{A}}$ , ${\bf{A}}$ 表示邻接矩阵， ${\bf{D}}$ 表示为度矩阵。除此以外 ${\bf{\tilde L}} = {\bf{I}} - {\bf{\tilde A}}$ ， ${\bf{\tilde A}} = {{\bf{\hat D}}^{^{ - \frac{1}{2}}}}{\bf{\hat A}}{{\bf{\hat D}}^{^{ - \frac{1}{2}}}}$ ， ${\bf{\hat A}} = {\bf{A}} + {\bf{I}}$ ， ${\bf{I}}$ 表示单位矩阵， ${{\bf{\hat D}}_{ii}} = \sum\nolimits_j {{{{\bf{\hat A}}}_{ij}}}$ 。在Elastic GNN中表示一个关联矩阵为 ${\bf{\Delta }}$ ， ${\bf{\Delta }} \in {\{ - 1,0,1\} ^{M \times N}}$ ， $M$ 表示边的数量， $N$ 表示节点的数量。没有通过归一化的图拉普拉斯矩阵和关联矩阵具有相同点，所以 ${\bf{L}} = {{\bf{\Delta }}^{\rm{T}}}{\bf{\Delta }}$ 。

ElasticGNN使用EMP

${\bf{Y}} = {\rm{EMP}}({h_w}({\bf{X}}),K,{\beta _1},{\beta _2})$

特征输入为 ${\bf{X}}$ ， ${h_w}({\bf{X}})$ 表示 ${\bf{X}}$ 关于 $w$ 的一个机器学习模型。 $w$ 是模型可学习的参数。 $K$ 表示信息传播的步数。 ${\beta _1},{\beta _2}$ 是两个超参数，在模型学习过程中被给予特定的值。ElasticGNN模型最终的预测结果被表示为 ${\bf{Y}}$ 。
${\rm{EMP}}( \cdot )$ 是ElascticGNN中提出的一中弹性的信息通过机制。EMP的表示形式可以被描述为如下形式：
初始化 ${{\bf{F}}^0} = {\bf{X}}$ ， ${{\bf{O}}^0} = {{\bf{0}}^{m \times d}}$ ， ${{\bf{0}}^{m \times d}}$ 表示所有值为0的矩阵。
${{\bf{Y}}^{k + 1}} = \gamma {\bf{X}} + (1 - \gamma ){\bf{\tilde A}}{{\bf{F}}^k}$
$\gamma$ 表示的是步长，作为一个超参数。 ${\bf{\tilde A}}$ 表示 ${{\bf{\hat D}}^{^{ - \frac{1}{2}}}}{\bf{\hat A}}{{\bf{\hat D}}^{^{ - \frac{1}{2}}}}$ 。

${{\bf{\tilde F}}^{k + 1}} = {{\bf{Y}}^k} - \lambda {\tilde \Delta ^{\rm{T}}}{{\bf{O}}^k}$

其中 $\tilde \Delta = \Delta {{\bf{\hat D}}^{^{ - \frac{1}{2}}}}$ 。然后，
${{\bf{\tilde O}}^{k + 1}} = {{\bf{O}}^k} - \beta \tilde \Delta {{\bf{\tilde F}}^{k + 1}}$
使用Elastic GNN中不同的正则项，得到不同的 ${{\bf{O}}^{k + 1}}$ ，当使用 ${l_1}$ 正则时，
当使用 ${l_2}$ 正则项时
${\bf{O}}_i^{k + 1} = \min (||{\bf{\tilde O}}_i^{k + 1}|{|_2},{\lambda _1}) \cdot \frac{{{\bf{\tilde O}}_i^{k + 1}}}{{||{\bf{\tilde O}}_i^{k + 1}|{|_2}}}$
对于 $\in m$ 。最终
${{\bf{F}}^{k + 1}} = {{\bf{Y}}^k} - \lambda {\tilde \Delta ^{\rm{T}}}{{\bf{O}}^k}$
上述表示整个的Elastic GNN的算法流程。