论文《Node-wise Filtering in Graph Neural Networks:A Mixture of Experts Approach》笔记

【NODE-MOE 2024 ArXiv】不同节点表现出不同的同配性或异配性,采用现有的针对一个模式优化的全局滤波器可能会对具有其他模式的节点造成重大损失,而节点级滤波(node-wise)可以在温和条件下实现所有节点的线性可分性。本文提出NODE-MOE(Node-wise Filtering via Mixture of Experts)异配图神经网络算法,它利用专家混合(Mixture of Experts)的方法来适应性地为不同节点选择适当的滤波器。

本文发表在2024年ArXiv上,第一作者学校:Michigan State University,引用量:2。

查询会议:

原文和开源代码链接:

0、核心内容

不同节点表现出不同的同配性或异配性,采用现有的针对一个模式优化的全局滤波器可能会对具有其他模式的节点造成重大损失,而节点级滤波(node-wise)可以在温和条件下实现所有节点的线性可分性。本文提出NODE-MOE(Node-wise Filtering via Mixture of Experts)异配图神经网络算法,它利用专家混合(Mixture of Experts)的方法来适应性地为不同节点选择适当的滤波器。

  • 引言:介绍了GNNs在图结构数据表示学习中的有效性,尤其是在节点分类任务上。然而,传统的GNNs通常采用单一全局滤波器,这在处理现实世界中图的复杂同配性和异配性模式时可能不是最优的。
  • 问题陈述:现实世界的图经常展示出复杂的同配性和异配性模式的混合,这对统一的全局过滤方法提出了挑战。论文通过理论分析和实例展示了单一全局滤波器的局限性,并提出了基于节点特定结构模式应用不同过滤器的需求。
  • NODE-MOE框架:提出了NODE-MOE框架,它使用专家混合框架来适应性地为不同节点选择适当的过滤器。框架包括两个主要组件:门控模型(gating model)和多个专家模型(expert models)。
  • 门控模型:门控模型负责为每个节点动态分配权重,以选择最合适的专家。模型输入包括节点的原始特征及其与邻居节点的绝对差异。
  • 专家模型:专家模型可以使任何具有不同过滤器的GNN。文章采用的具有可学习图卷积的GNN,以适应不同的图结构模式。
  • 实验:在多个数据集上对NODE-MOE进行了广泛的实验,验证了其在同配图和异配图上的有效性,并与现有的先进方法进行了比较。
  • 分析:深入分析了NODE-MOE的行为,包括学习到的过滤器类型、门控模型如何为不同节点分配专家,以及不同因素如何影响NODE-MOE的性能。
  • 相关工作:讨论了GNN在图表示学习中的成功应用,以及现有方法在处理混合结构模式时的局限性。
  • 结论:总结了NODE-MOE如何通过节点级过滤方法适应现实世界图中的复杂结构模式,并展示了其在不同数据集上的鲁棒性能。

1、先验知识
① Node-wise是什么意思?

“Node-wise”这个术语通常用于描述与图或网络中的节点(node)相关的操作或处理方式,其中“-wise”是一个后缀,表示“按照……的方式”或“基于每个……”。在图神经网络(GNN)的上下文中,“node-wise”意味着针对图中的每个节点分别进行操作或计算,而不是对整个图应用统一的操作。

在本文中,“Node-wise Filtering”指的是一种为图中的每个节点独立选择和应用不同过滤器的方法。这种方法与传统的GNN全局过滤方法不同,后者通常对图中所有节点应用相同的过滤器。“Node-wise Filtering”允许模型根据每个节点的结构特征和模式,如同配性和异配性,来适应性地选择最合适的过滤器,从而提高模型对不同类型节点的表达能力和分类性能。

2、展开研究

挑战:具体来说,虽然一些节点倾向于与共享相似标签的节点连接,反映了同配性模式,但另一些节点更倾向于与具有不同标签的节点形成连接,这表明了异配性模式(不同节点具有不同的连接倾向/同配异配模式)。在所有节点中应用仅为其中一种模式而制定的统一类型的过滤器可能会影响其他模式的性能。

举例:图1,不同颜色的节点具有不同的标签,图1(a)中采用了现有的Global Filter全局滤波器,将不同类别的节点(虚线圈起来的节点)错误分类;而图1(b)中采用了本文提出的Node-wise滤波器,上面两个节点同配性更强一些(边同配性66.6%),下面四个节点异配性更强一些(边同配性33.3%,针对不同同配性/异配性的节点,该滤波器可以做出更准确的分类。

目前的工作:在这项工作中,我们观察到,许多现实世界图中的节点不仅表现出不同的结构模式,而且这些模式在同一图中的不同社区之间存在显著差异。利用CSBM模型生成具有混合结构模式的图,我们从理论上证明了针对一个模式优化的全局滤波器可能会对具有其他模式的节点造成重大损失,而节点级滤波可以在温和条件下实现所有节点的线性可分性。在这些见解的基础上,我们提出了一种节点级过滤方法——NODE-MOE,它利用一个专家混合框架为不同节点自适应地选择合适的滤波器。大量的实验验证了所提出的NODE-MOE在同配图和异配图上的有效性,说明了显著的性能改进。

现有图的结构模式

  • ① all these graphs exhibit a mixture of homophilic and heterophilic patterns(图2)
  • ② significant variations in homophily across different communities(图3)

图2:Cora、Citeseer这两个数据集是同配图数据集,Chameleon和Squirrel这两个数据集是异配图数据集,从图2可以看出,对于同配图,大多数就节点表现出同配性,对于异配图,大多数节点表现为异配性,但也有明显的例外。

值得注意的是,同配图中的一些节点显示出异配性倾向,相反,异配图中的一些节点显示出同配性倾向。

因此,所有这些图都显示了是同配模式和异配模式的混合物,这与之前的工作的发现一致。

在这里插入图片描述

图3:我们进一步分析了图中具有不同结构模式的节点的位置。为此,我们使用社区检测算法将每个图划分为几个子图。我们关注最大的10个社区,并计算每个子图的同配性水平。结果如图3所示,显示出不同社区间的同配性存在显著差异。

证明全局过滤器会导致次优性能:对应2.2 Analysis based on CSBM model部分

2.2部分主要讨论了为什么在具有混合结构模式的图上应用全局过滤器可能导致性能不佳的问题,并展示了如何通过节点级过滤来改善这种情况。

这部分混合了两个不同参数的CSBM来生成一个图,最终得到定理1(证明见附录A):

在这里插入图片描述

CSBM模型介绍:Contextual Stochastic Block Model(CSBM)是一种生成模型,常用于图分析,例如分析GNNs的行为。CSBM基于这样的假设:图是按照统一的模式生成的,即相同标签的节点以概率p相连,不同标签的节点以概率q相连。

模型适应性:作者通过混合两个CSBM来生成具有混合同配模式和异配模式的图,以反映现实世界图中的复杂性。

理论分析:论文利用线性模型和二元交叉熵损失来分析当全局低通滤波器应用于整个图时,对于同配性节点集可以实现接近线性可分性,但可能对异配性节点集造成较大的损失。

定理1说明了:

① 应用全局低通滤波器时,可以为同配性节点集找到最优的权重和偏置,实现接近线性可分性,但对异配性节点集的损失可能相对较大。

② 如果对同配性和异配性节点集分别应用不同的过滤器,可以找到最优的权重和偏置,使得所有节点都是线性可分的。

分析结论:这部分分析揭示了对于具有混合同配模式和异配模式的图,应用单一全局过滤器的局限性,并强调了为不同模式的节点应用不同过滤器的重要性。

3、Methodology:NODE-MOE

实现节点级过滤方法提出了两个重大挑战:

  • ① **如何将各种过滤器合并到一个统一的框架中?**它需要一个灵活的体系结构,可以无缝地适应多种过滤机制,而不影响模型的效率和可伸缩性。
  • ② 如果没有节点模式的真实情况,我们如何为不同的节点选择合适的过滤器?

在这里插入图片描述

NODE-MOE由两部分组成:Gating和Experts。

  • Gating:门控模型,根据节点的特征和上下文为每个expert分配不同的权重。
  • Experts:专家模型,可以是任何具有不同过滤器的GNN。
① 门控模型

新的挑战:如何确定每个节点属于哪种模式?

为了解决这个挑战,我们通过合并每个节点周围的上下文特征来估计节点模式。如果一个节点的特征与其相邻节点的特征显著不同,则该节点很可能表现出异配性模式。具体来说,我们的门控模型的输入包括一个复合向量 [ X , ∣ A X − X ∣ , ∣ A 2 X − X ∣ ] [X, |AX-X|, |A^2X-X|] [X,AXX,A2XX]。这个向量将节点的原始特征与其特征和相邻特征之间的绝对差异结合起来,分别表示节点的结构模式。

此外,如2.1节所讨论的,不同的结构模式在图中分布式不均匀的,不同的社区可能表现出不同的结构特征。为了利用这一现象,我们使用带有低通滤波器的GNNs,如GIN,作为门控模型。这些网络被选择是因为它们强大的社区检测能力,确保相邻节点可能接收到类似的专家选择。第4.3节的实验结果清楚地表明,所提出的门控可以有效地将不同的节点分配给它们合适的滤波器。

② 专家模型

在专家的选择上,为了确保每个专家都擅长处理特定的结构模式,作者对专家中的过滤器采用了差异化的初始化策略。作者没有使用固定的滤波器初始化,而是使用不同类型的滤波器初始化不同的专家,如低通、常数和高通滤波器。

Filter Smoothing Loss(过滤器平滑损失):集成多个专家与不同的过滤器这种复杂性使模型更具挑战。例如,同时训练多个滤波器可能会导致每个滤波器的谱域振荡,如附录B所示。这不仅使模型与数据的拟合变得复杂,还影响了其可解释性。每个振荡滤波器的具体作用和功能变得难以辨别,这使得理解和解释模型的行为更加困难。为了缓解这些问题,作者引入了一个滤波器平滑损失,以确保学习到的滤波器在光谱域表现出平滑的行为。定义如下:

(原文只给了参数的意义,没说这个损失怎么用。)

3.4部分提出的Top-K gating是用来提高计算效率的。

4、实验部分

三个研究问题:

  • ① NODE-MOE在同配图和异配图上与最先进的基线相比表现如何?
  • ② NODE-MOE内的专家是否学习了不同的结构模型?门控模型是否准确地将每个节点分配给其合适的专家?
  • ③ 不同的因素如何影响NODE-MOE的性能?

NODE-MOE设置:NODE-MOE采用的门控模型是GIN,专家模型是ChebNetII。

① 实验结果(分类精度)

② 研究问题②

图5:图5显示了NODE-MOE在Chameleon数据集上学习到的两个滤波器,其中filter 0是低通滤波器,filter 1是高通滤波器。

图6:为了分析NODE-MOE中门控模型的行为,作者根据节点的同质性水平将节点分为不同的组。图6显示了门控模型分配给这两位专家的权重。结果显示,同质性水平较低的节点在高通滤波器(filter 1)中主要接收到较高的权值,随着同质性水平的增加,这个滤波器的权值相应减少。这种模式证实了本文的设计,即具有不同结构模式的节点需要不同的滤波器,这证明了本文提出的门控模型的有效性。

③ 消融实验

研究了参数对整体性能的影响。

5、相关工作

与自适应滤波器(低通+高通滤波器)相关的论文:

CSBM相关论文:

  • CSBM原文:Contextual stochastic block models. Yash Deshpande, 2018(引用量170)
  • CSBM应用于图分析:Community detection in networks: A user guide. Santo Fortunato 2016;Topology matters in fair graph learning: a theoretical pilot study. Zhimeng Jiang 2023
  • CSBM应用于分析GNNs的行为:Synthetic graph generation to benchmark graph learning. John Palowitch 2022;Is homophily a necessity for graph neural networks? Yao Ma 2021;Graph convolution for semisupervised classification: Improved linear separability and out-of-distribution generalization. Aseem Baranwal 2021
  • 通过混合两个CSBM来生成CSBM的一个图,mirroring 方法:Demystifying structural disparity in graph neural networks: Can one size fit all? Haitao Mao 2024

6、思考

本文2024年发表在ArXiv上,idea很好但写的一般,好几处没有讲清楚。但好好改改的话目测会投一篇比较好的会议,可能是顶会,蹲一个后续。

7、参考资料
  • kimi:https://kimi.moonshot.cn/
  • 16
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值