【FAGCN】根据2024年异配图神经网络综述《Towards Learning from Graphs with Heterophily:Progress and Future》中的分类(Taxonomy)部分,我们选择研究不同类别下的异配图神经网络,第二篇论文《DMP》和第一篇《GPRGNN》是同一篇论文,但是没有找到来源,直接看第三篇论文FAGCN,也就是本文。
发表在2021年AAAI会议上,作者是北京邮电大学和中科院计算所的,引用量443,开源代码可以复现。
AAAI会议简介:由人工智能促进协会AAAI(Association for the Advancement of Artificial Intelligence)主办,人工智能顶会,CCF A。
查询会议:
- 会伴:https://www.myhuiban.com/
- CCF deadline:https://ccfddl.github.io/
原文和开源代码链接:
0、核心内容
大部分现有的GNNs通常利用节点特征的低频信号(low-frequency signals),这就产生了一个基本问题:在现实世界的应用程序中,我们只需要低频信息吗?
在本文中,我们首先提出了一个评估低频和高频信号的作用的实验研究,其中的结果清楚地表明,在不同的场景下,只探索低频信号不利于学习一个有效的节点表示。
我们如何自适应地学习GNNs中除低频信息(low-frequency information)外的更多信息呢?
一个明智的答案可以帮助GNNs提高适应性。
针对这一挑战,我们提出了一种新的具有自门机制(self-gating mechanism)的频率自
适应图卷积网络(Frequency Adaptation Graph Convolutional Networks,FAGCN),该
机制可以在消息传递过程中自适应地集成不同的信号。
为了深入地理解,我们从理论上分析了低频信号和高频信号在学习节点表示中的作用,这进一步解释了为什么FAGCN可以在不同类型的网络上表现良好。
在六个真实世界的网络上进行的大量实验证明,FAGCN不仅缓解了过平滑问题,而且比现有技术更有优势。
(引自摘要)
总结一下:只探索低频信号/低频信息(见“1、先验知识中①”介绍)不利于学习一个有效的节点表示,本文提出了可以在消息传递过程中自适应地集成不同信号的频率自适应图卷积网络FAGCN,并从理论上分析了低频信号和高频信号在学习节点表示中的作用,进一步解释了FAGCN在不同类型的网络上表现良好的原因。
PS:我们可以认为同配图上主要是低频信息,异配图上主要是高频信息。这有助于理解本文。
1、先验知识
① 在GNNs中,什么是低频信息,什么是高频信息?
图神经网络(GNNs)是一种用于处理图结构数据的深度学习模型。在GNNs中,低频信息和高频信息通常指的是图信号中的不同频率成分。
- 低频信息:**在图信号处理中,低频信息通常指的是图上变化较慢或传播较慢的信息。**这些信息可能与图的全局特性或长距离依赖有关,例如整个图的连通性、聚类系数等。在GNNs中,低频信息可以通过多层的图卷积操作来捕捉,因为每一层都会增加对图结构的感知范围,从而能够捕捉到更广泛的图模式。
- 高频信息:相对地,高频信息指的是图上变化较快或传播较快的信息。这些信息通常与图的局部特性或短距离依赖有关,例如节点的直接邻居、边的特征等。在GNNs中,高频信息可以通过单层或较少层的图卷积操作来获取,因为这些操作主要关注局部的图结构。
在GNNs的设计中,平衡低频信息和高频信息的捕捉是非常重要的,因为这有助于模型同时理解图的局部细节和全局结构。例如,一些GNN变体,如GraphSAGE或GCN(图卷积网络),通过聚合邻居节点的特征来同时捕捉低频信息和高频信息。而一些更高级的模型,如ChebNet或GAT(图注意力网络),则通过不同的机制来调整对不同频率信息的敏感度。
低频信息和高频信息是图信号分析中的关键概念,它们帮助我们理解GNNs是如何通过不同层次的图结构来学习和表示数据的。
PS:低频信号和低频信息的概念是相似的。在本文中,节点特征的低频信号指的是:“低频信号”意味着这些特征变化较为缓慢,与周围节点的特征相似。
② 什么是低通滤波器?
**低通滤波器(Low-pass filter)**是一种信号处理设备,它允许低频信号通过,同时阻止或减弱高频信号。在不同的领域,低通滤波器可以有不同的形式和应用,但基本原理相同。
基本概念:
- 频率:在信号处理中,频率是指信号变化的速率。低频信号变化慢,高频信号变化快。
- 低频信号:指的是频率较低的信号,它们通常包含较少的高频成分。
- 高频信号:指的是频率较高的信号,它们通常包含较多的高频成分。
功能:
- 低通滤波器的作用是:
- 保留低频成分:允许低频信号通过,这意味着信号中的低频成分(如基频和低次谐波)可以保留。
- 抑制高频成分:减少或消除高频信号的影响,这有助于去除噪声、减少数据量、简化信号分析等。
应用领域:
- 低通滤波器广泛应用于多个领域,包括但不限于:
- 音频处理:在音乐制作和声音录制中,低通滤波器可以用来去除不需要的高频噪声或调整声音的音色。
- 视频处理:在视频信号处理中,低通滤波器可以用来平滑图像,减少细节,突出主要特性。
- 图像处理:在图像分析中,低通滤波器用于信号调理,确保电路只处理所需的低频信号。
- 生物医学工程:在心电图(ECG)等生物信号处理中,低通滤波器用于去除高频干扰。
类型:
- 低通滤波器可以是:
- 模拟的:使用电阻、电容等被动元件构建的电路。
- 数字的:使用数字信号处理技术,如FIR(有限脉冲响应)或IIR(无限脉冲响应)滤波器。
- 软件实现的:在计算机软件中,通过算法实现低通滤波功能。
低通滤波器的设计和实现取决于所需的频率响应特性、滤波器的类型(如巴特沃斯、切比雪夫、椭圆等)、以及应用的具体需求。
③ homophily & homophily assumption(同质性&同质性假设)
Homophily(同质性)是一个社会网络和社会心理学中的概念,指的是相似个体之间更有可能建立联系或关系的趋势。这种现象在各种社交环境中普遍存在,包括友谊、婚姻、职业网络等。在网络科学中,同质性也用来描述网络中节点之间因为共享某些特征或属性而倾向于彼此连接的倾向。
Homophily Assumption(同质性假设)是社交网络分析中的一个核心假设,它假设网络中的个体倾向于与自己相似的其他个体建立联系。这种假设基于观察到的社交现象,即人们倾向于与拥有相似特征(如年龄、性别、种族、兴趣、社会经济地位等)的人交往。同质性假设在社交网络分析、信息传播模型、网络形式理论等多个领域都有重要应用。
在图论和网络科学中,同质性假设对理解和预测网络结构和动态具有重要意义。例如:
- 社区检测:在社交网络中,同质性假设可以帮助识别由具有相似特征的个体组成的社区或群体。
- 信息传播:同质性假设可以解释信息如何在网络中传播,因为相似的个体更有可能分享和采纳相同的信息或观点。
- 网络演化:同质性假设有助于理解网络如何随时间演化,因为新的连接往往在已经具有相似特征的个体之间形成。
然而,需要注意的是,同质性假设并不是在所有情况下都成立。在某些网络或情境中,也可能观察到异质性(Heterophily,通常翻译为异配性,Homophily对应翻译为同配性),即不同的个体之间建立联系。异配性可以增加网络的多样性,促进不同观点和信息的交流。
在设计算法和模型来分析和预测网络行为时,考虑同质性假设是非常重要的,它可以帮助提高模型的准确性和预测能力。同时,理解同质性和异配性在不同网络中的作用,对于深入分析社交结构和动态具有重要意义。
2、展开研究
一般来说,GNNs通过聚合来自邻居的信息来更新节点表示,这可以被视为低通滤波器的一种
特殊形式。
最近的一些研究表明,信号的平滑性,即低频信息,是GNNs成功的关键。
现有的挑战:首先,GNNs中的低通滤波器主要保留了节点特征的共性,这不可避免地忽略了这种差异,从而使得连接节点的学习表示变得相似。其次,当我们总是使用低通滤波器时,节点表示将变得难以区分,从而导致过度平滑问题。
提出问题:如何在GNN中使用不同频率的信号,同时使GNN适合于不同类型的网络?
要回答这个问题,需要解决两个挑战:
第一,低频信号和高频信号都是原始特征的重要组成部分。传统的滤波器是专门针对一个特定的信号而设计的,不能很好地同时提取不同频率的信号。
第二,即使我们可以提取不同的信息,然而,现实世界网络的协调性通常是不可知的,差异很大,而且,任务和不同信息之间的相关性是非常复杂的,所以很难决定应该用什么样的信号:原始特征、低频信号、高频信号还是它们的组合。
在本文中,我们设计了一种通用的频率自适应图卷积网络FAGCN,以自适应地聚合来自邻居或自身的不同信号。
我们首先利用图信号处理的理论(the theory of graph signal processing),正式定义了一个增强的低通和高通滤波器,从原始特征中分离出低频和高频信号。
然后我们设计了一种自门机制(self-gating mechanism),在不了解网络协调性的情况下,自适应地整合低频信号、高频信号和原始特征。
理论分析证明,FAGCN是大多数现有GNNs的泛化,能够自由地缩短或扩大节点表示之间的距离,进一步解释了FAGCN在不同类型的网络上表现良好的原因。
本文贡献:
- 我们研究了低频和高频信号在GNNs中的作用,并验证了高频信号对不协调的网络是有用的。
- 我们提出了一种新的图卷积神经网络FAGCN,它可以在不知道网络类型的情况下自适应地改变低频和高频信号的比例。
- 我们从理论上证明了FAGCN的表达能力大于其他GNN。此外,我们提出的FAGCN能够缓解过平滑问题。在六个真实网络上进行的广泛实验验证了FAGCN比最先进技术的优势。
3、论文第二部分:An Experimental Investigation
在本节中,我们以低频和高频信号为例,分析它们在学习节点表示中的作用。具体地说,我们在一些列合成网络上测试了它们的节点分类性能。其主要思想是逐步增加合成网络的非协调性,并观察这两个信号的性能如何变化。
具体操作(很好理解):
- 我们生成一个有200个节点的网络,并将它们随机划分为两类。对于第1类中的每个节点,我们从高斯分布N(0.5,1)中抽取一个20维的特征向量,而对于第2类中的节点,其分布为N(-0.5,1)。
- 此外,同一类的连接是由概率为p=0.005的伯努利分布生成的,两类q之间的连接概率从0.01到0.1不等。当q较小时,网络表现出协调性(理解为同配性就行);随着q的增加,网络逐渐表现出无序性(异配性)。
- 然后,我们将第3节中描述的低通滤波器和高通滤波器应用于节点分类任务(不错,小机灵鬼儿)。一半的节点用于训练,剩余用于测试。(Train:Test = 1:1)
结果如何?(不好理解,理解文就行,图的话……有大佬理解了给我们讲讲):
- 图1(a)结论:证明了低频信号和高频信号都有助于学习节点表示。当网络变得不协调时(异配性较高),高频信号的有效性出现,单一滤波器在所有情况下不能达到最佳效果。
- 图1(b)结论:证明了现有GNNs失败的原因是,它们只聚合了来自邻居的低频信号,即无论节点是否属于同一类都使节点特征(注:这里的特征不是原始特征,而是由原始特征X生成的隐藏层或者输出层)变得相似,从而失去了区分能力。(这个结论很重要)
- 图1©结论:本文提出的FAGCN结合了低通和高通滤波器的优点,可以将同一类内的邻居的低频信号和来自不同类的邻居的高频信号聚合,从而在每个合成网络上都表现出最好的性能。
其实这一段的结论和另一篇论文《Is Homophily A Necessary for Graph Neural Networks?》一致,只是分析视角和表述方式不同。
论文《Is Homophily A Necessary for Graph Neural Networks?》笔记:https://blog.csdn.net/bunny___/article/details/139276121?spm=1001.2014.3001.5501
4、实验
① 数据集
- Assortative datasets(协调性数据集,其实就是同配图):Cora、Citeseer、Pubmed
- Disassortative datasets(非协调性数据集,其实就是异配图):Actor、Chameleon、Squirrel
② 对比神经网络模型&实验结果分析
在同配图上用作对比神经网络模型有:SGC、GCN、GWNN、ChebNet、GraphHeat、GIN、GAT、MoNet、APPNP、GraphSAGE。
从实验结果中可以看到,FAGCN在同配图上的表现比其他GNNs模型要好,一个例外是在Pubmed数据集上GraphHeat取得了最佳性能,但FAGCN也相差不大。从三个数据集的实验结果来看,FAGCN和GraphHeat性能相差不大。原因是GraphHeat设计了一个通过热核(heat kernel)的低通滤波器,它可以比GCN更好地捕获低频信息。
在异配图上用作对比神经网络模型有:MLP、GCN、GAT、APPNP、ChebNet、Geom-GCN。
可以看到FAGCN性能的优越性。
③ 缓解过度平滑问题
为了验证FAGCN能否缓解过平滑问题,我们比较了GCN和FAGCN在不同模型深度下的性能。计算结果如图5所示,可以看出,GCN在两层结构上都取得了最好的性能。随着层数的增加,GCN的性能迅速下降,说明GCN严重出现了过度平滑问题。而在不同类型的网络上,FAGCN的结果是最稳定的,并且显著高于GCN。
原因有两方面:一是在4.2节中,我们表明,负权值(negative weights)可以防止节点表示过于相似,这有利于更深层次的网络架构。另一种方法是,我们向每一层添加了包含低频和高频信息的原始特征,这进一步防止了节点表示变得难以区分。(小机灵鬼儿)
通过这两种设计,当模型更深入时,FAGCN的性能明显优于GCN,这说明FAGCN有很好的缓解过度平滑问题的能力。
④ 边系数的可视化
为了验证FAGCN是否可以学习不同的边系数来适应不同的网络,我们将从FAGCN的最后一层中提取的系数 α i j G α_{ij}^G αijG进行了可视化。具体来说,我们根据两个连接的节点是否具有相同的标签,将边划分为内边(intra-edges)和外边(inter-edges)。
- 图6(a)结论:在同配图中,所有的边都集中在正权值上,这意味着低通滤波器在分类中起着主要作用。
- 图6(b)和©结论:在异配图中,大量的边以负权值分布,说明高频信号发挥了重要作用。
- 图6(d)结论:一个有趣的现象是,Actor数据集上边的系数集中在0。一个可能的原因是Actor的协调性很低(异配性很高),这意味着结构对节点分类结果的贡献较小,相反,原始特征主导了分类结果。(有点意思……)
⑤ Wikipedia Networks的细节
Wikipedia数据集Chameleon和Squirrel最初是用于回归任务,即交通预测。我们将流量分为三类:小于1000、1000~10000和10000以上,以便它们应用于节点分类任务。其次,Chameleon和Squirrel的标签与Geom-GCN中的不同。
这样划分类别(将原来的5类重新划分为3类)的原因在于在(Pei et al. 2020)提供的非协调性网络中,即表3中的Cham-5和Squi-5,我们发现GCN比MLP好得多。这是一个奇怪的现象,因为MLP使用原始特征作为输入,其中包括高频信息,所以它的性能应该优于GCN。因此,我们根据流量重新划分标签,即表3中的Cham-3和Squi-3,其中GCN和MLP的性能更为合理。
(PS:我觉得这一部分大可不必,GCN比MLP性能好得多的原因可能有很多,不一定是论文中所说的“因为MLP使用原始特征作为输入,其中包括高频信息,所以它的性能应该优于GCN”。)
此外,我们可以看到FAGCN在所有4个数据集上都表现最好,因此它的有效性在不同的数据集上仍然得到了保证。
还有一个问题,这个图在纵向上具有可比性,但是横向上不具有可比性。什么意思呢?就是比如FAGCN在Cham-3和Squi-3上的精度分别是76.1%和66.7%,比使用Geom-GCN在同样的数据集上预测的精度73.2%和63.3%要高,此时可以说明FAGCN性能比Geom-GCN要好。但是FAGCN在Cham-5和Squi-5上的精度分别是61.7%和39.7%,不能因此就说,FAGCN在Cham-3和Squi-3上的性能比在Cham-5和Squi-5上的要好。因为类别数不同,在将标签分为三类的数据集中,随机分类的数学期望结果是33.3%,而在将标签分为五类的数据集中,随机分类的数学期望结果是20%。所以图3中左边两列的值和右边两列的值没有可比性。
5、FAGCN算法原理
归一化拉普拉斯矩阵定义为 L = I n − D − 1 / 2 A D −