论文《Cross-Space Adaptive Filter:Integrating Graph Topology and Node Attributes for Alleviating the Ov

【CSF】本文是关于GCN的过度平滑问题。过度平滑问题是指在深层GCN中,节点表示变得难以区分,导致性能下降。为了解决这个问题,作者们提出了一种名为Cross-Space Filter(CSF)的新型自适应滤波器。CSF结合了图拓扑和节点属性空间的信息,以产生自适应频率信息。

第一作者是四川大学的,本文发表在2024年WWW会议上,引用量0。

WWW会议简介:全称International World Wide Web Conference(万维网国际会议),是由国际万维网会议委员会发起主办的顶级国际学术会议,CCF A。

查询会议:

原文和开源代码链接:

0、核心内容

普通的图卷积网络(GCN)使用低通滤波器从图拓扑中提取低频信号,这可能会导致GCN深入时的过平滑问题。为此,人们提出了各种方法,通过合并从图拓扑中提取的额外滤波器(比如高通滤波器)来创建自适应滤波器。

然而,这些方法严重依赖拓扑信息,忽略了节点属性空间,严重牺牲了深度GCN的表达能力,特别是处理异配图(disassortative graphs)时。

在本文中,我们提出了一种跨空间自适应滤波器(cross-space adaptive filter),称为CSF,以产生从拓扑空间和属性空间中提取的自适应频率信息。

具体地说,我们首先推导了一个定制的基于属性的高通滤波器,它可以在理论上解释为半监督核岭回归的最小化器。然后,我们将基于拓扑的低通滤波器转换为GCNs环境中的Mercer的内核。这为将其与基于属性的滤波器相结合来捕获自适应频率信息提供了基础。最后,通过一种有效的多核学习策略,结合了基于属性的高通滤波器基于拓扑的低通滤波器,得到了跨空间滤波器。这有助于在保持效率的过度平滑的同时解决问题。

大量的实验表明,CSF不仅成功地缓解了过平滑问题,而且提高了节点分类任务的有效性。

(引自摘要)

1、先验知识
① 什么是岭回归(Ridge Regression)?

岭回归是一种线性回归分析的变体,它通过引入正则化项来解决普通最小二乘法(OLS)在某些情况下的不足,特别是在处理共线性数据(即特征之间高度相关)时。岭回归的基本思想是在损失函数中添加一个L2正则项,以约束模型参数的大小,从而提高模型的泛化能力。

  • 正则化(Regularization):在损失函数中添加一个额外的项,用来惩罚模型参数的大小,防止模型过拟合。
  • L2正则项:岭回归使用的是L2范数作为正则化项,即参数平方和的根。这导致模型倾向于选择较小的参数值。
  • 损失函数:岭回归的损失函数是普通最小二乘损失加上一个正则化项,可以表示为:

Loss = ∥ y − X β ∥ 2 2 + λ ∥ β ∥ 2 2 \text{Loss} = \|\mathbf{y} - \mathbf{X}\mathbf{\beta}\|_2^2 + \lambda\|\mathbf{\beta}\|_2^2 Loss=yXβ22+λβ22

  • 其中, y y y是目标值向量, X X X是特征矩阵, β β β是参数向量, λ λ λ是正则化参数,控制正则化的强度。

  • 正则化参数(Regularization Parameter): λ λ λ是一个非负参数,需要通过交叉验证等方法来确定。 λ λ λ的值越大,正则化的效果越强,参数值越小。

  • 求解方法:岭回归可以通过解析方法或数值方法求解。解析方法涉及到对损失函数求导并设置导数为零来求解参数向量 β β β

  • 优点:

    • 减少过拟合:通过正则化项限制了参数的大小,减少了模型复杂度。
    • 处理共线性:当特征之间存在相关性时,岭回归能够提供一个稳定的解。
    • 解的可解释性:即使在特征数量接近或等于样本数量时,岭回归也能提供有限的解。
  • 应用:岭回归广泛应用于金融、生物统计、工程等领域,特别是在变量选择和模型拟合方面。

岭回归是一种简单而有效的正则化技术,通过在模型训练过程中平衡偏差和方差,提高了模型在未知数据上的预测性能。

② 什么是核岭回归(Kernel Ridge Regression,KRR)?

核岭回归是一种结合了岭回归(Ridge Regression)和核技巧(Kernel Trick)的机器学习方法。它用于解决回归问题,特别是数据集具有非线性特征时。

  • 岭回归(Ridge Regression):是一种处理线性回归问题的正则化技术,通过在损失函数中添加一个L2正则项来防止模型过拟合。岭回归的目的是找到一个在最小化预测误差的同时,保持权重(系数)较小的模型。
  • **核技巧(Kernel Trick):是一种在机器学习中常用的技术,它允许算法在高维空间中有效地处理非线性问题,而无需显式地映射输入数据到高维空间。**核函数可以测量数据点之间的相似性,常见的核函数包括线性核、多项式核、径向基函数(RBF)核等。
  • **核岭回归的结合:KRR结合了上述两种技术,它首先使用核技巧将输入数据隐式地映射到一个高维特征空间,然后在该特征空间中应用岭回归。**这样,KRR能够在高维空间中学习复杂的非线性模型,同时通过岭回归的正则化项控制模型的复杂度,避免过拟合。
  • 工作原理:给定一组训练数据 x i , y i x_i,y_i xi,yi,其中 x i x_i xi是输入特征, y i y_i yi是对应的目标值。KRR的目标是找到一个函数 f ( x ) f(x) f(x),它在高维特征空间中是线性的,但在原始输入空间中是非线性的。这个函数可以表示为:

f ( x ) = ∑ i = 1 n α i K ( x i , x ) + b f(x) = \sum_{i=1}^{n} \alpha_i K(x_i, x) + b f(x)=i=1nαiK(xi,x)+b

  • 其中, K K K是核函数, α i α_i αi是系数, b b b是偏置项。系数 α i α_i αi通过最小化以下正则化损失函数来确定:

min ⁡ α , b { ∑ i = 1 n ( y i − f ( x i ) ) 2 + λ ∑ i = 1 n α i 2 } \min_{\alpha, b} \left\{ \sum_{i=1}^{n} (y_i - f(x_i))^2 + \lambda \sum_{i=1}^{n} \alpha_i^2 \right\} α,bmin{i=1n(yif(xi))2+λi=1nαi2}

  • 其中, λ \lambda λ是正则化参数,控制着岭回归的强度。
  • 优点:KRR能够处理非线性关系,同时通过正则化防止过拟合,适用于特征空间维度高且数据集大小相对较小的情况。
  • 应用:KRR广泛应用于各种领域,包括生物信息学、金融风险评估、模式识别等。

在本文中,KRR被用来构建一个高通滤波器,这个滤波器可以从节点属性中提取高频信息,帮助解决图卷积网络中的过度平滑问题。

2、实验
① 验证过平滑问题评估和预测精度的提高

图4:基于自适应滤波器的方法的过平滑问题评估。x轴为神经网络层数,y轴表示分类准确率(%)。图4表明CSF在对过平滑问题的鲁棒性和在下游任务上的有效性方面优于其他方法。

在这里插入图片描述

表1:所有节点分类方法在不同卷积层数(即2、5、10、20)上的平均性能。“*”表示我们忽略了相应模型的内存溢出情况。最好的结果用粗体标记,第二好的结果用下划线标记。

在这里插入图片描述

我们的实验结果,如图4和表1所示,表明我们缓解了过平滑问题,同时提高了深度GCNs的有效性,特别是在处理异配图时。

  • assortative graphs :同配图
  • disassortative graphs :异配图
② 消融实验

对应paper中的“5.3 Ablation studies”部分,作者进行了一些消融研究来深入分析所提出的Cross-Space Filter(CSF)模型的特性和不同组成部分对整体性能的影响。具体来说,这一部分通过排除或修改模型中的某些组件,来观察这些变化对模型性能的具体影响,从而理解每个组件的重要性。

消融研究主要关注以下几个方面:

  • 属性空间(Node Attribute Space):研究者们探讨了节点属性信息在模型中的作用,特别是在异配图中,节点属性信息比拓扑信息更为重要。
  • 拓扑空间(Graph Topology Space):研究者们评估了拓扑信息在模型中的重要性,特别是在同配图中,拓扑信息可能更为重要。
  • 不同空间的过滤器(Filter from Different Spaces):研究者们比较了在属性空间和拓扑空间中使用的高通和低通过滤器的效果。

在这里插入图片描述

图5提供了两个消融研究的视觉表示:

  • 图5(a)展示了在排除属性过滤器(CSF -w/o attribute)和拓扑过滤器(CSF -w/o topology)的情况下模型性能的变化。结果表明,在同配图中,拓扑信息对性能的贡献更大,而在异配图中,属性信息更为重要。
  • 图5(b)进一步探讨了仅使用低通属性过滤器(CSF -w low-pass attribute)和只使用低通属性过滤器(CSF -w only low-pass attribute)的效果。这表明即使两者都是低通过滤器,结合两个空间的过滤器仍然可以获得性能提升。同时,它也突出了CSF中属性空间中的高频信息的重要性。

通过这些消融研究,作者们得出结论:CSF通过有效地整合了来自拓扑和属性空间的信息,提高了对过平滑问题的鲁棒性,并提升了深层图卷积网络在下游任务中的有效性。

  • 结论1:对于同配图,拓扑信息更为重要;而对于异配图,节点属性信息更有价值。CSF有效地平衡了这两者。
  • 结论2:属性空间中的高频信息比低频信息更有价值。

Conclusion 1: For assortative graphs, topology information is more important, whereas, for disassortative graphs, node attribute information is more valuable. CSF effectively balances the two.
Conclusion 2: High-frequency information in attribute space is more valuable than low-frequency information.

3、算法框架&原理

图1:CSF的概述。我们利用图拓扑和节点属性空间来产生一个跨空间自适应滤波器,以缓解过平滑问题,提高深度GCNs的有效性。

在这里插入图片描述

CSF首先利用节点属性的相关性来提取由Mercer的内核产生的可解释的高通滤波器。

然后,它将传统的基于低通拓扑的滤波器转换到另一个内核中,在RKHS中统一这两个滤波器。

最后,利用一种简单的多核学习技术来融合拓扑空间和属性空间中的信息,得到了跨空间自适应滤波器。

① High-pass Filter From Node Attribute Space

在深度GCNs中,整个图中的节点表示彼此相似,最终收敛于相同的常数值。为此,我们的目标是设计一个基于节点属性的高通滤波器,以提供关于哪些节点应该具有不同表示的先验知识。要从属性空间中提取过滤器,一个简单的想法是创建一个基于属性的图和实现GCN卷积操作。然而,挑战在于如何提取一个高通滤波器,特别是用一种可解释的方式。

在本文中,我们求助于KRR,它提供了一个使用图中的节点属性构造高通滤波器的粗略想法。然而,GCNs的学习范式一般设置是半监督的,其中只提供了部分标记的数据。在本节中,我们通过解决一个半监督KRR的优化问题推导出一个可解释的高通滤波器来解决这个挑战。

② Low-pass Filter From Graph Topology Space

这部分探讨了如何从图拓扑空间中提取低通滤波器,并将其与基于节点属性的高通滤波器结合起来,以解决图卷积网络(GCNs)中的过平滑问题。

低通滤波器的传统定义:在传统GCN中,低通滤波器是基于图的傅里叶变换定义的,它与图拉普拉斯矩阵的特征系统相对应,导致过平滑问题。

图拓扑空间的挑战:为了超越传统的低通滤波器并创建一个自适应的频谱滤波器,研究者们尝试通过学习图拉普拉斯矩阵的特征值上的额外矩阵值函数来实现,但现有方法主要关注图拓扑,而忽略了节点属性空间。

Mercer核的统一框架:作者们从图核理论中汲取灵感,将传统的基于拓扑的低通滤波器视为Mercer核,这样就可以在再生核希尔伯特空间(RKHS)中统一处理低通和高通滤波器。

定义特定的拉普拉斯正则化函数:在GCNs的上下文中,作者们定义了一个特定的拉普拉斯正则化函数,并展示了如何将其转换为Mercer核空间中的一步随机游走核。

低通滤波器的核表示:通过这种方式,GCN的低通滤波器被表示为具有特定光谱滤波器的核,该滤波器作用于图拉普拉斯矩阵的特征值上。

算法描述:论文提供了一个伪代码算法,描述了如何从图和节点属性矩阵中获取高通滤波器和低通滤波器,并使用多核学习(MKL)技术将它们整合到跨空间自适应滤波器(CSF)中。

跨空间滤波器的获取:通过简单的多核学习技术,将图拓扑和节点属性空间的信息融合起来,形成CSF。这种滤波器结合了低通和高通滤波器的特点,以适应不同的频率信息。

传播规则:介绍了CSF的层间传播规则,该规则启发于标签传播算法,将原始属性与传播过程相结合,以增强与原始特征的一致性。

计算效率:论文讨论了计算核矩阵和其逆的计算复杂性问题,并指出通过只计算一次核矩阵,以及使用Nystrom方法等经典方法可以减轻大图上的计算负担。

③ Integrating Topology-based and Attribute-based Filters

这部分讨论了如何将基于图拓扑的低通滤波器和基于节点属性的高通滤波器结合起来,以创建一个跨空间自适应滤波器(Cross-Space Filter,CSF)。

结合两种信息:本文目标是整合图拓扑信息和节点属性信息,以解决现有自适应滤波器方法忽略节点属性的问题。

基于属性的滤波器获取:首先,使用基于节点属性的k-最近邻(KNN)图来构建一个高斯核。这个核反映了节点之间的相似性,并用于捕获节点属性中的信息。

基于拓扑的滤波器获取:接着,使用传统的GCN中的一步随机游走核作为基于拓扑的低通滤波器。

跨空间自适应滤波器的获取:通过应用多核学习(Multiple Kernel Learning,MKL)技术,将上述两种滤波器的信息融合起来。MKL算法允许同时利用来自不同空间的信息。

在这里插入图片描述

MKL算法:使用了一个基于平方矩阵的MKL方法来整合来自拓扑和属性空间的信息。这种方法简单有效,没有可训练的参数,避免了参数学习带来的计算开销。

核矩阵K的构建:通过特定的公式,将基于属性的高通滤波器和基于拓扑的低通滤波器结合起来,形成一个新的核矩阵K。这个核矩阵K是一个有效的滤波器,可以用于图上的信号处理。

传播规则:定义了CSF方法的层间传播规则,该规则结合了标签传播算法的思想,并在传播过程中附加了原始属性,以增强与原始特征的一致性。

算法实现:提供了CSF算法的伪代码,详细描述了如何从图和节点属性矩阵中获取高通和低通滤波器,并通过MKL方法整合这些滤波器。

计算复杂性:讨论了CSF方法在计算上可能面临的挑战,尤其是核矩阵求逆的计算复杂性。提出了使用Nystrom方法等技术来降低计算复杂性。

实验验证:通过实验验证了CSF方法在不同数据集上的性能,展示了其在解决过平滑问题和提高下游任务有效性方面的优势。

4、启示&心得

本文的第一作者是四川大学的一位博导,感觉理论知识非常丰富,文章中的一些细节的原理没办法看一遍就看懂,但是作者很会写,算法思路写的很清晰。

最重要的结论就是消融实验得出的结论1和结论2:

  • 结论1:对于同配图,拓扑信息更为重要;而对于异配图,节点属性信息更有价值。CSF有效地平衡了这两者。
  • 结论2:属性空间中的高频信息比低频信息更有价值。

这为未来设计新的异配图GNN算法提供了新的启发。

本文与【FAGCN】算法的思路有些相似,不同之处在于【FAGCN】只从拓扑结构方面分类高通和低通滤波器,而【CSF】算法的高通滤波器细化到节点属性范围,因此获得了比【FAGCN】稍好的预测性能。

阅读本文收获挺大的,开心。

5、参考资料
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值