论文笔记:AAAI 2021 Beyond Low-frequency Information in Graph Convolutional Networks

前言

现有的大部分 GNN 方法集中于对图数据中的低频信息进行处理,这也产生了一个问题:真实世界中我们需要的仅仅是图中的低频信息吗?

作者在本文中进行了实验说明了在不同的条件下仅使用低频信息是有局限性的。基于此,作者提出了一种基于自我门控机制的 Frequency Adaptation Graph Convolutional Networks (FAGCN) 。核心在于实现自适应的频率信息图卷积。同时作者还分析了在学习节点特征表示过程中低频信息和高频信息扮演什么样的角色。

论文链接:https://arxiv.org/pdf/2101.00797v1.pdf
github:https://github.com/bdy9527/FAGCN

1. Important

GNN 中的低通滤波器主要保留了节点特征的共性,不可避免地忽略了差异,使得学习到的连通节点表示变得相似。由于低频信息的平滑性,该机制可以很好地应用于协调性(assortative)网络,即相似节点倾向于相互连接。然而,现实世界的网络并不总是协调性的,有时是非协调性(disassortative)的,也就是说,来自不同类别的节点往往会相互连接。例如,蛋白质中的化学相互作用经常发生在不同类型的氨基酸之间。如果我们使用低通滤波器来强制连接蛋白的表示相似,显然会很大程度上阻碍性能。这里的低频信息不足以支持这种网络的推理。在这种情况下,高频信息捕捉节点之间的差异

2. Low-frequency And High-frequency Information

总结一下:在 GNN 中如果图数据集是同配性网络(assortative)那么低通滤波有很好的表现,因为低频信息反映了节点之间的相关性。相反图数据集是异配型网络(disassortative)那么高通滤波更有优势,因为高频信息反映了节点之间的差异性。

作者提出了为了综合考虑低频信息和高频信息所需要注意的问题:

  • (1)低频和高频信号都是原始特征的组成部分。传统的滤波器是针对某一特定信号而设计的,不能很好地同时提取不同频率的信号。

  • (2)即使我们可以提取不同的信息,但是现实世界网络的协调性通常是不可知的,变化很大,而且任务与不同信息之间的相关性非常复杂,所以很难决定应该使用哪种信号:原始特征,低频信号,高频信号或它们的组合。

FAGCN 的设计策略如下:

  • 利用图信号处理的理论,定义了一个增强的低通和高通滤波器,从原始特征中分离低频和高频信号。
  • 设计一种自我门控机制,在不知道网络类型的情况下,自适应地整合低频信号、高频信号和原始特征。

3. An Experimental Investigation

作者在本节设计了一个实验详细探讨了低频信息和高频信息在学习节点的表示的时候所扮演的角色。

以低频和高频信号为例,分析它们在学习节点表示中的作用。主要思想是逐步增加合成网络的异配性,并观察这两种信号的性能如何变化

网络的生成过程如下:生成一个有 200 个节点的网络,并将其随机分为 2 类。对于第一类节点从高斯分布 N ( 0.5 , 1 ) \mathcal{N}(0.5,1) N(0.5,1) 中抽取 20 维特征向量,而对于第二类节点从高斯分布 N ( − 0.5 , 1 ) \mathcal{N}(−0.5,1) N(0.5,1) 中抽取 20 维特征向量。此外,同一类的连接是由概率 p = 0.05 p = 0.05 p=0.05 的伯努利分布产生的,两类之间的连接的概率 q q q 在 0.01 到 0.1 之间。当 q q q 较小时,网络表现出协调性;随着q的增加,网络逐渐表现出异配性。然后将 low-pass 和 high-pass 滤波器应用到节点分类任务中。一半的节点用于训练,剩下的用于测试。

在这里插入图片描述

  • 图1(a)表明,随着互连概率 q q q 的增加,低频信号的精度逐渐降低,而高频信号的精度逐渐提高。这证明了低频和高频信号都有助于学习节点表示。
  • 现有 GNN 在 q q q 增大时失效的原因是,如图1(b)所示,它们只对来自邻居的低频信号进行聚合,即使节点表示变得相似,而不管节点是否属于同一类,从而失去了判别能力。
  • 当网络异配时,高频信号的有效性就显现出来了,但如图1(a)所示,单个滤波器不能在所有情况下都达到最优结果。
  • FAGCN结合了低通滤波器和高通滤波器的优点,可以将同一类内邻居的低频信号和不同类邻居的高频信号进行聚合,如图1©所示,从而在每个合成网络上表现出最好的性能。

4. FAGCN

问题数学定义:
G ( V , E ) G(V,E) G(V,E),其邻接矩阵为 A ∈ R N × N A \in \mathbb{R}^{N \times N} ARN×N,其中 V V V 代表节点的集合并且节点的数量满足 ∣ V ∣ = N |V| = N V=N E E E 代表边的集合。对称归一化的图拉普拉斯算子被定义为 L = I n − D − 1 / 2 A D − 1 / 2 L=I_n-D^{-1/2}AD^{-1/2} L=InD1/2AD1/2,其中 D ∈ R N × N D \in \mathbb{R}^{N \times N} DRN×N 是一个对角矩阵 D i , i = ∑ j A i , j D_{i,i}=\sum_jA_{i,j} Di,i=jAi,j,并且 I n I_n In 代表一个单位矩阵。

因为 L L L 是一个实对称矩阵,因此它具有一个标准正交特征向量的完备集 { u l } l = 1 n ∈ R n \{u_l\}_{l=1}^n \in \mathbb{R}^n {ul}l=1nRn,每一个特征向量对应一个特征值 λ l ∈ [ 0 , 2 ] \lambda_l\in[0,2] λl[0,2]。基于此可以得到图拉普拉斯矩阵特征分解的形式为 L = U Λ U T L=U\Lambda U^T L=UΛUT,其中 Λ = d i a g ( [ λ 1 , … , λ n ] ) \Lambda=diag([\lambda_1, \dots, \lambda_n]) Λ=diag([λ1,,λn])

4.1 Separation

在这里插入图片描述

低频和高频信号都有助于学习节点表示。为了充分利用它们,FAGCN 设计了一个低通滤波器 F L \mathcal{F}_L FL 和一个高通滤波器 F H \mathcal{F}_H FH,将低频和高频信号从节点特征中分离出来:

F L = ϵ I + D − 1 / 2 A D − 1 / 2 = ( ϵ + 1 ) I − L , F H = ϵ I − D − 1 / 2 A D − 1 / 2 = ( ϵ − 1 ) I − L , (1) \mathcal{F}_L=\epsilon I+D^{-1/2}AD^{-1/2}=(\epsilon+1)I-L,\\ \mathcal{F}_H=\epsilon I -D^{-1/2}AD^{-1/2} = (\epsilon-1)I-L,\tag{1} FL=ϵI+D1/2AD1/2=(ϵ+1)IL,FH=ϵID1/2AD1/2=(ϵ1)IL,(1)

其中 ϵ \epsilon ϵ 代表一个超参,如果利用上述的低通滤波器和高通滤波器对原始图信号进行处理,表示形式为:
F L ∗ G x = U [ ( ϵ + 1 ) I − Λ ] U T x = F L ⋅ x , F H ∗ G x = U [ ( ϵ − 1 ) I + Λ ] U T x = F H ⋅ x . (2) \mathcal{F}_L *_G x=U[(\epsilon+1)I-\Lambda]U^Tx=\mathcal{F}_L \cdot x,\\ \mathcal{F}_H *_G x=U[(\epsilon-1)I+\Lambda]U^Tx=\mathcal{F}_H \cdot x.\tag{2} FLGx=U[(ϵ+1)IΛ]UTx=FLx,FHGx=U[(ϵ1)I+Λ]UTx=FHx.(2)

因此低通滤波 F L \mathcal{F}_L FL 的卷积核为 g θ = ( ϵ + 1 ) I − Λ g_{\theta}=(\epsilon+1)I-\Lambda gθ=(ϵ+1)IΛ,可以写作 g θ ( λ i ) = ϵ + 1 − λ i g_{\theta}(\lambda_i)=\epsilon+1-\lambda_i gθ(λi)=ϵ+1λi。但是它的振幅为负。为了避免这种情况,考虑二阶卷积核如图(b)。
因此高通滤波 F H \mathcal{F}_H FH 的卷积核为 g θ = ( ϵ − 1 ) I + Λ g_{\theta}=(\epsilon-1)I+\Lambda gθ=(ϵ1)I+Λ,可以写作 g θ ( λ i ) = ϵ − 1 + λ i g_{\theta}(\lambda_i)=\epsilon-1+\lambda_i gθ(λi)=ϵ1+λi,类似地如图(d)。

Ramrk 1(Enhanced filters)

增强过的图卷积滤波器就是滤波器的特征值部分取平方,根据图中所展示的振幅变化,可知采用增强过的图卷积核可以进一步对信号进行保留处理。

将低频和高频信号从节点特征中分离出来,为处理不同的网络提供了一种可行的方法,例如,对于同配性网络的低频信号和对于异配性网络的高频信号。然而,这种方法有两个缺点:

  1. 选择信号需要先验知识,即我们实际上事先不知道网络是分类的还是非分类的。
  2. 需要进行矩阵乘法,对于大型图来说计算复杂度不可接受

因此,需要一种能够自适应地聚集低频和高频信号的有效方法。

Remark 2(Concrete meaning of signals)

因此,低频信号 F L ⋅ x \mathcal{F}_L \cdot x FLx 的具体含义是空间域中节点特征和邻域特征的总和,而高频信号 F H ⋅ x \mathcal{F}_H \cdot x FHx 则代表了空间域中节点特征和邻域特征的区别。

总结一下:低频信号刻画信号之间的相似性,高频信号刻画信号之间的差异性

4.2 Aggregation

首先对比传统 GNN 和 FAGCN 对于信息聚合的区别
在这里插入图片描述
左侧的传统 GNN 的信息聚合方式,右侧是 FAGCN 的信息聚合方式,可以看到在进行信息聚合的时候首先对信号进行高频和低频的划分之后进行信息聚合(采用不同的权重 – 注意力机制)。

细节如下:
首先明确模型的输入: H = { h 1 , h 2 , … , h N } ∈ R N × F \mathbf{H=\{h_1,h_2,\dots,h_N\}}\in\mathbb{R}^{N \times F} H={h1,h2,,hN}RN×F,其中 F F F 是节点特征的维度。为了适应频率,一个基本的想法是利用注意机制来学习低频和高频信号的比例:

h ~ i = α i j L ( F L ⋅ H ) i + α i j H ( F H ⋅ H ) i = ϵ h i + ∑ j ∈ N i α i j L − α i j H d i d j h j (3) \mathbf{\widetilde{h}}_i=\alpha_{ij}^L(\mathcal{F}_L\cdot \mathbf{H})_i + \alpha_{ij}^H(\mathcal{F}_H\cdot \mathbf{H})_i = \epsilon\mathbf{h}_i+\sum_{j\in\mathcal{N}_i}\frac{\alpha_{ij}^L-\alpha_{ij}^H}{\sqrt{d_id_j}}\mathbf{h}_j\tag{3} h i=αijL(FLH)i+αijH(FHH)i=ϵhi+jNididj αijLαijHhj(3)

其中, h ~ i \mathbf{\widetilde{h}}_i h i 是信息聚合后节点 i i i 的信号, N i , d i \mathcal{N}_i,d_i Ni,di 代表节点 i i i 的邻居节点集合和节点的度。 α i j L , α i j H \alpha_{ij}^L,\alpha_{ij}^H αijL,αijH 代表从 j j j 节点传递给 i i i 节点的低频信息和高频信息的比列系数。并且满足如下关系 α i j L + α i j H = 1 \alpha_{ij}^L+\alpha_{ij}^H=1 αijL+αijH=1 α i j G = α i j L − α i j H \alpha_{ij}^G=\alpha_{ij}^L-\alpha_{ij}^H αijG=αijLαijH α i j G \alpha_{ij}^G αijG 可以从两个角度解释。

Remark 3 (Two perspectives of α i j G \alpha_{ij}^G αijG)

  • 代表低频信号和高频信号的聚合比例,可以从中观察到哪个信息更加重要
  • 代表邻居特征信息对于当前节点特征更新的贡献程度

为了有效地学习系数 α i j G \alpha_{ij}^G αijG,需要同时考虑节点本身及其邻居的特征,基于此本文提出了一种自我门控机制 R F × R F → R \mathbb{R}^F \times \mathbb{R}^F \rightarrow \mathbb{R} RF×RFR 去学习这个比例系数:
α i j G = t a n h ( g T [ h i ∣ ∣ h j ] ) (4) \alpha_{ij}^G=tanh(\mathbf{g^T[h_i||h_j]})\tag{4} αijG=tanh(gT[hihj])(4)

最终的信息聚合表达式为:

h i ′ = ϵ h i + ∑ j ∈ N i α i j G d i d j h j (5) \mathbf{h}_i^{'}=\epsilon\mathbf{h}_i+\sum_{j\in\mathcal{N}_i}\frac{\alpha_{ij}^G}{\sqrt{d_id_j}}\mathbf{h}_j\tag{5} hi=ϵhi+jNididj αijGhj(5)

4.3 The Whole Architecture of FAGCN

h i ( 0 ) = ϕ ( W 1 h i ) ∈ R F ′ × 1 \mathbf{h}_i^{(0)}=\phi(\mathbf{W_1h_i})\in\mathbb{R}^{F^{'}\times 1} hi(0)=ϕ(W1hi)RF×1
h i ( l ) = ϵ h i ( 0 ) + ∑ j ∈ N i α i j G d i d j h j ( l − 1 ) (6) \mathbf{h}_i^{(l)}=\epsilon\mathbf{h}_i^{(0)}+\sum_{j\in\mathcal{N}_i}\frac{\alpha_{ij}^G}{\sqrt{d_id_j}}\mathbf{h}_j^{(l-1)}\tag{6} hi(l)=ϵhi(0)+jNididj αijGhj(l1)(6)
h o u t = W 2 h i ( L ) \mathbf{h}_{out}=\mathbf{W}_2\mathbf{h}_i^{(L)} hout=W2hi(L)

其中注意力机制的权重系数的维度需要注意, W 1 ∈ R F × F ′ , W 2 ∈ R F ′ × K \mathbf{W}_1 \in \mathbb{R}^{F \times F^{'}},\mathbf{W}_2\in\mathbb{R}^{F^{'}\times K} W1RF×F,W2RF×K。其中 ϕ ( ⋅ ) \phi(\cdot) ϕ() 代表非线性激活函数, F ′ F^{'} F 代表隐藏层的维度, K K K 代表节点分类的个数

5. Experiments

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

  • 4
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting是一篇2021年发表在AAAI会议上的论文,它提出了一种名为Informer的方法,用于解决长时间序列预测的问题。\[2\]这篇论文的目标是在长时间序列预测中提高预测能力并提高效率。传统的Transformer方法在长时间序列预测上存在一些局限性,而Informer通过引入一些新的机制来克服这些局限性。\[3\]具体来说,Informer采用了一种多层次的注意力机制,以便更好地捕捉长时间序列中的依赖关系,并引入了一种自适应长度的编码器和解码器,以提高对长序列的建模能力。通过这些改进,Informer在长时间序列预测任务上取得了更好的效果。 #### 引用[.reference_title] - *1* *3* [Informer: Beyond Efficient Transformer for Long SequenceTime-Series Forecasting](https://blog.csdn.net/lwera/article/details/127389652)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [Informer:超越Transformer的长时间序列预测模型](https://blog.csdn.net/zuiyishihefang/article/details/123437169)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值