论文笔记：AAAI 2021 Beyond Low-frequency Information in Graph Convolutional Networks

最新推荐文章于 2024-05-31 22:03:57 发布

饮冰l

最新推荐文章于 2024-05-31 22:03:57 发布

阅读量3.7k

点赞数 4

分类专栏：图文章标签：机器学习人工智能深度学习神经网络数据挖掘

本文链接：https://blog.csdn.net/qq_44015059/article/details/116093049

版权

图专栏收录该内容

66 篇文章 40 订阅

订阅专栏

前言

现有的大部分 GNN 方法集中于对图数据中的低频信息进行处理，这也产生了一个问题：真实世界中我们需要的仅仅是图中的低频信息吗？

作者在本文中进行了实验说明了在不同的条件下仅使用低频信息是有局限性的。基于此，作者提出了一种基于自我门控机制的 Frequency Adaptation Graph Convolutional Networks (FAGCN) 。核心在于实现自适应的频率信息图卷积。同时作者还分析了在学习节点特征表示过程中低频信息和高频信息扮演什么样的角色。

论文链接：https://arxiv.org/pdf/2101.00797v1.pdf
github：https://github.com/bdy9527/FAGCN

1. Important

GNN 中的低通滤波器主要保留了节点特征的共性，不可避免地忽略了差异，使得学习到的连通节点表示变得相似。由于低频信息的平滑性，该机制可以很好地应用于协调性（assortative）网络，即相似节点倾向于相互连接。然而，现实世界的网络并不总是协调性的，有时是非协调性（disassortative）的，也就是说，来自不同类别的节点往往会相互连接。例如，蛋白质中的化学相互作用经常发生在不同类型的氨基酸之间。如果我们使用低通滤波器来强制连接蛋白的表示相似，显然会很大程度上阻碍性能。这里的低频信息不足以支持这种网络的推理。在这种情况下，高频信息捕捉节点之间的差异。

2. Low-frequency And High-frequency Information

总结一下：在 GNN 中如果图数据集是同配性网络（assortative）那么低通滤波有很好的表现，因为低频信息反映了节点之间的相关性。相反图数据集是异配型网络（disassortative）那么高通滤波更有优势，因为高频信息反映了节点之间的差异性。

作者提出了为了综合考虑低频信息和高频信息所需要注意的问题：

(1)低频和高频信号都是原始特征的组成部分。传统的滤波器是针对某一特定信号而设计的，不能很好地同时提取不同频率的信号。
(2)即使我们可以提取不同的信息，但是现实世界网络的协调性通常是不可知的，变化很大，而且任务与不同信息之间的相关性非常复杂，所以很难决定应该使用哪种信号:原始特征，低频信号，高频信号或它们的组合。

FAGCN 的设计策略如下：

利用图信号处理的理论，定义了一个增强的低通和高通滤波器，从原始特征中分离低频和高频信号。
设计一种自我门控机制，在不知道网络类型的情况下，自适应地整合低频信号、高频信号和原始特征。

3. An Experimental Investigation

作者在本节设计了一个实验详细探讨了低频信息和高频信息在学习节点的表示的时候所扮演的角色。

以低频和高频信号为例，分析它们在学习节点表示中的作用。主要思想是逐步增加合成网络的异配性，并观察这两种信号的性能如何变化。

网络的生成过程如下：生成一个有 200 个节点的网络，并将其随机分为 2 类。对于第一类节点从高斯分布 $\mathcal{N}(0.5,1)$ 中抽取 20 维特征向量，而对于第二类节点从高斯分布 $\mathcal{N}(−0.5,1)$ 中抽取 20 维特征向量。此外，同一类的连接是由概率 $p = 0.05$ 的伯努利分布产生的，两类之间的连接的概率 $q$ 在 0.01 到 0.1 之间。当 $q$ 较小时，网络表现出协调性;随着q的增加，网络逐渐表现出异配性。然后将 low-pass 和 high-pass 滤波器应用到节点分类任务中。一半的节点用于训练，剩下的用于测试。

在这里插入图片描述

图1(a)表明，随着互连概率 $q$ 的增加，低频信号的精度逐渐降低，而高频信号的精度逐渐提高。这证明了低频和高频信号都有助于学习节点表示。
现有 GNN 在 $q$ 增大时失效的原因是，如图1(b)所示，它们只对来自邻居的低频信号进行聚合，即使节点表示变得相似，而不管节点是否属于同一类，从而失去了判别能力。
当网络异配时，高频信号的有效性就显现出来了，但如图1(a)所示，单个滤波器不能在所有情况下都达到最优结果。
FAGCN结合了低通滤波器和高通滤波器的优点，可以将同一类内邻居的低频信号和不同类邻居的高频信号进行聚合，如图1©所示，从而在每个合成网络上表现出最好的性能。

4. FAGCN

问题数学定义：
图 $G (V, E)$ ，其邻接矩阵为 $\in \mathbb{R}^{N \times N}$ ，其中 $V$ 代表节点的集合并且节点的数量满足 $∣ V ∣ = N$ 。 $E$ 代表边的集合。对称归一化的图拉普拉斯算子被定义为 $L=I_n-D^{-1/2}AD^{-1/2}$ ，其中 $\in \mathbb{R}^{N \times N}$ 是一个对角矩阵 $D_{i,i}=\sum_jA_{i,j}$ ，并且 $I_n$ 代表一个单位矩阵。

因为 $L$ 是一个实对称矩阵，因此它具有一个标准正交特征向量的完备集 $\{u_l\}_{l=1}^n \in \mathbb{R}^n$ ，每一个特征向量对应一个特征值 $\lambda_l\in[0,2]$ 。基于此可以得到图拉普拉斯矩阵特征分解的形式为 $L=U\Lambda U^T$ ，其中 $\Lambda=diag([\lambda_1, \dots, \lambda_n])$

4.1 Separation

在这里插入图片描述

低频和高频信号都有助于学习节点表示。为了充分利用它们，FAGCN 设计了一个低通滤波器 $\mathcal{F}_L$ 和一个高通滤波器 $\mathcal{F}_H$ ，将低频和高频信号从节点特征中分离出来：

$\mathcal{F}_L=\epsilon I+D^{-1/2}AD^{-1/2}=(\epsilon+1)I-L,\\ \mathcal{F}_H=\epsilon I -D^{-1/2}AD^{-1/2} = (\epsilon-1)I-L,\tag{1}$

其中 $\epsilon$ 代表一个超参，如果利用上述的低通滤波器和高通滤波器对原始图信号进行处理，表示形式为：
$\mathcal{F}_L *_G x=U[(\epsilon+1)I-\Lambda]U^Tx=\mathcal{F}_L \cdot x,\\ \mathcal{F}_H *_G x=U[(\epsilon-1)I+\Lambda]U^Tx=\mathcal{F}_H \cdot x.\tag{2}$

因此低通滤波 $\mathcal{F}_L$ 的卷积核为 $g_{\theta}=(\epsilon+1)I-\Lambda$ ，可以写作 $g_{\theta}(\lambda_i)=\epsilon+1-\lambda_i$ 。但是它的振幅为负。为了避免这种情况，考虑二阶卷积核如图(b)。
因此高通滤波 $\mathcal{F}_H$ 的卷积核为 $g_{\theta}=(\epsilon-1)I+\Lambda$ ，可以写作 $g_{\theta}(\lambda_i)=\epsilon-1+\lambda_i$ ，类似地如图(d)。

Ramrk 1(Enhanced filters)

增强过的图卷积滤波器就是滤波器的特征值部分取平方，根据图中所展示的振幅变化，可知采用增强过的图卷积核可以进一步对信号进行保留处理。

将低频和高频信号从节点特征中分离出来，为处理不同的网络提供了一种可行的方法，例如，对于同配性网络的低频信号和对于异配性网络的高频信号。然而，这种方法有两个缺点：

选择信号需要先验知识，即我们实际上事先不知道网络是分类的还是非分类的。
需要进行矩阵乘法，对于大型图来说计算复杂度不可接受

因此，需要一种能够自适应地聚集低频和高频信号的有效方法。

Remark 2（Concrete meaning of signals）

因此，低频信号 $\mathcal{F}_L \cdot x$ 的具体含义是空间域中节点特征和邻域特征的总和，而高频信号 $\mathcal{F}_H \cdot x$ 则代表了空间域中节点特征和邻域特征的区别。

总结一下：低频信号刻画信号之间的相似性，高频信号刻画信号之间的差异性

4.2 Aggregation

首先对比传统 GNN 和 FAGCN 对于信息聚合的区别
在这里插入图片描述
左侧的传统 GNN 的信息聚合方式，右侧是 FAGCN 的信息聚合方式，可以看到在进行信息聚合的时候首先对信号进行高频和低频的划分之后进行信息聚合（采用不同的权重 – 注意力机制）。

细节如下：
首先明确模型的输入： $\mathbf{H=\{h_1,h_2,\dots,h_N\}}\in\mathbb{R}^{N \times F}$ ，其中 $F$ 是节点特征的维度。为了适应频率，一个基本的想法是利用注意机制来学习低频和高频信号的比例：

$\mathbf{\widetilde{h}}_i=\alpha_{ij}^L(\mathcal{F}_L\cdot \mathbf{H})_i + \alpha_{ij}^H(\mathcal{F}_H\cdot \mathbf{H})_i = \epsilon\mathbf{h}_i+\sum_{j\in\mathcal{N}_i}\frac{\alpha_{ij}^L-\alpha_{ij}^H}{\sqrt{d_id_j}}\mathbf{h}_j\tag{3}$

其中， $\mathbf{\widetilde{h}}_i$ 是信息聚合后节点 $i$ 的信号， $\mathcal{N}_i,d_i$ 代表节点 $i$ 的邻居节点集合和节点的度。 $\alpha_{ij}^L,\alpha_{ij}^H$ 代表从 $j$ 节点传递给 $i$ 节点的低频信息和高频信息的比列系数。并且满足如下关系 $\alpha_{ij}^L+\alpha_{ij}^H=1$ ， $\alpha_{ij}^G=\alpha_{ij}^L-\alpha_{ij}^H$ 。 $\alpha_{ij}^G$ 可以从两个角度解释。

Remark 3 (Two perspectives of $\alpha_{ij}^G$ )：

代表低频信号和高频信号的聚合比例，可以从中观察到哪个信息更加重要
代表邻居特征信息对于当前节点特征更新的贡献程度

为了有效地学习系数 $\alpha_{ij}^G$ ，需要同时考虑节点本身及其邻居的特征，基于此本文提出了一种自我门控机制 $\mathbb{R}^F \times \mathbb{R}^F \rightarrow \mathbb{R}$ 去学习这个比例系数：
$\alpha_{ij}^G=tanh(\mathbf{g^T[h_i||h_j]})\tag{4}$

最终的信息聚合表达式为：

$\mathbf{h}_i^{'}=\epsilon\mathbf{h}_i+\sum_{j\in\mathcal{N}_i}\frac{\alpha_{ij}^G}{\sqrt{d_id_j}}\mathbf{h}_j\tag{5}$

4.3 The Whole Architecture of FAGCN

$\mathbf{h}_i^{(0)}=\phi(\mathbf{W_1h_i})\in\mathbb{R}^{F^{'}\times 1}$
$\mathbf{h}_i^{(l)}=\epsilon\mathbf{h}_i^{(0)}+\sum_{j\in\mathcal{N}_i}\frac{\alpha_{ij}^G}{\sqrt{d_id_j}}\mathbf{h}_j^{(l-1)}\tag{6}$
$\mathbf{h}_{out}=\mathbf{W}_2\mathbf{h}_i^{(L)}$

其中注意力机制的权重系数的维度需要注意， $\mathbf{W}_1 \in \mathbb{R}^{F \times F^{'}},\mathbf{W}_2\in\mathbb{R}^{F^{'}\times K}$ 。其中 $\phi(\cdot)$ 代表非线性激活函数， $F^{'}$ 代表隐藏层的维度， $K$ 代表节点分类的个数

5. Experiments

在这里插入图片描述

饮冰l

关注

4
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
论文笔记：AAAI 2021 Beyond Low-frequency Information in Graph Convolutional Networks

前言现有的大部分 GNN 方法集中于对图数据中的低频信息进行处理，这也产生了一个问题：真实世界中我们需要的仅仅是图中的低频信息吗？作者在本文中进行了实验说明了在不同的条件下仅使用低频信息是有局限性的。基于此，作者提出了一种基于自我门控机制的 Frequency Adaptation Graph Convolutional Networks (FAGCN) 。核心在于实现自适应的频率信息图卷积。同时作者还分析了在学习节点特征表示过程中低频信息和高频信息扮演什么样的角色。论文链接：https://arxi
复制链接

扫一扫

专栏目录