ICML 2024 | Mila联合华为提出图连续卷积CKGConv，媲美SOTA图Transformer

最新推荐文章于 2025-01-24 10:10:07 发布

PaperWeekly

最新推荐文章于 2025-01-24 10:10:07 发布

阅读量727

点赞数 1

文章标签： transformer 深度学习人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247679368&idx=3&sn=c84815ba6a6ade71fbbdfe3cbae95edd&chksm=9712af740c3bb8d1fdfd1329cf1cc94062ac4a9161b01d33d30ef459ea2a9e13b12e3865ef2f&scene=126&sessionid=0

版权

近年来，基于 Transformer 的图模型（图 Transformer，graph Transformer)成为了一个备受关注的研究方向。有别于传统的基于信息传递机制(Message-passing）的图神经网络（简称 MPNN），图 Transformer 通过全局注意力机制来聚合全图的所有其他节点的信息，因此它能有效克服 MPNNs的过度挤压 (over-squashing)，过度平滑 (over-smoothing)，以及有限的表征能力（上界为于 1 阶 WL 算法）。

得益于图 Transformer 的设计，在对结构信息要求较高的图任务中（如[1], [2]），图 Transformer 的表现有着对 MPNNs 极大的优势 [3, 4]。

近年来，在视觉领域，不少研究者在质疑注意力机制和 Transformer 是不是唯一的“正确解”。不基于注意力机制的卷积网络(Convolution Networks, 简称ConvNet)，是否能够于达到 Transformer 一样的性能。

同样的，在图学习领域有不少研究者也在思考，是否能够不通过注意力机制来拓展 MPNNs。不基于注意力机制的图卷积网络 (Graph ConvNet [^1])，真的就一定不如图 Transformer 吗？注意力机制真的就那么重要吗？

在 ICML 2024 上，来自麦吉尔大学， Mila 魁北克人工智能研究所以及华为诺亚方舟实验室的研究者发表了一个基于连续卷积核 (continuous kernel) 的全新图卷积算子（图连续卷积 CKGConv)，基于此算子的纯图卷积网络 (CKGCN)在多个图任务中同样能够达到媲美 SOTA 图 Transformer 的性能。作者通过探索实验说明注意力机制并不是发展图神经网络唯一路径，强大的图卷积网络同样拥有其自身的优势。

论文题目：

CKGConv: General Graph Convolution with Continuous Kernels

论文链接：

https://proceedings.mlr.press/v235/ma24k.html

代码链接：

https://github.com/networkslab/CKGConv

突破信息传递限制的图卷积CKGConv

定义欧几里得空间（如图像，序列等）上的卷积（Convolution）算子，实际上是利用一个查找表 (Lookup Table) 来存储卷积核的系数。卷积核中一个位置对应一个可学习的参数。

但由于图结构的不规则性以及排列不变性，大多数基于 MPNNs 的图卷积只会有一个或两个可学习参数，所有领域中的点共享一个可学习参数（在考虑一个通道的情况下）。这个性质大大限制的普通图卷积，继而导致了过度平滑（所有领域的点共享一个参数），过度挤压（只能聚合来自相邻的点的信息）。

为了克服传统图卷积的缺点，受欧几里得空间里的正则坐标系 (canonical coordinates) 的启发，作者提出两点改进：

使用（相对/绝对）图位置编码 (PE) 来定义图的伪坐标系 (pseudo-coordinates)，使得图卷积可以定义在连续化的伪坐标系上，而不是受限于离散的图结构上（图结构空间上是不存在正则坐标系的）。

由于伪坐标的不规则性，常规卷积中的 Lookup Table 同样并不适用，作者希望借助神经网络的泛化性能来克服此问题。因此作者将卷积核视为一个由相对位置映射到卷积系数的连续函数，并且重参数 (reparameterize) 卷积核为一个神经网络（即 continuous kernel [7]）。

基于这两点，我们可以很灵活的定义图卷积运算：给图上点的信号函数 (node signal, 也称作点的表征），CKGConv 的运算为：

p 其中卷积后的信号函数和是可学习的权重矩阵和偏置向量；为逐项乘积；为伪坐标系定义下的相对位置编码；是一个基于MLP（多层感知器）的卷积核函数。是定义的图卷积支撑集（即卷积核覆盖的区域）。

作者使用了来自于 GRIT [4] 的随机游走概率编码 RRWP 来定义伪坐标系。在仅使用图连续卷积 CKGConv、不使用任何注意力机制的情况下，提出的图连续卷积网络 CKGCN 能够在多个图任务重，达到和目前性能最好的图 Transformer（如 GraphGPS [3], GRIT [4]）相当的表现。

CKGConv的性质

2.1 不局限于特定的图位置编码

为了说明 CKGConv 并不局限于使用 RRWP，作者也尝试了其他几种常见的图位置编码 PE（如电阻距离 RD [5], 最短路径距离 SPD [6]）来定义图的伪坐标系，CKGCN 也能达到接近 SOTA 图模型的表现。这说明 CKGConv 的灵活性，并不局限于某种特定的 PE。

2.2 灵活的卷积核大小

得益于神经网络的泛化性能，CKGConv 的卷积核函数可以支持任意定义的卷积核大小。同注意力机制一样，CKGConv 也可以支持可变大小的全局图卷积运算。除此之外，作者也验证了 CKGConv 可以支持非全局的卷积运算，并且进行了对比实验。实验结果说明，当卷积核大小达到一定阈值后，CKGConv 也可以达到和全局卷积相当的表现。这说明 CKGConv 具有后续拓展到更大的图数据的灵活性。

2.3 和图Transformer相当的结构表征能力

基于广义距离-WL 框架 [5]，作者也从理论上证明 CKGConv 可以拥有和图 Transformer 相当的结构表征能力。其表征能力介于 1-WL 与 3-WL 之间。

CKGConv和注意力机制的对比

注意力机制能够基于输入内容来改变权重大小，但是代价是需要 Softmax 来稳定输出的数值，这使得注意力系数必须是非负的。与注意力机制不同，CKGConv 的权重仅基于输入的图结构，因此其不会由于输入点的信号变化而变化；由于不需要额外稳定数值输出，因此 CKGConv 的卷积核是可以同时有正负的系数。作者的对卷积核的可视化也证明了这点。

作者还做了消融实验，如果强加类似注意力矩阵 (attention matrix) 的限制于 CKGConv 的卷积核 (kernel) 的系数，即卷积核系数非负且加和为一，则 CKGCN 的性能会受到一定的影响。

同时有正负卷积核系数的优势

作者同时也用两个小示例来展示同时有正负的系数的卷积核的优势。

4.1 CKGConv能够抵抗过度平滑问题

如图，作者考虑一个例子：相邻的点有不一样的图信号。作者分别训练 2 层/6 层的图卷积网络（GCN [8]）和图连续卷积网络 (CKGCN) 来重构图上的点信号。在该实验中，作者去除了所有残差连接和标准化层：2 层的 GCN 和 CKGCN 都可以 100% 的重构点信号；但是 6 层的 GCN 就无法重构点信号，展现的过度平滑导致的问题；但是 6 层的 CKGCN 依然能够 100% 重构点信号，显示它能够抵抗过度平滑问题。

4.2 CKGConv能够检测异配 (heterophily) 图信号

大部分图神经网络 (GNNs) 都较为擅长处理同配图 (homophily)，即图中相连的节点更倾向于拥有相似的特征或标签。由于大部分 GNNs 都等价于低通滤波 (Low-pass filter)，因此它们对于异配 (heterophily) 图信号的处理能力相对较弱。

受计算机视觉中的边缘检测 (edge detection^2) 启发，作者设计一个小实验去说明 CKGConv 具有检测周边信号变化较大的点的能力，即检测异配信号的能力。

如图，作者考虑一个例子：基于点信号（左），图中的点能够自然分成两个簇 (cluster)，任务是找到处于簇边缘的点（即，相邻的点有不一样的信号）。

在只考虑只有一个单通道的滤波（即卷积核）的情况下，CKGConv 的表现远好于图卷积网络的卷积 (GCNConv)。对 CKGConv 的卷积强加上 Softmax 或者 Softplus 来强制卷积系数非负，均会导致 CKGConv 检测边缘点的能力下降。这充分说明同时拥有正负卷积系数的重要之处。

结合CKGConv和注意力机制？

作者还做了一个小试验，尝试结合 CKGConv 和图注意力机制。作者分别训练多个 CKGCN 和图 Transformer (GRIT)，并对他们进行集成 (ensemble)。作者发现 GRIT 和 CKGCN 的集成比起同一模型的集成，在 ZINC 上得到更好的表现。这可能启示 CKGCN 和 GRIT 学习到的信息可能是互补的。因此，如何结合 CKGConv 和注意力机制可能是未来的研究方向。

结论

现有图卷积网络的缺陷大多数是由于图卷积（包括由其拓展的其他 MPNNs）定义于离散且排列不变的图结构上。构造符合排列不变的图伪坐标系 (pseudo-coordinate) 可以拓展图卷积的定义，克服大部分现有图卷积的缺陷（即，过度挤压，过度平滑，以及表征能力上界为于 1-WL，处理异配图能力限制等）。

使用 pseudo-coordinate 并不局限于使用注意力机制，利用连续卷积核 (continuous kernel) 可以构造出强大的图卷积 (CKGConv)，可以在理论上和实征上达到于 SOTA 图 Transformer 相当的性能。

结合连续图卷积 (CKGConv) 和注意力机制有构造出更强图模型的潜力。

参考文献

[1] Dwivedi, Vijay Prakash, Chaitanya K. Joshi, Thomas Laurent, Yoshua Bengio, and Xavier Bresson. 2022. “Benchmarking Graph Neural Networks.” Journal of Machine Learning Research.

[2] Dwivedi, Vijay Prakash, Ladislav Rampášek, Mikhail Galkin, Ali Parviz, Guy Wolf, Anh Tuan Luu, and Dominique Beaini. 2022. “Long Range Graph Benchmark.” In Adv. Neural Inf. Process. Syst. Track Datasets Benchmarks.

[3] Rampášek, Ladislav, Mikhail Galkin, Vijay Prakash Dwivedi, Anh Tuan Luu, Guy Wolf, and Dominique Beaini. 2022. “Recipe for a General, Powerful, Scalable Graph Transformer.” In Adv. Neural Inf. Process. Syst.

[4] Ma, Liheng, Chen Lin, Derek Lim, Adriana Romero-Soriano, Puneet K. Dokania, Mark Coates, Philip H.S. Torr, and Ser-Nam Lim. 2023. “Graph Inductive Biases in Transformers without Message Passing.” In Proc. Int. Conf. Mach. Learn.

[5] Zhang, Bohang, Shengjie Luo, Liwei Wang, and Di He. 2023. “Rethinking the Expressive Power of GNNs via Graph Biconnectivity.” In Proc. Int. Conf. Learn. Represent.

[6] Ying, Chengxuan, Tianle Cai, Shengjie Luo, Shuxin Zheng, Guolin Ke, Di He, Yanming Shen, and Tie-Yan Liu. 2021. “Do Transformers Really Perform Badly for Graph Representation?” In Adv. Neural Inf. Process. Syst.

[7] Romero, David W., Anna Kuzina, Erik J. Bekkers, Jakub Mikolaj Tomczak, and Mark Hoogendoorn. 2022. “CKConv: Continuous Kernel Convolution For Sequential Data.” In Proc. Int. Conf. Learn. Represent.

[8] Kipf, Thomas N., and Max Welling. 2017. “Semi-Supervised Classification with Graph Convolutional Networks.” In Proc. Int. Conf. Learn. Represent.

[^1]: 图卷积网络不一定局限为MPNNs， MPNNs也不一定局限于图卷积网络。

[^2]: 边缘检测中的边缘(edge)与图数据中的边(edge)的定义并不相同。边缘检测的目的是标识数字图像中亮度变化明显的点。

更多阅读