ICML 2024 | Mila联合华为提出图连续卷积CKGConv,媲美SOTA图Transformer

7a872e722c56a2295d181eb48c40e29c.gif

近年来,基于 Transformer 的图模型(图 Transformer,graph Transformer)成为了一个备受关注的研究方向。有别于传统的基于信息传递机制(Message-passing)的图神经网络(简称 MPNN),图 Transformer 通过全局注意力机制来聚合全图的所有其他节点的信息,因此它能有效克服 MPNNs的过度挤压 (over-squashing),过度平滑 (over-smoothing),以及有限的表征能力(上界为于 1 阶 WL 算法)。

得益于图 Transformer 的设计,在对结构信息要求较高的图任务中(如[1], [2]),图 Transformer 的表现有着对 MPNNs 极大的优势 [3, 4]。

近年来,在视觉领域,不少研究者在质疑注意力机制和 Transformer 是不是唯一的“正确解”。不基于注意力机制的卷积网络(Convolution Networks, 简称ConvNet),是否能够于达到 Transformer 一样的性能。

同样的,在图学习领域有不少研究者也在思考,是否能够不通过注意力机制来拓展 MPNNs。不基于注意力机制的图卷积网络 (Graph ConvNet [^1]),真的就一定不如图 Transformer 吗?注意力机制真的就那么重要吗?

在 ICML 2024 上,来自麦吉尔大学, Mila 魁北克人工智能研究所以及华为诺亚方舟实验室的研究者发表了一个基于连续卷积核 (continuous kernel) 的全新图卷积算子(图连续卷积 CKGConv),基于此算子的纯图卷积网络 (CKGCN)在多个图任务中同样能够达到媲美 SOTA 图 Transformer 的性能。作者通过探索实验说明注意力机制并不是发展图神经网络唯一路径,强大的图卷积网络同样拥有其自身的优势。

7766725ee1daed4942043fc38022ba25.png

论文题目: 

CKGConv: General Graph Convolution with Continuous Kernels

论文链接: 

https://proceedings.mlr.press/v235/ma24k.html

代码链接: 

https://github.com/networkslab/CKGConv

a6fde74bb7835b09765335c99d299f6b.png

突破信息传递限制的图卷积CKGConv

定义欧几里得空间(如图像,序列等)上的卷积(Convolution)算子,实际上是利用一个查找表 (Lookup Table) 来存储卷积核的系数。卷积核中一个位置对应一个可学习的参数。

a7363b162fb83e2a786f6613c7bee602.png

但由于图结构的不规则性以及排列不变性,大多数基于 MPNNs 的图卷积只会有一个或两个可学习参数,所有领域中的点共享一个可学习参数(在考虑一个通道的情况下)。这个性质大大限制的普通图卷积,继而导致了过度平滑(所有领域的点共享一个参数),过度挤压(只能聚合来自相邻的点的信息)。

为了克服传统图卷积的缺点,受欧几里得空间里的正则坐标系 (canonical coordinates) 的启发,作者提出两点改进:

使用(相对/绝对)图位置编码 (PE) 来定义图的伪坐标系 (pseudo-coordinates),使得图卷积可以定义在连续化的伪坐标系上,而不是受限于离散的图结构上(图结构空间上是不存在正则坐标系的)。

由于伪坐标的不规则性,常规卷积中的 Lookup Table 同样并不适用,作者希望借助神经网络的泛化性能来克服此问题。因此作者将卷积核视为一个由相对位置映射到卷积系数的连续函数,并且重参数 (reparameterize) 卷积核为一个神经网络(即 continuous kernel [7])。

2914eee0d811be7f89d02a8fa1a39402.png

基于这两点,我们可以很灵活的定义图卷积运算:给图上点的信号函数 (node signal, 也称作点的表征),CKGConv 的运算为:

53f826b00d3fb9fbfb57913377cb2b5a.png

p 其中卷积后的信号函数 和 是可学习的权重矩阵和偏置向量; 为逐项乘积; 为伪坐标系定义下的相对位置编码; 是一个基于MLP(多层感知器)的卷积核函数。 是定义的图卷积支撑集(即卷积核覆盖的区域)。

作者使用了来自于 GRIT [4] 的随机游走概率编码 RRWP 来定义伪坐标系。在仅使用图连续卷积 CKGConv、不使用任何注意力机制的情况下,提出的图连续卷积网络 CKGCN 能够在多个图任务重,达到和目前性能最好的图 Transformer(如 GraphGPS [3], GRIT [4])相当的表现。

c27478545b2cebb17ec25453a13f7a40.png

a5eeac7ae07f1f397fff365adf2fb664.png

CKGConv的性质

2.1 不局限于特定的图位置编码

为了说明 CKGConv 并不局限于使用 RRWP,作者也尝试了其他几种常见的图位置编码 PE(如电阻距离 RD [5], 最短路径距离 SPD [6])来定义图的伪坐标系,CKGCN 也能达到接近 SOTA 图模型的表现。这说明 CKGConv 的灵活性,并不局限于某种特定的 PE。

6b9cb458b7067bae9c9efd200b3e8ca8.png

2.2 灵活的卷积核大小

得益于神经网络的泛化性能,CKGConv 的卷积核函数可以支持任意定义的卷积核大小。同注意力机制一样,CKGConv 也可以支持可变大小的全局图卷积运算。除此之外,作者也验证了 CKGConv 可以支持非全局的卷积运算,并且进行了对比实验。实验结果说明,当卷积核大小达到一定阈值后,CKGConv 也可以达到和全局卷积相当的表现。这说明 CKGConv 具有后续拓展到更大的图数据的灵活性。

4d4b6bcc85cb3f52f969ae9c406957d8.png

2.3 和图Transformer相当的结构表征能力

基于广义距离-WL 框架 [5],作者也从理论上证明 CKGConv 可以拥有和图 Transformer 相当的结构表征能力。其表征能力介于 1-WL 与 3-WL 之间。

5611227d40294076fe6acec100af75ad.png

CKGConv和注意力机制的对比

注意力机制能够基于输入内容来改变权重大小,但是代价是需要 Softmax 来稳定输出的数值,这使得注意力系数必须是非负的。与注意力机制不同,CKGConv 的权重仅基于输入的图结构,因此其不会由于输入点的信号变化而变化;由于不需要额外稳定数值输出,因此 CKGConv 的卷积核是可以同时有正负的系数。作者的对卷积核的可视化也证明了这点。

318a07b38020491cf9300868ee03e287.png

作者还做了消融实验,如果强加类似注意力矩阵 (attention matrix) 的限制于 CKGConv 的卷积核 (kernel) 的系数,即卷积核系数非负且加和为一,则 CKGCN 的性能会受到一定的影响。

77e23294adf6386b7f55c72cc913cf54.png
3889f28124660d825ba87f9ad0110263.png

同时有正负卷积核系数的优势

作者同时也用两个小示例来展示同时有正负的系数的卷积核的优势。

4.1 CKGConv能够抵抗过度平滑问题

8bd1b08b8f03330208e2051e80e3738f.png

如图,作者考虑一个例子:相邻的点有不一样的图信号。作者分别训练 2 层/6 层的图卷积网络(GCN [8])和图连续卷积网络 (CKGCN) 来重构图上的点信号。在该实验中,作者去除了所有残差连接和标准化层:2 层的 GCN 和 CKGCN 都可以 100% 的重构点信号;但是 6 层的 GCN 就无法重构点信号,展现的过度平滑导致的问题;但是 6 层的 CKGCN 依然能够 100% 重构点信号,显示它能够抵抗过度平滑问题。

4.2 CKGConv能够检测异配 (heterophily) 图信号

大部分图神经网络 (GNNs) 都较为擅长处理同配图 (homophily),即图中相连的节点更倾向于拥有相似的特征或标签。由于大部分 GNNs 都等价于低通滤波 (Low-pass filter),因此它们对于异配 (heterophily) 图信号的处理能力相对较弱。

受计算机视觉中的边缘检测 (edge detection^2) 启发,作者设计一个小实验去说明 CKGConv 具有检测周边信号变化较大的点的能力,即检测异配信号的能力。

a55d1267b2cd0c64cbc4a369a1541ebf.png

如图,作者考虑一个例子:基于点信号(左),图中的点能够自然分成两个簇 (cluster),任务是找到处于簇边缘的点(即,相邻的点有不一样的信号)。

4840756f02cefe30a10b948d80c3f827.png

在只考虑只有一个单通道的滤波(即卷积核)的情况下,CKGConv 的表现远好于图卷积网络的卷积 (GCNConv)。对 CKGConv 的卷积强加上 Softmax 或者 Softplus 来强制卷积系数非负,均会导致 CKGConv 检测边缘点的能力下降。这充分说明同时拥有正负卷积系数的重要之处。

b9881ec16b46f59a84ecfc11306576e9.png

结合CKGConv和注意力机制?

作者还做了一个小试验,尝试结合 CKGConv 和图注意力机制。作者分别训练多个 CKGCN 和图 Transformer (GRIT),并对他们进行集成 (ensemble)。作者发现 GRIT 和 CKGCN 的集成比起同一模型的集成,在 ZINC 上得到更好的表现。这可能启示 CKGCN 和 GRIT 学习到的信息可能是互补的。因此,如何结合 CKGConv 和注意力机制可能是未来的研究方向。

44e4c6e3a6f786b142ba42fb118e18be.png

74b9829781effda1a2e4aba3f934a774.png

结论

现有图卷积网络的缺陷大多数是由于图卷积(包括由其拓展的其他 MPNNs)定义于离散且排列不变的图结构上。构造符合排列不变的图伪坐标系 (pseudo-coordinate) 可以拓展图卷积的定义,克服大部分现有图卷积的缺陷(即,过度挤压, 过度平滑,以及表征能力上界为于 1-WL,处理异配图能力限制等)。

使用 pseudo-coordinate 并不局限于使用注意力机制,利用连续卷积核 (continuous kernel) 可以构造出强大的图卷积 (CKGConv),可以在理论上和实征上达到于 SOTA 图 Transformer 相当的性能。

结合连续图卷积 (CKGConv) 和注意力机制有构造出更强图模型的潜力。

outside_default.png

参考文献

outside_default.png

[1] Dwivedi, Vijay Prakash, Chaitanya K. Joshi, Thomas Laurent, Yoshua Bengio, and Xavier Bresson. 2022. “Benchmarking Graph Neural Networks.” Journal of Machine Learning Research.

[2] Dwivedi, Vijay Prakash, Ladislav Rampášek, Mikhail Galkin, Ali Parviz, Guy Wolf, Anh Tuan Luu, and Dominique Beaini. 2022. “Long Range Graph Benchmark.” In Adv. Neural Inf. Process. Syst. Track Datasets Benchmarks.

[3] Rampášek, Ladislav, Mikhail Galkin, Vijay Prakash Dwivedi, Anh Tuan Luu, Guy Wolf, and Dominique Beaini. 2022. “Recipe for a General, Powerful, Scalable Graph Transformer.” In Adv. Neural Inf. Process. Syst.

[4] Ma, Liheng, Chen Lin, Derek Lim, Adriana Romero-Soriano, Puneet K. Dokania, Mark Coates, Philip H.S. Torr, and Ser-Nam Lim. 2023. “Graph Inductive Biases in Transformers without Message Passing.” In Proc. Int. Conf. Mach. Learn.

[5] Zhang, Bohang, Shengjie Luo, Liwei Wang, and Di He. 2023. “Rethinking the Expressive Power of GNNs via Graph Biconnectivity.” In Proc. Int. Conf. Learn. Represent.

[6] Ying, Chengxuan, Tianle Cai, Shengjie Luo, Shuxin Zheng, Guolin Ke, Di He, Yanming Shen, and Tie-Yan Liu. 2021. “Do Transformers Really Perform Badly for Graph Representation?” In Adv. Neural Inf. Process. Syst.

[7] Romero, David W., Anna Kuzina, Erik J. Bekkers, Jakub Mikolaj Tomczak, and Mark Hoogendoorn. 2022. “CKConv: Continuous Kernel Convolution For Sequential Data.” In Proc. Int. Conf. Learn. Represent.

[8] Kipf, Thomas N., and Max Welling. 2017. “Semi-Supervised Classification with Graph Convolutional Networks.” In Proc. Int. Conf. Learn. Represent.

[^1]: 图卷积网络不一定局限为MPNNs, MPNNs也不一定局限于图卷积网络。

[^2]: 边缘检测中的边缘(edge)与图数据中的边(edge)的定义并不相同。边缘检测的目的是标识数字图像中亮度变化明显的点。

更多阅读

316fa5413790f5d58fd7f49a0234b15d.png

9bbb44e853d795990a7575bf613aad87.png

24200bb2821740260d0e51012a2dd125.png

0a81f90044092b31a8a9516af3abfdd9.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

103ad88d814551eecfd7c88d3995609d.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

5616e881af853bfb41f0b53ba64f184b.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值