↑↑↑关注后"星标"Datawhale
每日干货 & 每月组队学习,不错过
Datawhale干货
作者:秦州,算法工程师,Datawhale成员
一、引言
本文为GNN教程的第六篇文章 【Weisfeiler Leman算法】。前面的文章中,我们介绍了GNN的三个基本模型GCN、GraphSAGE、GAT,分析了经典的GCN逐层传播公式是如何由谱图卷积推导而来的。GNN模型现在正处于学术研究的热点话题,那么我们不经想问,GNN模型到底有多强呢?
我们的目的是分析GNN的表达能力,我们需要一个模型作为衡量标准。比如说如果我们想衡量GBDT的分类能力的话,通常情况下我们会使用同样的数据集,采用不同的分类模型如LR, RF, SVM等做对比。对于GNN模型,我们采用的对比模型叫做Weisfeiler-Leman,其常被用做图同构测试(Graph Isomorphism Test),图同构测试即给定两个图,返回他们的拓扑结构是否相同。图同构问题是一个非常难的问题,目前为止还没有多项式算法能够解决它,而Weisfeiler-Leman算法是一个多项式算法在大多数case上能够奏效,所以在这里我们用它来衡量GNN的表达能力,这篇博文详细介绍了Weisfeiler-Leman算法,作为我们分析GNN表达能力的基础。

二、Weisfeiler-Leman 算法介绍
2.1 动机
Graph 的相似性问题是指判断给定两个 Graph 是否同构。如果两个图中对应节点的特征信息(attribute)和结构信息(structure)都相同,则称这两个图同构。因此我们需要一种高效的计算方法能够将的特征信息及结构位置信息(邻居信息)隐射到一个数值,我们称这个数值为节点的ID(Identification)。最后,两个图的相似度问题可以转化为两个图节点集合ID的 Jaccard 相似度问题。
2.2 Weisfeiler-Leman 算法思路
一般地,图中的每个节点都具有特征(attribute)和结构(structure)两种信息,需要从这两方面入手,来计算几点ID。很自然地,特征信息(attribute)即节点自带的Embedding,而结构信息可以通过节点的邻居来刻画,举个例子,如果两个节点Embedding相同,并且他们连接了Embedding完全相同的邻居,我们是无法区分这两个节点的,因此这两个节点ID相同。由此,可以想到,我们可以通过 hashing 来高效判断是否两个节点ID一致。1维的Weisfeiler-Lehman正是这样做的。如果设 表示节点 的特征信息(attribute),那么 Weisfeiler-Leman 算法的更新函数可表示为: