组内成果 | 时间复杂度接近最优的通用图传播算法

本文介绍了KDD2021论文《ApproximateGraphPropagation》的主要内容,研究团队提出了一种通用的图节点邻近度计算范式,涵盖了多种图传播指标,如PageRank、PPR、HKPR等。他们设计的AGP算法在近似最优的时间复杂度内实现了对这些指标的高效计算。实验表明,AGP在社区发现和GNN节点分类任务中表现优秀,特别是在大型数据集Papers100M上实现了快速训练。
摘要由CSDN通过智能技术生成

点击蓝字

1859fae89386d432d7860ccb810ffb58.png

关注我们

AI TIME欢迎每一位AI爱好者的加入!

在本期专栏中,我们将给大家介绍一篇我们组发表于KDD 2021的论文《Approximate Graph Propagation》。在这篇论文中,我们将目前绝大多数的图节点邻近度指标和图神经网络特征传播形式都归纳为一个概括性的图传播范式。针对该图传播范式,我们提出了一个时间复杂度近似最优的通用算法AGP。

这篇论文由中国人民大学、香港中文大学和北京理工大学合作完成,第一作者为中国人民大学博士生王涵之、第二作者为中国人民大学博士生何明国,通讯作者为中国人民大学魏哲巍教授。论文具体信息如下:

Technical Report | Codes

b1866d49a8fb8c4a3f54ed7e26b6f148.png

专栏作者 | 王涵之,中国人民大学信息学院


前言:节点邻近度的高效计算在众多图挖掘和表示学习问题中都有着广泛的应用,例如:社区发现、图神经网络应用中的节点分类问题等。但是,现有工作普遍只着眼于某一特定的邻近度指标,而缺乏一种通用的算法以同时支持绝大多数节点邻近度指标的高效计算。本篇论文将多种节点邻近度指标归纳为一种通用的计算范式,针对该通用范式提出了一种可以高效计算绝大多数节点邻近度指标的算法AGP。通过严格的理论分析,我们证明了AGP算法可以在近似最优的时间复杂度下完成所有符合该通用范式的邻近度指标的计算,例如Personalized PageRank、Heat Kernel PageRank、transition probability、Katz、图神经网络中的特征传播过程等。我们以社区发现和图神经网络应用中的节点分类场景为例,借助大量的实验证明了AGP算法的有效性。特别地,在以GNN为基础的节点分类问题中,AGP成功将多种GNN模型的支持数据大小扩展到了目前最大的公开数据集Papers100M,AGP可以在半小时内单机单卡完成Papers100M上的训练过程。

一、研究背景:

  1. 图传播简介:

图是一类重要的数据结构,因为其强大的关系表达能力而被广泛用于刻画真实的网络结构,例如社交网络、论文引用网络、道路交通网络等。在抽象表达中,图460bccc8bc809f6d0174956bab633554.png由节点集 V 和边集 E 组成,在图学习的场景中,图节点或边上还会包含特征信息。如何准确理解图结构,如何高效捕获图结构和附加特征的信息,如何进一步深入挖掘图结构、图特征和特定任务间的关系,是图分析与学习领域的重点研究问题之一。

在目前的研究中,大多数工作尝试借助图传播来捕获图结构信息(在图学习任务中也同时聚合了特征信息),最终借助图传播的结果进行下游任务的分析和预测。例如,在社区发现中,现有工作大多按照某种图节点邻近度(node proximity,从给定源节点出发在图结构上进行概率传播,并依据计算得到的图上各节点关于源节点的邻近度概率值,借助sweep算法[Spielman & Teng, STOC'04]寻找源节点所在的社区。在图神经网络(GNN)中,可扩展的GNN普遍会先将给定的初始特征带入图结构中,基于图结构进行特征传播,再将特征传播的结果视为图上各节点的表示向量,并使用该表示向量完成下游任务的训练。因此,图传播过程的时间效率和质量对整个图分析与学习任务至关重要。

在以往的工作中,图传播框架普遍由某种图节点邻近度指标的计算形式给出,常用的图节点邻近度指标包括:PageRank、Personalized PageRank、Heat Kernel PageRank、转移概率(transition probability)、Katz等,下表列出了这些图节点邻近度指标的计算式:

7b1e8b2721de97e2af60467e4efa078e.png

在上表中, π 表示图传播向量,A 为给定图结构的邻接矩阵, D 为给定图结构的度数矩阵,d8908deba06e04e109ac8925d694c05b.png为one-hot向量α、t 、 β  、L 均为给定参数。目前在大多数的可扩展图神经网络(GNN)(即图传播与训练过程解耦的GNN)中,特征传播的方式也遵从某一指定的节点邻近度,下表列出了三种代表性的GNN模型所采用的图传播框架。我们发现,这三种GNN模型的特征传播方式基本完全遵从节点邻近度的计算式,区别在于传统的(逆)概率转移矩阵 d872faeaac77c0f5589abfd1d0cde315.png( 0a1f48b40b42b07208456bd129b23801.png )被替换为了标准化概率转移矩阵 37c15d7972336b578594639730b77cf9.png 、图特征传播的最大层数限制为 L 、起始状态下的one-hot向量被替换为特征向量。

225f62399d3fe5d73141b4410c95b488.png

2. 现存问题:

如前所述,图传播过程的计算效率至关重要。但是,现有算法普遍只着眼于某一种图节点邻近度指标,设计针对性的优化算法。因此,这些优化算法普遍不具有通用性,仅能改进某一种特定的节点邻近度。然而,现有的图节点邻近度指标各有侧重,在不同的应用问题中,研究者会根据各种邻近度指标的特性,选出最适合的邻近度指标进行图传播。例如,社区发现领域普遍采用Heat Kernel PageRank (HKPR) 结果寻找包含源节点的社区,在图神经网络模型中,SGC、APPNP、GDC三种GNN方法分别采用转移概率、PPR和HKPR进行特征传播。因此,我们归纳出如下两个重要问题:

  • 是否可以将现有的图节点邻近度指标 / GNN特征传播框架归纳为一个通用的图传播方式?

  • 是否可以面向这一通用图传播方式,设计一种时间复杂度近似最优的算法,以同时提高所有图传播方式的效率?

3. 核心贡献:

在本篇论文中,我们提出了一种通用的图节点邻近度范式,其可以概括目前绝大多数的图节点邻近度指标(如PageRank、Personalized PageRank (PPR)、Heat Kernel PageRank (HKPR)、转移概率(transition probability)、Katz等)。该通用范式如下所示:

6bc4bbdb57bfaac937f536add52b133a.png

其中,π 为图传播向量,为各传播层的权重参数, c3e9fc6f6c5971d6e2a68152cc51039a.png为通用概率转移矩阵,a  、b 是两个可调节参数(当  a=0、b=1时即为传统的概率转移矩阵 e4edbc5fb256cc5eedc837232c196957.png,当d73c0e7b4531e485c29c3d31e31e1dcf.png时即为GNN中常用的标准化概率转移矩阵 541dc385bd88789db020a2ee03671c0a.png) ,向量 x 表示初始图信号(在图节点邻近度计算中常设为one-hot向量,在图神经网络(GNN)中常设为给定的特征向量)。由上图可以看到,通过调节参数78b4f4648d7828bee8e97e67c674f83b.png的设置,该通用范式可以转化为各种节点邻近度计算式 / GNN特征传播框架。

针对上述图传播范式,在本篇论文中,我们提出了通用图传播算法AGP,首次在近似最优的时间复杂度内,得到通用图传播向量 outside_default.png 在误差要求范围内的估计结果。

  • 6a836ca4d739fec6e6026db7099b9083.png相对误差】定义:对于由通用范式计算得到的图传播向量 π ,给定相对误差阈值,我们要求AGP得到的图传播向量 π 的估计结果满足,对于图上任意节点d8ae055f1912d094b6bb062905094426.png  ,如果 cc2046c83cc8f0199af47b1fe213b0a6.png 以高概率成立(如成功概率为99%)。在本篇论文中,我们将看作常数,以常数相对误差、误差阈值来约束近似图传播结果的准确率。

二、通用图传播算法AGP:

1. 现有算法回顾:

在现有研究中,已有一些算法可以被扩展至通用图传播框架下,如Monte-Carlo随机游走和确定性传播 (Deterministic propagation) [Andersen et al., FOCS'06]等。但是这些方法普遍存在不够通用、时间复杂度较高等问题,接下来我们将具体分析Monte-Carlo随机游走和确定性传播两种算法的局限。

  • Monte-Carlo随机游走 [Fogaras et al., Internet Mathematics 2005]:

如果图传播框架为: 9862abafc7e2fe274317b16fa4cc7dab.png ,则我们可以借助Monte-Carlo随机游走得到 π 的估计。具体方法为:将向量 x 看作随机游走起始节点的概率分布(如果 d70a2e78ba52284b65512ebff24a1bb2.png,则可以先对 x 做column normalization,即按照 780e477b459cdd0bde3116f5b4ff8f49.png 所指示的概率分布选择起始节点,最后在传播过程结束后,对传播结果乘 7c71b2263cbf8d3b70762c871418e5c0.png 以保证结果无偏),从所选起始节点出发产生足够多条随机游走,第 i 步游走以 c5c98efe2e0ddf70ed10fb19a9c27c2a.png 的概率停止在当前节点,以 297eabfcef602591ef1939f9ca39094c.png的概率随机走向当前节点的任一邻居。最后,我们用所有随机游走中,停止在节点 u 的游走数占总随机游走数的比例作为对节点 u 图传播结果 d9d2d4fa45422ce8a5d8ac3f3c1194b0.png 的估计。

在通用图传播范式 3f2fd9ae6c9256d47dcc55e41ae45dba.png 中,如果 e22159494f5f83a7bb7a64277c6c7440.png,则该范式可以被等价写为: ebe4c1c6401e879ccfc02a0bf56c532c.png。我们可以将 0fbf35c3b8dc7815c64b64875e5a9935.png整体看作一个概率分布,用于选择随机游走的起始节点。按照上述游走方式进行图传播,并对返回的随机游走结果乘 作为图传播向量 π 的估计。

Monte-Carlo随机游走的优势在于直观、灵活,但是其只能处理 0e207a68e940b55f7ab9704e6a912bfd.png 的情形,而不支持类似Katz( 0623bdcb3a7bd0a48a52f6a2891d7159.png )的邻近度指标。其次,Monte-Carlo随机游走的估计结果方差较大,为了达到估计结果的误差要求,需要产生大量的随机游走,时间消耗较大。

  • 确定性传播 (Deterministic propagation) [Andersen et al., FOCS 2006]:

确定性传播算法的原型来源于Andersen等人在FOCS'06论文《Local Graph Partitioning using PageRank Vectors》里提出的Forward Search方法,虽然原论文提出Forward Search的目标是估计单源Personalized PageRank(即 a6b94d53999e886ea76e7673d7dd433d.png),但是该方法可以被很容易地拓展用于通用图传播范式的估计问题中。

在确定性传播算法中,其将图传播向量 π的计算问题拆分为对各层传播结果的估计问题,即  e1a35acf30ef3a4096273aa93de6f92e.png表示传播 i 步时的图传播向量。我们发现,对于现实生活中使用的绝大多数节点邻近度指标,超过 a32e92ad68d805e5b455cf164f79e883.png层的图传播结果均小于相对误差阈值,即我们可以仅用前 L 层图传播估计结果的加和 a4bb8a04652a1e932beeedf59d56d291.png,作为图传播向量 π 的估计值,这里 3f8b1b344068adbb90cbb0fa5265b4c0.png表示第 i 层传播结果 a253ad5a794bdb2235c35f138c0e2cb7.png 的估计值。具体而言,在计算第 i 层图传播向量的估计结果 4ebacc7a07b1f24d1122bfb33243be29.png时,我们对图上各节点 u 都维护两个变量:residue139e43606d6d5e3251972b1c28e3c23f.png和 reserve ace929e5bdbab08dcd1dc7803143cf8d.png。其中, residue 0e309221ab8d0afdfb75a806109d7b1f.png 记录图传播在第 i 步走到节点 u 的概率,reserve 9a09a76158c8847faa6c8614d1461424.png 对应图传播在第 i 步走到节点 u 并停止在节点 u 的概率。在从第 i 层到第 (i+1) 层的图传播中,所有在第 i 层的residue 5ac148bdc932ec201eaaf8aab4519e66.png的节点 u ,都将其所拥有的一部分residue: fb1cb22b244c932e2308bca846d57214.png传播到其邻居节点0a23fc7cb86d0bacff7d2cc3aa83d341.png层的residue 04f53c47fdad105220b0ab59da3e1f90.png上。此外,节点 u 在第 i 层剩下的residue: 6533848ec0dacb3c9477aac4aea841e6.png被转移到其在第 i 层的reserve abe7a84fc5bddab9c68c91f471b30e20.png上。上述过程的示意图如下所示:

110747c6a828554175eb612f2c579d2d.png

回顾上述过程,确定性传播借助确定性的概率更新,有效避免了Monte-Carlo随机游走方法存在的估计结果方差大的问题,同时也可以支持转移概率矩阵76cd49a3902813bd0e58f729c1e0f79f.png中 a+b≠1 的情况。但是,确定性传播的问题在于不够灵活,例如在下面这种bad case中,如果我们想要估计节点 s 到节点 t 的传播概率,根据确定性传播算法,从 s 出发经过一步传播就需要更新图上绝大多数节点 84e5be67b389db75e30808f41de269cf.png 的residue值,从而造成了较大的时间代价。其实在下述情景中,我们只需从节点 s 出发产生一条随机游走,就可以准确估计出从 s 传播到节点 t 的概率(任意一条随机游走,如果不在中途停止,都可以准确地从节 s 走到 t ,且没有估计方差)。

cf873c31a866fbe789dac9931adf34ab.png

2. AGP算法:

受上述Monte-Carlo随机游走和确定性传播方法的启发,在本篇论文中,我们提出了通用算法AGP。AGP算法将Monte-Carlo随机游走和确定性传播两种方法的优势巧妙结合,从而在近似最优的时间复杂度下,完成了图传播向量 π 在ee5e5439976efe167b41e96582870915.png相对误差下的估计,其中相对误差 为常数。

具体而言,对于图传播范式  180173564133fc868ec1e98b8092861e.png(如前所述,我们只关注前 749c147d0d991a37e7c37c3f5c11e212.png层的图传播结果估计,为了表达简便,这里我们省去了 π 中 L 层后的加和),当第 i 层的节点 u 向其在第 i+1 层的邻居节点 v 进行传播时, 节点 outside_default.png residue a2d3b962f7c38a8d4695e9f79957aa99.png的增加值为e94de89ea092fca1c9147cedb807c318.png 。我们注意到,对于节点 u 的所有邻居节点 v,其residue aa0179fa5cff30d9699c34ee257b078e.png 的增长量与节点 v 的度数成反比。因此,我们可以提前将图上各节点邻接表中的节点按照度数增序排列,在需要更新节点 u 邻居节点的residue时,我们只需按顺序扫描节点 u 的邻接表,判断当前邻居节点 v 对应的residue 增量 37294afd3f487a4ffa2d101bd52d6496.png是否超过阈值(分析得到该阈值和相对误差阈值 处于同一级别)。我们仅确定性地更新residue增量超过阈值的节点(如下图所示的节点 e2364a6221e93db58c12d2c07d5904d4.png),同时仅从剩余节点中采样部分节点进行residue的更新(即采样部分节点进行图传播,如下图中的节点 )。值得注意的是,这里我们之所以不直接忽略那些residue增量小于阈值的节点,而需要补充一个采样操作,是为了保证估计结果的无偏性。以上图为例,节点 c7957e9df016366d3ba98a09ca85e7df.png 的度数都相同,因此节点 s 向节点 c630fd086993e288817944b5a574e929.png 进行图传播时,节点25bcb3aaab76d4761e3586e421a1bb4c.png 的residue增量 21a032ee6576dab88ccd7acd20c6f1f4.png也都相同。当这一增量小于阈值时,如果我们只是简单地忽略所有residue增量小于阈值的节点,则会导致从 s 到 t 的传播结果为0,从而超出误差要求。因此,即使residue增量小于阈值,我们仍需要额外进行采样操作,以避免类似情况出现。

f1538965e34b1986f732cacaf49e1bf1.png

针对residue增量 89203cf585dbeaa593258df166153d35.png的节点,我们以 9dc000965bc22c92e33651daaed86b4b.png的概率采样节点 v ,对于被采样到的节点 v ,更新其residue: f96ca393f43c9cc637de619528c90c42.png 。因此,节点 v 的residue的期望增量仍然是 348a7186ae6bb90949f161e1e785b9de.png,因此采样结果是无偏的。值得注意的是,在上述对采样过程的描述中,我们其实遗漏了一个关键问题:如何能在不需要逐一查看各节点的前提下,选出采样到的节点,同时保证采样过程是独立的呢?之所以存在这一问题,原因在于:如果我们逐个判断各节点是否被采样到,则花费的时间代价和依次更新所有邻居节点 v 的residue的代价一样,无法达到节省时间的目标。因此,我们希望采样过程的时间消耗仅与最后采样到的节点个数相关。为了解决这一问题,我们采用了一种巧妙的采样技术Subset Sampling [Bringmann et al. ICALP 2012],其对应的采样代价与输出大小基本相同(仅多一个log的系数)。至此,通过结合确定性传播和基于Subset Sampling的独立采样,AGP算法最终可以在 08a548d9461d0a572e39f3ed653b5e20.png的时间复杂度下,得到图传播向量 π 在56e7da8fd69785c9b32e5e9cf6245178.png相对误差下的估计结果。在绝大多数情况下(本篇论文中提到的所有节点邻近度指标和图神经网络模型均满足),这一时间复杂度与输出大小处于同一级别(忽略log项),因此我们认为AGP拥有近似最优的时间复杂度。

  • Subset Sampling [Bringmann et al. ICALP 2012]: 我们可以将Subset Sampling技术针对的问题抽象为:对于节点 64af497129ec2d8d6aeb9b0eba4ada7c.png ,每个节点 outside_default.png 都对应一个采样概率7ed3ca41541e3740ffd709a89ff201e0.png  ,c 是所有节点共有的因子,不同节点的采样概率间相互独立。如何能面向这 n 个节点完成独立采样,使得采样过程的时间消耗与输出大小处于同一级别,即采样复杂度 3d315b7f3ec15a2cedd1ed24dd0ad8f2.png ,这里表示忽略log因子。在subset sampling中,其将所有待采样节点按照度数大小分为af53a54f2bac7ff68fa626801dff4b9f.png组,度数处于区间 8c436f97cfac06d2938142fe0ff73a06.png 的节点在第 k 组。我们注意到,在同一组内,最大的采样概率不超过最小采样概率的 8e25791615cc75c6839ad1b67e8b362e.png 倍。对于同一组(e.g. 第 k 组)内的节点,我们使用该组最大的采样概率 11056bc45ca730adefc92464bfd9ba22.png 对该组所有节点进行采样。这里我们可以借助二项分布采样的方法,先产生一个服从二项分布 8955365b7a1fe783164c025a431472ee.png 的随机数  (这里 表示第 k 组的节点数),再独立产生  个均匀随机数,取出节点ID与这  个随机数对应的节点作为这一组的预采样结果。最后,为了保证采样结果的正确性,我们还需对所有预采样节点进行一次修正检查,对于第 k 组的预采样节点 ,我们以 e46eff4e04044e2e648c7c52ff71b0ac.png 的概率拒绝节点  。通过这一修正检查的节点成为最终的采样节点。上述过程的时间复杂度为 9736995eacd4c1558935734cb5936e81.png ,在忽略log因子时,与输出大小处于同一级别。上述过程的示意如下图所示。

313f7694b5514f29848d08d9136419f2.png

三、实验结果:

为了验证AGP算法的有效性,我们分别在社区发现和基于图神经网络模型的节点分类两种应用场景下进行了实验。

  • 社区发现:目前大多数的社区发现研究都遵从相同的范式:(1)给定社区发现的种子节点 s ;(2)计算图上各节点关于源节点 s 的Heat Kernel PageRank (HKPR) 这一节点邻近度指标的分数值;(3)依据各节点的HKPR值,借助sweep操作,找到节点 s 所在的导度最小的社区。导度是一种衡量社区发现质量的指标,越小的导度值说明社区发现的质量越高。在实验环节,我们首先比较了AGP算法计算HKPR指标的query time-MaxError 的trade-off图线是否优于其他baseline方法,同时,我们还绘制了query time-导度 的trade-off图线用于衡量各种方法社区发现的质量。

4ac84837ceaaadfb543396090ce9e9f0.png
  • 基于图神经网络(GNN)的节点分类:我们借助AGP算法提升了现有GNN模型的可扩展性,具体包括SGC、APPNP、GDC。这里APPNP和GDC指将图特征传播和预测解耦后,在图传播过程分别借助PPR、HKPR进行特征传播的方法,与原始论文所述方法不尽相同。从下图实验结果中可以看到,借助AGP算法加速后的GNN模型,可以在更短的时间内与达到相同的accuracy。

0395f1c73a2dd18ef6d2e8111c67b600.png

值得注意的是,经过AGP加速后的GNN模型,首次在目前最大的GNN数据集papers100M上,单机单卡在半小时内完成图特征传播,这进一步证明了AGP的可扩展性。

4f2e7c70345ca5b70ea5a74260d3806f.gif

记得关注我们呀!每天都有新知识!

 关于AI TIME 

2019年,清华大学人工智能研究院院长张钹院士、唐杰教授和李涓子教授等人联合发起“AI TIME science debate”,希望用辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

AI TIME是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者创办的圈子。AI TIME旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家与爱好者,打造成为全球AI交流与知识分享的聚集地。

b9382e43adb0fda624c6a579a5e94f40.png

我知道你

在看

~

69b341da43cd903ff386d8882504ba40.gif

点击 阅读原文了解更多精彩内容!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值