论文阅读 - VGAER: Graph Neural Network Reconstruction based Community Detection

https://arxiv.org/pdf/2201.04066.pdf

        社群检测是网络科学中一个基础而重要的问题,但基于图神经网络的社群检测算法为数不多,其中无监督算法几乎是空白。

        本文通过将高阶模块化信息与网络特征融合,首次提出了基于变异图自动编码器重构的社群检测 VGAER,并给出了其非概率版本。它们不需要任何先验信息。

        我们根据社群检测任务精心设计了相应的输入特征、解码器和下游任务,这些设计简洁、自然、性能良好(在我们的设计下,NMI 值提高了 59.1% - 56.59%)。

        基于广泛的数据集和先进方法的一系列实验,VGAER 取得了优异的性能,并以更简单的设计显示出强大的竞争力和潜力。最后,我们报告了算法收敛性分析和 t-SNE 可视化结果,这些结果清晰地描述了 VGAER 的稳定性能和强大的网络模块化能力。我们的代码见 https://github.com/qcydm/VGAER。

Introduction

        作为描绘现实世界最重要的物理工具之一,网络数据如今正逐渐向大规模、复杂化和模块化方向发展。例如,社交平台网络(Wang 等人,2015 年)、基因工程中的蛋白质相互作用网络(Pizzuti 和 Rombo,2014 年)、交通网络(Von Ferber 等人,2009 年)等。不仅节点之间存在复杂的相互作用,网络还会因为这种相互作用和节点的贡献而形成不同的群落。从拓扑学角度看,群落可以理解为内部节点连接相对紧密,外部节点连接相对稀疏。识别这种局部结构对于理解复杂系统和发现知识至关重要(Krishnamurthy 和 Wang,2000 年)。

        上述任务就是社区检测。关于社群检测的研究有很多。特别是近年来随着图神经网络的发展,2019年首次提出了基于图神经网络的社区检测方法(Chen、Li和Bruna,2017)(Shchur和G¨unnemann,2019),包括超视图方法:基于非回溯理论(Chen、Li和Bruna,2017)、基于马尔可夫随机场(Jin等,2019)和已知的无监督方法:基于复杂回归重构的方法GUCD(2020)(He等,2021a),以及基于负样本对比学习和自表达性的SE21a。2019)以及已知的无监督方法:基于复杂回归重构的方法 GUCD(2020) (He 等人,2021a)和基于负样本对比学习和自我表达的 SEComm(2021) (Bandyopadhyay 和 Peter,2021)。然而,大数据系统网络社区的先验信息(如标签)有时很稀缺,这也给上述半监督方法和几乎罕见的无监督方法带来了巨大挑战。因此,为这一领域提出更好的无监督方法就显得尤为重要。

        另一方面,经过大量全面的文献调查,我们发现目前所有的图神经网络群落检测(Chen, Li, and Bruna 2017)(Shchur and G¨unnemann 2019)(Jin et al. 2019) (He et al. 2021a),甚至所有聚类方法,如 MGAE (Wang et al. 2017)、ARGA (Pan et al. 2018)、AGC (Zhang et al. 2019)、SDCN (Bo et al. 2020) 和 AGE (Cui et al. 2020) 等。这些方法只注重保留网络结构和节点特征(A + X),以及不同正则化方法或模型设计为网络嵌入带来的聚类增益; 与以往方法根本不同的是,我们首次在基于图神经网络的社群检测中提出了一种基于模块化和网络结构(B + A + X)的无监督联合优化方法 VGAER,该方法具有严格的模块化理论基础,更适合社群检测,网络结构(A)被隐式捕获(通过消息传递阶段),无需显式重构。

        我们还注意到,Yang 在 2016 年利用这一模块化理论提出了一种基于自动编码器的非线性重构方法(记为 DNR)(Yang et al. 2016)。2018 年之后,在这项工作的基础上,又有人提出了多种整合不同网络特征的自动编码器重构方法(Cao et al. 2018)(Bha- tia and Rani 2018)(Cao, Jin, and Dang 2018)。然而,这些方法往往需要额外的操作,而且捕捉网络特征的能力有限,因此当针对未知群落结构的网络时,这种 DNR 方法的 Q 值非常低。我们将在第 4 节中演示这一现象。总之,与这些基于自动编码器的群落检测方法相比,我们的 VGAER 不仅具有更好的性能,而且还扩展到了基于自动编码器的方法尚未覆盖的变分模型中。

        最后,我们横向比较了 VGAER 和先进的基于无监督 GNN 重构的 GUCD(He et al. 2021a)的检测效果,充分显示了 VGAER 即使与最先进、最复杂的方法相比也具有很强的竞争力,以及进一步发展的潜力(如更复杂的架构和设计)。我们的创新贡献和见解如下:

        本文提出了一种基于图变分推理的全新社群检测方法,并给出了更精确的非概率版本。并在广泛的数据集和参数算法上获得了卓越的性能改进。

        - 首次提出了基于模块化和网络结构的联合优化框架。VGAER 性能的提高得益于我们模型的非线性模块化重构和邻域拉普拉斯平滑,这可以部分缓解单一模块化最大化导致的极端退化问题(Good、De Montjoye 和 Clauset,2010 年)和恢复限制(Fortunato 和 Barthelemy,2007 年)。

        - VGAER 不仅能处理群落检测任务,还具有强大的生成能力,这意味着 VGAER 还能在不同前提下根据所学分布灵活生成嵌入。我们期待 VGAER 未来能在社区节点预测、社区嵌入、个人隐私保护等方面发挥作用。我们将在附录中为这些机会描绘更广阔的图景。

Methodology

The model

        考虑一个图 G(V,E),我们可以根据公式 2 得出模块化矩阵 B。如果 G 有节点特征 X,那么

         作为一个深度生成模型,我们首先为 VGAER 设计了一个推理模型:

         其中 q (zi | B, A) 是基于高斯族的节点 i 真实后验分布的变分近似值:

         然后,我们使用两个图神经网络 µ = GCNµ(B, A) 和 log σ = GCNσ (B, A) 作为编码器来确定节点 i 的均值向量 µ 和标准偏差向量 σ:

         其中,W0 和 W1 分别代表第一层和第二层的权重矩阵。W0 由 GCNσ 和 GCNµ 共享。 是对称重规范化邻接矩阵。tanh 是激活函数。我们必须指出使用 tanh 重新设置 ReLU 的必要性,因为模块化矩阵 B 包含大量 0 元素,如果使用 ReLU,梯度将无法有效更新。

        我们还可以堆叠多个编码器,让 VGAER 完全学习平均值和标准偏差向量真实分布,从而提高其准确性。这只需要前一个编码器的输出作为下一个编码器的输入。

        在深度生成阶段,我们特别设计了一个基于交叉熵的点积解码器来重建模态分布。考虑 p(Bij | zi, zj ) 的条件分布,其中 Bij 是重构条目,zi 来自重参数化技巧。我们将 p(Bij | zi, zj ) 离散化为两部分:p(Bij = bij | zi, zj ) 和 p(Bij != bij | zi, zj ) 。同时,利用类似于 VGAE 的重新加权技术(Kipf 和 Welling,2016 年),我们用 σ(bij ) 和 (1-σ(bij )) 对这两部分重新加权:

         其中, 是一个 sigmoid 函数,与下式相同。理解公式 14 后,重新加权项的含义会更加清晰。p(B | Z) 的计算公式如下

 Optimization

        我们首先给出由最大化目标函数导出的变分下界 L(φ, θ) 如下:

         其中,B 是 G 的模块化集,(φ, θ) ∈ {W0, W1, W2} 是参数空间,并取高斯先验P(Z) =  。那么优化任务就是

         变分下界包含两个项。前一项是重建损失,后一项是衡量两个分布相似度的 KL 指数。现在我们考虑之前的具体形式如下

将公式 9 代入对数项,即可得到

         我们也可以从交叉熵的角度来理解上述公式。式 (14) 构造了条目 bij 的真实分布 σ(bij ) 与点乘重建分布 之间的负交叉熵。最大化这个项等同于最小化两个分布之间的差异,即最小化重建损失。

Non-probabilistic version

        我们还给出了一种非概率群落检测模型 GAER,只使用一个 GCN 作为编码器:

 下游任务是

         这个损失函数在实验中表现良好。至于优化,我们建议在快速群落检测任务中使用相应的 F-norm 损失,它使用两个矩阵之间的欧氏距离,δ = {W0, W1} 是参数空间。

  • 22
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值