A Survey of Deep Graph Clustering: Taxonomy, Challenge, Application, and Open Resource(深度图聚类研究综述)

摘要

        图聚类旨在将图中的节点划分为几个不同的簇,这是一个基础但具有挑战性的任务。得益于深度学习强大的表示能力,深度图聚类方法近年来取得了巨大的成功。然而,相应的综述论文相对稀缺,有必要对这一领域进行总结。基于这一动机,我们对深度图聚类进行了全面的综述。首先,我们介绍了该领域的形式化定义、评估和发展。其次,我们根据图类型、网络架构、学习范式和聚类方法四个不同标准,介绍了深度图聚类方法的分类法。第三,我们通过广泛的实验仔细分析了现有方法,并从图数据质量、稳定性、可扩展性、辨别能力和未知簇数量五个角度总结了挑战与机遇。此外,介绍了深度图聚类方法在包括计算机视觉、自然语言处理、推荐系统、社交网络分析、生物信息学和医学科学等六个领域的应用。最后,本文提供了开放资源支持,包括1)最新深度图聚类方法(论文、代码和数据集)的集合和 2)统一框架。我们希望这项工作能作为一个快速指南,帮助研究人员克服这一活跃领域中的挑战。

论文、代码和数据集:https://github.com/yueliu1999/Awesome-Deep-Graph-Clustering

统一框架:https://github.com/Marigoldwu/A-Unified-Framework-for-Deep-Attribute-Graph-Clustering

索引术语—— 深度图聚类、图神经网络、自监督学习、聚类分析

1 引言

        图聚类是一项重要且具有挑战性的任务,旨在以无监督的方式将图中的节点划分为不同的簇。近年来,受益于深度学习强大的表示能力,尤其是图神经网络(GNNs),深度图聚类取得了丰硕的进展。然而,与深度聚类领域相比,深度图聚类的综述论文相对较少。例如,现有的文献主要集中在社区检测与深度学习的结合上。为了更好地帮助研究人员进行回顾、总结和未来的规划,迫切需要一篇全面的深度图聚类综述论文。基于这一动机,我们在本文中对深度图聚类进行了全面的综述。

        图1展示了深度图聚类的一般流程。首先,我们展示了深度图聚类的一般流程。如图1所示,编码神经网络 F 以自监督的方式进行训练,将节点嵌入到潜在空间中。编码后,聚类方法 C 将节点嵌入 Z 划分为若干不相交的簇。第2节详细讨论了深度图聚类的形式化定义和重要基准。

        其次,如图2所示,我们贡献了一种结构化分类法,从图类型、网络架构、学习范式和聚类方法四个方面对该领域进行了广泛的概述。更具体地说,输入图类型可以分为四类:纯结构图、属性图、异质图和动态图。我们分析了每种图类型的特点并介绍了相应的处理方法。此外,现有的深度图聚类方法在网络架构方面被分为基于多层感知器的模型、基于图神经网络(GNN)的方法和混合方法。我们仔细讨论了每种类型的优缺点。此外,学习范式被分为重建范式、对抗范式、对比范式和混合范式。对于每种学习范式,我们详细总结了一般流程。此外,聚类方法被分为传统聚类方法和神经聚类方法。我们分析了传统聚类方法的优缺点,并深入总结了神经聚类方法的技术演变。第3节详细阐述了深度图聚类的分类法。

        尽管取得了显著进展,这一快速发展的领域仍然面临若干关键挑战。因此,我们进行了全面的实验,总结和分析了深度图聚类的挑战。此外,我们仔细讨论了解决这些挑战的潜在机会。具体来说,图3展示了图数据质量、稳定性、可扩展性、辨别能力和未知簇数量的问题。第4节提供了详细的分析和潜在解决方案。

        此外,近年来,深度图聚类方法已经成功应用于多个领域,如社交网络分析、推荐系统、计算机视觉、自然语言处理、生物信息学、医学科学等。详细信息请参考第5节。本文的主要贡献总结如下:

  • 我们提出了一篇深度图聚类领域的综合综述论文,以帮助研究人员回顾、总结、解决挑战,并规划未来。
  • 我们基于四个方面(即图类型、网络架构、学习范式和聚类方法)设计了近期深度图聚类方法的分类法。
  • 我们进行了广泛的实验,从图数据质量、稳定性、可扩展性、辨别能力和未知簇数量五个角度总结和分析了深度图聚类领域的挑战。通过仔细分析,我们提供了潜在的技术解决方案。
  • 我们分享了两个实用的开放资源,包括最新深度图聚类方法的集合和一个统一的深度图聚类框架。

2 深度图聚类

        在本节中,我们首先介绍深度图聚类的基本符号和形式化定义。然后,讨论关键的深度图聚类基线。

 2.1 符号表示

2.2 任务定义 

2.3 发展

        在本节中,我们介绍了深度图聚类方法的发展。首先,如图4所示,我们总结了深度图聚类领域的基本基线。这些论文促进了深度图聚类的关键发展,并逐渐成为该领域的里程碑。此外,这些研究论文发表在人工智能、机器学习、数据挖掘、计算机视觉、多媒体等领域的有影响力的国际会议或高质量期刊上。在图4中,重要基线按发表时间显示。此外,为了突出深度图聚类的发展趋势,我们根据学习范式将方法大致分为四类。蓝色、红色、黄色和绿色框分别表示重建方法、对抗方法、对比方法和其他方法。我们发现,大多数早期方法基于重建和对抗学习范式。最近,对比深度图聚类方法变得流行和主流。接下来,我们详细介绍深度图聚类方法的发展。

阶段一:通过深度神经网络进行图聚类。 在早期阶段,受深度学习巨大成功的激励,研究人员旨在赋予图聚类方法强大的深度神经网络表示能力。具体来说,先驱者采用稀疏自编码器学习非线性节点表示,然后在GraphEncoder模型中执行k-means聚类,将节点嵌入分为不相交的簇。之后,DNGR通过随机游走模型捕捉图结构信息。虽然验证了有效性,但之前的方法主要学习图的结构信息,而忽略了节点属性。GAE/VGAE结合图卷积编码器和一个简单的内积解码器来学习属性和结构信息。同时,为处理异质图,提出了一种用于五个下游任务的深度异质图嵌入算法HNE。受GAE/VGAE的启发,提出了MGAE,通过图自编码器学习节点表示,并结合谱聚类算法进行聚类。

阶段二:引入对抗机制。 随后,受生成对抗机制的启发,提出了几种对抗深度图聚类方法。例如,提出了通过在对抗学习中强制对齐先验分布来训练潜在表示的ARGA/ARVGA。同样,ProGAN和CommtyGAN也利用生成对抗网络生成接近度并优化嵌入。

阶段三:统一框架和数据融合。 尽管取得了可喜的成绩,但指出之前的方法并未针对特定的聚类任务设计。为设计一个聚类导向的方法,提出了一个名为DAEGC的统一框架,采用基于注意力的图编码器和在深度聚类方法中使用的聚类对齐损失。同年,设计了一种基于拉普拉斯锐化的新对称图自编码器架构GALA。此外,提出了一个带有自适应图卷积的AGC模型,以捕捉不同邻居跳数中的聚类信息。随后,SDCN和DFCN通过传递算子和信息融合模块验证了结构信息和属性信息集成的有效性。然后,为避免谱聚类的高昂成本,公式化了归一化minCUT问题的连续松弛,并优化了基于GNN的聚类目标。随后,O2MAC 和 MAGCN 尝试利用带属性的多视图图聚类中的深度神经网络,分别通过多视图重建和视图一致性信息学习。此外,一种自监督方法SGCMC利用聚类标签来引导网络学习,从而提高聚类性能。R-GAE通过考虑特征随机性和特征漂移,重新思考基于图自编码器的深度图聚类方法。scTAG则将基于图自编码器的方法应用于单细胞RNA测序。

阶段四:应用对比学习。 最近,对比学习已成为视觉和图领域的主流范式,并提出了越来越多的对比深度图聚类方法。具体来说,AGE模型首先过滤掉节点属性中的高频噪声,然后通过自适应区分正负样本来训练编码器。同年,MVGRL生成增强的结构视图,并将一个视图中的节点嵌入与另一个视图中的图嵌入进行对比,反之亦然。随后,MCGC和HeCo扩展了对比范式至多视图聚类和异质图学习。

阶段五:改进对比学习。 尽管对比学习范式的有效性已被验证,但仍然存在许多未解决的技术问题。具体来说,GDCL提出了通过校正对比深度图聚类中的采样偏差来解决这些问题。此外,为避免不当数据增强导致的语义漂移,AFGRL通过用节点发现替代数据增强来解决该问题。不同的是,Liu等人提出了一种无增强的对比深度图聚类方法,设计了参数不共享的编码器。然后,为了优化图中的噪声连接,提出了通过生成草图图视图进行无监督结构学习的SUBLIME。此外,设计了DCRN模型中的双重相关减少策略,以缓解深度图聚类中的表示塌陷问题。为了进一步增强网络的判别能力,Liu等人引导网络学习困难样本对。CCGC提出了一种新的正负样本对构建方法。

阶段六:扩展到大规模图并应用于更复杂的场景。 然而,以前的方法无法扩展到大规模图,容易导致内存不足和长时间运行的问题。为此,Devrit等人将对比深度图聚类扩展到大规模图。此外,Dink-Net将表示学习和聚类优化统一到一个端到端框架中,通过膨胀和收缩聚类损失函数在大规模图上进行优化。此外,Shiao等人利用节点聚类方法加速图表示学习。此外,Sun等人从几何角度重新思考图聚类问题,引入异质曲率空间到深度图聚类中。为了适应同质和异质图的深度图聚类,提出了设计混合图滤波器和双重编码器的DGCN方法。最后,Wen等人提出了一个匹配未配对多视图图的框架。

2.4 评估

        本节介绍了深度图聚类的评估。深度图聚类是一种完全无监督的任务,因此在没有真实标签的情况下,很难评估深度图聚类方法的聚类性能。一般来说,一个优秀的深度图聚类算法可以学习到聚类分布,使得簇内方差小且簇间方差大。主流的评估指标可以分为两类,即外在指标和内在指标。计算外在指标需要真实标签,而计算内在指标则不需要标签。在研究中,研究人员在带有人类注释的图数据上进行实验,因此聚类的外在指标更为常见。然而,在工业场景中,节点的标签通常很稀缺,因此内在指标更为实用。

 

 

3 分类法

        我们贡献了一种结构化的分类法,以提供该领域的广泛概述。具体来说,本节从以下四个角度介绍深度图聚类方法的分类:图类型、网络架构、学习范式和聚类方法。被调查的论文根据这些标准在表2(第I部分)和表3(第II部分)中分类。接下来,我们详细介绍分类标准。

3.1 图类型

        首先,我们从深度图聚类的输入图开始。现有深度图聚类方法的输入图主要分为四类。图5展示了这四种图类型的细节。接下来,我们提供这些图类型的详细定义。

3.2 网络架构

        对于网络架构,主流的深度图聚类方法大致可以分为三类:基于MLP的方法、基于GNN的方法和混合方法。

3.2.1 基于MLP的方法

        基于MLP的方法利用多层感知机(MLP)来提取图中的信息特征。例如,GraphEncoder和DNGR通过自编码器对图结构进行编码。随后,在ProGAN和CommunityGAN中,作者采用MLP设计生成对抗网络。此外,基于MLP,AGE和SCGC设计了自适应编码器和参数不共享编码器,以将平滑的节点特征嵌入潜在空间。尽管这些方法已经证明了其有效性,但MLP难以捕捉图中非欧几里得结构信息。因此,近年来提出了基于GNN的方法。

3.2.2 基于GNN的方法

        基于GNN的方法使用图卷积网络(GCN)、图注意网络(GAT)、图自编码器等GNN编码器对非欧几里得图数据进行建模。得益于强大的图结构表示能力,基于GNN的方法表现出令人鼓舞的性能。例如,MGAE通过设计的图自编码器学习节点属性和图结构。此外,设计了一种名为GALA的新对称图自编码器。此外,GNN也被应用于异质图,如O2MAC、MAGCN、SGCMC和HeCo。然而,GNN中的转换和传播的耦合会带来大量计算开销。因此,提出了SCGC以通过解耦这两个操作来提高现有深度图聚类方法的效率和可扩展性。

3.2.3 混合方法

        最近,一些研究人员考虑整合基于MLP和基于GNN方法的优点。具体来说,将自编码器的嵌入传递到设计的传递操作符的GCN层。此外,AGCN和DFCN展示了属性特征与拓扑图特征结合的有效性。更多的对比深度图聚类方法也采用了MLP和GNN的混合架构作为骨干。

3.3 学习范式

        基于学习范式,调查的方法包含四类:重构方法、对抗方法、对比方法和混合方法。以属性图作为输入图,我们详细介绍这些深度图聚类方法的学习范式,如下所示。

图6:重构深度图聚类方法的一般流程。首先,输入图的节点通过设计的编码器编码为节点嵌入Z。随后,通过属性重构或链接重构等重构前置任务,解码器旨在从学习到的嵌入Z中恢复图信息。最终,在潜在空间中,聚类方法C将节点分组到不同的簇中。

3.3.1 重构方法

        重构方法的核心思想是强制网络编码图中的特征,然后从学习到的嵌入中恢复(部分)图信息。因此,重构方法关注图中的数据内信息,并采用节点属性和图结构作为自监督信号。重构深度图聚类方法的一般流程如图6所示。重构方法的核心设计包括编码器架构、解码器架构和重构目标函数。研究人员从这些角度改进重构方法。

3.3.2 对抗方法

        对抗深度图聚类方法通过在生成器和判别器之间创建一个零和博弈来提高特征的质量。具体来说,判别器被训练用来识别学习到的特征是否来自真实数据分布,而生成器则旨在生成混淆嵌入以欺骗判别器。在这些设置中,生成和判别操作提供了有效的自监督信号,引导网络学习高质量的嵌入。图7展示了对抗深度图聚类方法的一般流程。确定对抗方法质量的核心技术包括生成器设计、判别器设计、噪声生成和判别损失函数。几个工作旨在从这些方面提高对抗方法的性能。

图7:对抗深度图聚类方法的一般流程。首先,生成器旨在从输入图中生成高质量的节点嵌入Z。随后,判别器被训练用来区分虚假信息和学习到的特征。在自监督训练之后,聚类方法C将学习到的节点嵌入分成若干簇。

3.3.3 对比方法

        对比深度图聚类方法的核心思想是通过将正样本拉在一起同时推开负样本来提高特征的判别能力。因此,对比方法通过样本之间的有意义关系构建自监督信号,关注图中的数据内信息。对比方法的一般流程如图8所示。对比方法中的主要技术包括图数据增强、孪生编码器设计、正负样本对构建、负采样、对比学习损失函数等。这些方面经过精心修改,以增强对比学习方法的判别能力。

图8:对比深度图聚类方法的一般流程。首先,通过数据增强生成增强图,并通过编码器将节点嵌入到潜在空间中。随后,引导网络将正样本拉在一起,推开负样本。最后,将来自不同视图的节点嵌入融合,并通过聚类方法C将其分组到不同的簇中。 

3.3.4 混合方法

        近年来,一些论文展示了结合不同学习范式的有效性。例如,在ARGA中,Pan等人采用了重构和对抗学习范式。此外,研究人员也验证了重构和对比学习范式结合的有效性。此外,在AGC-DRR中,研究人员表明对抗机制是对比学习中数据增强的一种新选择。如何更好地优化多种自监督任务并使它们相互合作是另一个关键的研究课题。

3.4 聚类方法

        深度图聚类中的聚类方法旨在以无监督的方式将学习到的节点嵌入分离成不同的簇。它们大致可以分为两类:传统聚类和神经聚类。

3.4.1 传统聚类

        许多早期的深度图聚类方法中,传统聚类方法可以直接在学习到的节点嵌入上执行,将它们分组到不同的簇中。尽管这些方法在性能上取得了良好的表现,但它们有两个缺点:

  1. 聚类过程不能从深度神经网络的强大表示能力中受益,从而限制了样本的判别能力。
  2. 在这些方法中,节点表示学习和聚类学习不能在端到端的方式中联合优化,从而导致次优性能。
  3. 这些方法不易采用批量训练和批量推理技术,限制了模型在大图上的可扩展性。

3.4.2 神经聚类

        为缓解上述传统聚类方法的问题,神经聚类方法旨在通过深度神经网络将样本分组到不同的簇中。具体来说,在神经聚类方法中,聚类过程和深度神经网络通过梯度下降算法共同优化。

        例如,在许多两阶段神经聚类方法中,引入了聚类分布对齐损失来优化网络。在第一阶段,这些方法以自监督方式预训练编码器 F。之后,他们通过传统聚类算法在学习到的节点嵌入 Z 上初始化簇中心嵌入 C。在第二阶段,节点嵌入 Z和簇中心嵌入 C 之间的软分配计算如下:

4 挑战与机遇

        近年来,我们见证了深度图聚类的快速发展。越来越多的方法被提出,并取得了令人鼓舞的表现。然而,大多数方法是在一些完美的假设下进行的,深度图聚类领域仍然存在许多挑战。基于这种动机,本节旨在总结主要的技术挑战。如图3所示,深度图聚类的主要挑战包括五个方面,即图数据质量、稳定性、可扩展性、判别能力和未知簇数。在以下五个小节中,我们将通过实验分析这些挑战,并提供潜在的解决方案和机遇。

4.1 图数据质量

        现有的传统深度图聚类方法总是假设输入图是完全正确的,即节点之间的连接是完整且正确的,节点信息也是完整且精确的。然而,这些假设并不总是成立,尤其是在工业场景中。现实世界中的图数据质量通常较低。噪声来自于两个方面,即节点和边。首先,对于图中的节点,节点属性可能包含错误信息或不完整信息。具体来说,错误信息是由错误记录引起的,并在消息传递过程中容易传播到整个图中。此外,不完整信息包含两种类型,即部分属性缺失和完全属性缺失。后者更难处理。其次,对于图中的边,它们也可能包含错误信息和不完整信息。具体来说,错误信息表示节点之间的错误连接,而不完整信息表示应该存在于正确图中的缺失边。

        此外,传统的图卷积网络编码基于同质假设,即连接节点具有相似语义。然而,在现实世界中,连接节点可能没有相似特征。例如,在异质图中,如欺诈网络中,黑客和普通用户将构建密集连接,但它们不共享相似的潜在语义。为了验证深度图聚类中的这一挑战,我们在五个数据集(包括Cora、CiteSeer、BAT、EAT和UAT)上进行了实验。数据集的详细信息可以在表4和表6中找到。实验结果如表5所示。

        在表5中,我们评估了HSAN在缺失数据下的聚类性能。缺失信息包含节点属性和边。删除率分别设置为10%、30%、50%、70%和90%。从实验结果中得出以下结论:首先,当图信息缺失时,深度图聚类方法不能取得理想的性能。其次,随着删除率的增加,聚类性能下降。第三,节点属性对某些引用图(如CiteSeer数据集)的聚类性能更为关键,而边对某些机场活动图(如BAT数据集)的聚类性能更为关键。

        此外,在表6中,测试了HSAN在有噪声信息下的性能。类似地,噪声信息包含噪声节点属性和噪声边。具体来说,对于节点属性,我们添加了高斯噪声,标准差分别设置为0.01、0.1、1和10。同样地,对于图中的边,我们向邻接矩阵添加了高斯噪声,标准差分别设置为0.01、0.1、1和10。根据实验结果,我们得出两点结论:首先,属性和边的噪声限制了聚类性能。其次,当噪声率增加时,性能显著下降。

        接下来,我们讨论潜在的解决方案。首先,对于不完整的节点属性或边,填充网络可以帮助缓解信息缺失问题。此外,对于错误信息,去噪技术可能有效地去除节点属性和边的噪声。另外,为了解决同质性和异质性问题,研究人员提出了各种方法。

4.2 稳定性

        深度图聚类算法的稳定性至关重要,特别是在金融风险控制、社交网络异常检测等敏感领域。与监督方法或半监督方法不同,深度图聚类方法在完全无监督的情况下将节点分组到不同的簇中,即没有任何人工注释。因此,没有真实标签的指导,深度图聚类方法的稳定性相对较弱。例如,对于经典的聚类方法如k-Means,其出色的性能高度依赖于初始簇中心的质量。同样,深度聚类技术的性能也对神经网络和可训练簇中心的初始化非常敏感。

        接下来,我们系统地分析了深度图聚类方法中的随机性问题。主要包括以下两部分。首先,实现良好聚类性能的关键因素之一是学习到的节点嵌入的出色表示能力。因此,嵌入网络的初始化和训练过程会影响深度图聚类方法的稳定性。其次,具有强判别能力的聚类方法是另一个关键因素。因此,神经簇中心的初始化和优化过程也容易影响深度图聚类方法的稳定性。

        我们在六个数据集上进行了实验,以测试现有深度图聚类方法的稳定性,包括DBLP、CiteSeer、ACM、Amazon-Photo、PubMed和CoraFULL。比较的方法包括DCRN、DFCN、MVGRL、DAEGC、SDCN、ARGA、GAE、DEC、IDEC、AE、k-Means。所有实验结果都是通过十次运行获得的,并报告了标准偏差。实验结果表明,最近的方法的稳定性似乎很好。然而,它们在实现过程中存在许多问题。首先,经典的k-Means方法需要多次尝试初始化簇中心,才能找到理想的初始化。其次,大多数现有方法依赖于预训练的节点嵌入和簇中心嵌入。手动试验过程增加了深度图聚类方法的稳定性。然而,在现实世界中,实现这些过程代价高昂。因此,我们认为现有深度图聚类方法的稳定性被高估了。改进深度图聚类方法的鲁棒性和稳定性将是一个有前途的方向。

        在现有研究中,研究人员使用不同的随机种子进行十次运行,以减轻实验结果中的随机性影响。我们认为,一些优化策略可能会增强深度图聚类的稳定性。

5 应用

        近年来,我们见证了深度图聚类的快速发展。感谢该领域的研究人员,越来越多有前景的深度图聚类方法被提出。受益于强大的图划分能力,深度图聚类已应用于各种实际应用领域,如自然语言处理、计算机视觉、社交网络分析、推荐系统、生物信息学、医学科学等。这些应用在图14中展示。

        接下来,我们详细介绍这些应用。在计算机视觉领域,深度图聚类方法应用于人脸分析、共显著性检测和视频分析。此外,深度图聚类方法在文档挖掘、语音分离和大型语言模型中也有重要应用。在自然语言处理领域,深度图聚类对于社交网络分析至关重要。它可以用于社区检测和异常检测。同样,深度图聚类在推荐系统中表现出高应用价值。具体而言,它可以帮助用户分组推荐和用户意图提取。除了社交数据挖掘,深度图聚类在生物信息学和医学科学中也至关重要。具体来说,在生物信息学领域的应用包括分子挖掘、宏基因组分箱和单细胞RNA测序等。此外,在医学科学领域,深度图聚类方法被用于疾病分析、医学大数据和医学图像。

        未来,我们希望研究人员将进一步解决挑战,并将深度图聚类方法应用于更广泛和更重要的领域。

  • 13
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值