Rethinking Graph Auto-Encoder Models for Attributed Graph Clustering（重新思考带属性图聚类的图自编码器模型）

最新推荐文章于 2024-08-14 19:28:17 发布

专业发呆业余科研

最新推荐文章于 2024-08-14 19:28:17 发布

阅读量587

点赞数 28

分类专栏：文献阅读图神经网络文章标签：聚类机器学习人工智能深度学习

本文链接：https://blog.csdn.net/qq_42754434/article/details/140460349

版权

图神经网络同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

文献阅读

2 篇文章 0 订阅

订阅专栏

摘要

大多数最近的图聚类方法都采用了图自编码器（GAEs）来执行联合聚类和嵌入学习。然而，两个关键问题被忽视了。首先，由学习带有噪声的聚类分配引起的累积误差，降低了聚类模型的有效性和鲁棒性。这个问题称为特征随机性（Feature Randomness）。其次，重构邻接矩阵使得模型在聚类任务中学习无关的相似性。这个问题称为特征漂移（Feature Drift）。此外，这两个问题之间的理论关系尚未被研究。我们从两个方面研究这些问题：（1）在聚类和重构在同一级别执行时，特征随机性和特征漂移之间存在权衡；（2）相比于原始的自编码器模型，GAE模型的特征漂移问题更为明显，这是由于图卷积操作和图解码设计引起的。受到这些发现的启发，我们重新构建了基于GAE的聚类方法。我们的解决方案是双重的。首先，我们提出了一个采样操作符，触发一种针对噪声聚类分配的保护机制。其次，我们提出了一个操作符，触发一种纠正机制，通过逐渐将重构的图转化为面向聚类的图，从而对抗特征漂移。我们的解决方案显著改善了聚类的有效性，并且可以轻松地调整以适应现有的GAE模型。

1 引言

大多数最近的带属性图聚类方法利用了图嵌入技术。这种策略包括将图结构和节点内容投影到低维紧凑空间中，以利用带属性图的互补模式。图嵌入通常在聚类任务中实现可利用的表示。图嵌入文献的很大一部分围绕边建模、矩阵分解和随机游走。然而，这些方法不如深度学习的表达能力。

近年来，出现了一种有前途的图嵌入策略，被称为图神经网络（GNNs）。GNNs 将深度学习框架扩展到图结构数据中。在 GNNs 的显著类别中，我们发现了图卷积网络（GCNs），它将卷积操作推广到图数据。具体来说，图卷积操作的直觉是利用图结构来平滑其邻域中每个节点的内容特征。受到 GCNs 的启发，图自编码器（GAEs）和变分图自编码器（VGAEs）在多种带属性图聚类应用中取得了显著成果。典型的基于 GAE 的聚类方法通过图卷积层将输入数据投影到低维空间，然后重构邻接矩阵。最小化聚类任务的重构目标，排除了仅根据噪声（数据采集过程中的错误，数据中的随机波动，异常值或离群点）聚类分配训练编码器的情况，但累积误差（模型在训练过程中由于各种原因，如模型假设、训练数据有限等，未能完全准确捕捉数据模式而产生的偏差）使得训练模型捕获不代表性的特征，这反过来会破坏数据的潜在结构。在我们的分析中，我们采用了之前工作中“特征随机性（Feature Randomness, FR）”的术语来研究 GAE 上下文中的这一问题。

如前所述，添加解码器组件是优化重构目标的关键，这是降低 FR 影响的便捷方法。然而，重构图的性质通常对聚类任务存在问题。首先，现实世界的图包含噪声和与聚类无关的链接，这可能会误导模型将来自不同簇的节点分组在一起。这方面可能导致欠分割问题。其次，现实世界的图通常具有高度稀疏的结构，因此，同一簇内的连接性差会导致过度分割问题。此外，聚类和重构之间有争议的关系使得在训练过程中难以确定两者之间的静态平衡。这个问题在我们之前的工作中被称为“特征漂移（Feature Drift, FD）”，对于 GNNs 仍未探讨。

为了解决上述问题，我们从 FR 和 FD 的角度重新构建了基于 GAE 的聚类方法。我们首先将现有方法组织成两组，并为每种方法提供抽象公式。接下来，我们利用抽象描述来检查现有方法的局限性。然后，我们提供了与分析公式相关的正式表征。之后，我们提出了一个新的概念设计，可以减轻 FR 和 FD 的影响。

为了将我们的概念设计付诸实践，我们提出了两个可以轻松集成到基于 GAE 的聚类方法中的操作符。解决 FR 的可能选项是：（1）通过操作实现纠正机制，可以逆转随机性效应；（2）为模型提供保护机制，尽可能排除随机性的来源。最近，一些研究者观察到在使用随机标签进行预训练后再用干净标签进行微调，与从头开始使用干净标签训练的网络相比，导致测试准确率显著降低。从这个角度来看，我们主张通过保护策略来解决特征随机性（FR）的问题。具体来说，我们设计了一个采样操作符，通过考虑第一个高置信度和第二个高置信度聚类分配得分之间的差异，优先保证正确性。

此外，我们设计了第二个操作符，可以控制特征漂移（FD）的影响。我们的设计利用将通用目的的目标函数转化为任务特定的目标函数。不同于以往基于GAE的方法，这些方法在整个聚类过程中优化静态目标函数，我们逐渐消除图重构成本，转而采用面向聚类的图构建目标。此外，我们的第二个操作符有助于防止过度分割和欠分割问题。更具体地说，我们通过添加有助于聚类的边和去除与聚类无关的链接，逐渐更新自监督图。

我们的概念设计和操作符背后的算法直觉得到了理论和实验证据的支持。从理论上讲，我们证明了GAE聚类中FR和FD之间存在权衡。在温和假设下，我们证明了在同一层次上进行聚类和重构的图卷积操作加剧了FD问题。在实验中，我们表明我们的操作符可以显著提高现有GAE模型的聚类效果，而不会导致运行时间的额外开销。此外，我们还表明，我们的操作符可以减轻FR和FD的影响，并提供实验证据，证明了这些改进归因于我们的操作符在处理FR和FD权衡方面的能力。

本工作的意义可以总结如下：

分析：我们将基于GAE的聚类方法组织成两组，并为每种方法提供抽象公式。相应地，我们分析并形式化了与所研究公式相关的问题。然后，我们提出了一个新的概念设计，可以有利于控制FR和FD之间的权衡。从理论角度来看，我们证明了这种权衡的存在，并研究了两个重要方面，这两个方面将GAE模型与传统自编码器方法区分开来。具体来说，我们研究了在不同层次上进行聚类和重构对FR和FD的影响。此外，我们检查了图卷积操作对FD的影响。
方法：首先，我们提出一个采样操作符Ξ，触发针对FR的保护机制。其次，我们提出一个操作符℧，触发针对FD的纠正机制，通过逐渐将重构的图转化为面向聚类的图来对抗FD。
实验：我们进行了广泛的实验来研究使用我们操作符的行为和收益。我们的实验证据强烈表明，所提出的操作符通过减轻FR和FD的影响，显著提高了GAE模型的聚类性能和效果。

专业发呆业余科研

关注

28
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Rethinking Graph Auto-Encoder Models for Attributed Graph Clustering（重新思考带属性图聚类的图自编码器模型）

分析：我们将基于GAE的聚类方法组织成两组，并为每种方法提供抽象公式。相应地，我们分析并形式化了与所研究公式相关的问题。然后，我们提出了一个新的概念设计，可以有利于控制FR和FD之间的权衡。从理论角度来看，我们证明了这种权衡的存在，并研究了两个重要方面，这两个方面将GAE模型与传统自编码器方法区分开来。具体来说，我们研究了在不同层次上进行聚类和重构对FR和FD的影响。此外，我们检查了图卷积操作对FD的影响。方法：首先，我们提出一个采样操作符Ξ，触发针对FR的保护机制。
复制链接

扫一扫

专栏目录