Deep learning in graph clustering 论文两篇

最新推荐文章于 2024-06-13 16:36:39 发布

DawnRanger

最新推荐文章于 2024-06-13 16:36:39 发布

阅读量4.6k

点赞数 3

分类专栏：社团发现

本文链接：https://blog.csdn.net/DawnRanger/article/details/77235520

版权

本文介绍了两篇关于深度学习在图聚类问题中的应用论文，分别是《Learning Deep Representations for Graph Clustering》和《Modularity Based Community Detection with Deep Learning》。第一篇论文提出GraphEncoder模型，使用稀疏自编码网络进行特征提取，然后通过k-means聚类。第二篇论文引入模块度矩阵，并提出DNR模型，强调非线性表达能力，以提高社团发现的准确性。实验结果显示，DNR模型在多种数据集上表现出色。

摘要由CSDN通过智能技术生成

1. Learning Deep Representations for Graph Clustering

论文信息：Tian, Fei, et al. “Learning Deep Representations for Graph Clustering.” AAAI. 2014.

来自微软亚洲研究院，这是最早将深度学习应用于图聚类问题(graph clustering)的文章。论文的思路非常简单，首先将自编码器(autoencoder)应用到图结构中进行特征提取，然后使用 k-means 聚类。这种思路的 motivation 源于谱聚类(spectral clustering)。

由于自编码器的计算复杂度 $O(n)$ (指训练好之后的前向传播过程) 要远低于谱聚类中的特征分解 $O(n^3)$ ，因此这个方法计算复杂度低于谱聚类。其次，当加入稀疏性限制之后，自编码网络可以转化为稀疏自编码，而稀疏谱聚类却无法直接实现。

个人感觉作者提出的这两个优点都颇为牵强。关于第一个优点，抛开模型的训练时间去谈预测时间有点耍流氓了，更何况文中使用的还是深层的栈式自编码网络(SAE)；其次，拿稀疏性去要求谱聚类，这是以己之长比人之短，稀疏性只是为了避免自编码网络自身的缺陷而提出的改进策略，对图聚类的结果并没有实质的提升效果，作者也只是说这能 “improve the efficiency of the data processing”。

GraphEncoder模型

模型的核心结构是以稀疏自编码网络为基本单元构建的栈式自编码网络。给定一个 $n$ 个节点的图 $G$ ，其相似度矩阵(或邻接矩阵) $S$ , 可以将 $S$ 看成是由 $n$ 个实例组成的训练集，每个实例即为矩阵的一行。将规则化了的训练集 $D^{-1}S$ 作为模型的输入，模型的输出即为提出的特征，将这些特征作为k-means的输入，得到最终结果。

此处输入图片的描述

步骤如下：

step1 得到graph的 $n\times n$ 的邻接矩阵S和度矩阵D
step2 将 $D'S$ 作为SAE的输入，实际上是graph有n个node，作为n个sample的训练集输入到 SAE中，每个sample的feature的维度是n表示该点与其他各点的连接情况。
step3 训练SAE，文中采用的是稀疏自编码的栈式形式。（自编码器一般都采用lbfgs的最优化策略来bp，效率和效果较好）
step4 取栈底的AE的hidden层的vector作为node embedding的结果
step5 将embedding结果作为k-means的输入，进行graph cluster，最后用 NMI 来评价cluster的结果