论文标题
Embedding Graph Auto-Encoder for Graph Clustering
论文作者、链接
作者:Zhang, Hongyuan and Li, Pei and Zhang, Rui and Li, Xuelong
链接:Embedding Graph Auto-Encoder for Graph Clustering | IEEE Journals & Magazine | IEEE Xplore
预备知识
标识
文中矩阵都用大写字母代表,向量都用小写字母代表。对于矩阵,
是矩阵的迹,
表示矩阵所有元素都非负。
表示一个主对角线元素是
的对角矩阵。
是单位矩阵,
表示一个元素全为1的向量。如果
是负的,那么
,其中
。
是梯度操作。一般用
代表数据大小,数据维度,簇的数量。给定一个数据集
可以有以下表示:
聚类目标是将数据集分成
个簇,并且有
。
代表分配给
的样本数量。假设用一个邻接矩阵
来保存图谱。
图卷积
用邻接矩阵表示一个图谱,
代表第
个点和第
个点之间有连接,否则
。
是正则化的拉普拉斯矩阵,其中
是对角矩阵并且
,其中
是图中的结点数目。图的空间信号
可以转换到谱域通过
其中
。如果卷积核
被一个函数
约束,那么一个谱卷积可以被如下定义:
假设是对角的矩阵并且可以用切比雪夫多项式逼近。如果使用线性近似,那么卷积可以定义为:
其中,,
代表
的最大值,并且
。为了减少参数,假设
并且
。因此,上述方程为
。可以将卷积矩阵重新规范化为:
其中。因此,经过卷积处理的信号可以改写为
。如果图信号是多维的并且
卷积核是可以使用的,那么便有:
其中是需要学习的参数。从空间的角度来说,
是
的正则化拉普拉斯矩阵,也是原始图
带自环结构的邻接矩阵。
等价于从邻居结点聚合信息即
,其中
是结点
的邻居结点,
是
的第
列的向量 。
图自编码器
图自编码器GAE用多层的GCN去学习结点嵌入。GAE一般重构图谱结构,因为结点被视为一种弱的监督信息。具体来说,解码器计算两个结点的内积,将它们映射到概率空间通过sigmoid函数来计算相似性。
Introduction逻辑(论文动机&现有工作存在的问题)
聚类(图聚类),传统聚类没有利用图谱的结构信息,谱聚类模型没有使用结点特征——深度聚类深度聚类的算法没有利用结构信息——图聚类的一个高度相关的任务是网络嵌入,它是学习图节点的隐含表示(即embedding)的基本任务,基于图谱的算法没有进行域的转换,仅仅关心如何选择结点——GCN结合了基于图谱的模型和基于空间的模型,类GCN方法往往存在过拟合的问题,并且大多数忽略了生成的表示的关键特征,导致一些不合适的聚类方法应用于嵌入。并且将聚类过程和GAE的训练过程分开——本文方法
论文核心创新点
(1)证明了在一定条件下,松弛k-means可以得到内积距离的最优划分。
(2)由于GAE的解码器根据内积距离重建图,因此设计了一个特定的架构来满足理论分析的条件。
(3)特征学习和聚类是同时处理的。
相关工作
论文方法
本文在前文中介绍了两个假设,这里就不详细讲了
编码器
编码器的目标是通过多层图卷积层从原始数据中学习到嵌入。本文使用的GCN。将第
层的特征记为
:
其中是第
层的激活函数,L是编码器的总层数。根据假设1,学到的嵌入
满足
。为了满足这个条件,将激活函数设为ReLU。
写到这里不是很想follow这篇文章了,直接上流程图吧