论文阅读“Embedding Graph Auto-Encoder for Graph Clustering”(TNNLS2022)

论文标题

Embedding Graph Auto-Encoder for Graph Clustering

论文作者、链接

作者:Zhang, Hongyuan and Li, Pei and Zhang, Rui and Li, Xuelong

链接:Embedding Graph Auto-Encoder for Graph Clustering | IEEE Journals & Magazine | IEEE Xplore

代码:​​​​​​GitHub - hyzhang98/EGAE: Implementation of "Embedding Graph Auto-Encoder for Graph Clustering", IEEE Transactions on Neural Networks and Learning Systems.


预备知识

标识

文中矩阵都用大写字母代表,向量都用小写字母代表。对于矩阵Mtr(M)是矩阵的迹,m\geq 0表示矩阵所有元素都非负。diag(m)表示一个主对角线元素是m_i的对角矩阵。I是单位矩阵,\mathbf{1}_{n} \in \mathbb{R}^{n}表示一个元素全为1的向量。如果x是负的,那么sign(x)=-1,其中sign(0)=0\nabla是梯度操作。一般用n,d,c代表数据大小,数据维度,簇的数量。给定一个数据集\{x_i\}^n_{i=1}可以有以下表示:

 聚类目标是将数据集\{x_i\}^n_{i=1}分成c个簇,并且有\{\mathcal{C}_i\}^c_{i=1}|\mathcal{C}_i|代表分配给\mathcal{C}的样本数量。假设用一个邻接矩阵A来保存图谱。

图卷积

用邻接矩阵A表示一个图谱,A_{ij}=1代表第i个点和第j个点之间有连接,否则A_{ij}=0\mathcal{L}=I-D^{-(1 / 2)} A D^{-(1 / 2)}是正则化的拉普拉斯矩阵,其中D是对角矩阵并且D_{i i}=\sum_{j=1}^{n} A_{i j},其中n是图中的结点数目。图的空间信号x \in \mathbb{R}^n可以转换到谱域通过Ux其中\mathcal{L}=U^{T} \Lambda U。如果卷积核\theta被一个函数\Lambda约束,那么一个谱卷积可以被如下定义:

假设g(\Lambda ; \theta)是对角的矩阵并且可以用切比雪夫多项式逼近。如果使用线性近似,那么卷积可以定义为:

f(\boldsymbol{x} ; \boldsymbol{\theta})=U^{T}\left(\theta_{0}-\theta_{1} \tilde{\Lambda}\right) U \boldsymbol{x}=\left(\theta_{0} I-\theta_{1} \tilde{\mathcal{L}}\right) \boldsymbol{x}

其中,\tilde{\Lambda}=\left(2 / \lambda_{\max }\right) \Lambda-I\lambda _{max}代表\mathcal{L}的最大值,并且\tilde{\mathcal{L}}=U^{T} \tilde{\Lambda} U。为了减少参数,假设\theta _0=-\theta _1并且\lambda \approx 2。因此,上述方程为f(\boldsymbol{x} ; \boldsymbol{\theta})=\theta_{0}\left(I+D^{-(1 / 2)} A D^{-(1 / 2)}\right) \boldsymbol{x}。可以将卷积矩阵重新规范化为:

 其中\hat{D}_{i i}=\sum_{j=1}^{n}(I+A)_{i j}。因此,经过卷积处理的信号可以改写为f(\boldsymbol{x} ; \boldsymbol{\theta})=\theta_{0} \hat{\mathcal{L}} \boldsymbol{x}。如果图信号是多维的并且d^\prime卷积核是可以使用的,那么便有:

 其中W \in \mathbb{R}^{d \times d^{\prime}}是需要学习的参数。从空间的角度来说,\hat{\mathcal{L}}I+A的正则化拉普拉斯矩阵,也是原始图A带自环结构的邻接矩阵。\hat{\mathcal{L}}X等价于从邻居结点聚合信息即\hat{\boldsymbol{x}}_{i}=\sum_{j \in \mathcal{N}_{i}} \hat{\mathcal{L}}_{i j} \boldsymbol{x}_{i},其中\mathcal{N}_{i}是结点x_i的邻居结点,\hat{x_i}\hat{\mathcal{L}}X的第i列的向量 。

图自编码器

图自编码器GAE用多层的GCN去学习结点嵌入。GAE一般重构图谱结构,因为结点被视为一种弱的监督信息。具体来说,解码器计算两个结点的内积,将它们映射到概率空间通过sigmoid函数来计算相似性。


Introduction逻辑(论文动机&现有工作存在的问题)

聚类(图聚类),传统聚类没有利用图谱的结构信息,谱聚类模型没有使用结点特征——深度聚类深度聚类的算法没有利用结构信息——图聚类的一个高度相关的任务是网络嵌入,它是学习图节点的隐含表示(即embedding)的基本任务,基于图谱的算法没有进行域的转换,仅仅关心如何选择结点——GCN结合了基于图谱的模型和基于空间的模型,类GCN方法往往存在过拟合的问题,并且大多数忽略了生成的表示的关键特征,导致一些不合适的聚类方法应用于嵌入。并且将聚类过程和GAE的训练过程分开——本文方法

论文核心创新点

(1)证明了在一定条件下,松弛k-means可以得到内积距离的最优划分。

(2)由于GAE的解码器根据内积距离重建图,因此设计了一个特定的架构来满足理论分析的条件。

(3)特征学习和聚类是同时处理的。


相关工作

论文方法

本文在前文中介绍了两个假设,这里就不详细讲了

编码器

编码器的目标是通过多层图卷积层从原始数据中学习到嵌入Z。本文使用的GCN。将第i层的特征记为H_i

 其中\varphi _i(\cdot)是第i层的激活函数,L是编码器的总层数。根据假设1,学到的嵌入Z满足ZZ^T\geq 0。为了满足这个条件,将激活函数设为ReLU。


写到这里不是很想follow这篇文章了,直接上流程图吧

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值