Attributed Graph Clustering: A Deep Attentional Embedding Approach,IJCAI2019


本文的作者来自悉尼科技大学和莫纳什大学(位于澳大利亚墨尔本市)。
以往的图聚类任务分为两步:学习graph embedding,然后以节点的表示为基础应用图聚类算法(比如k-means)。但是由于图嵌入算法并不是cluster导向的(翻译成人话就是没有根据特定的cluster任务设计、优化图嵌入),因此cluster的性能不是很理想。因此,本文提出了一种目标导向的深度学习方法——深度注意嵌入式图聚类,使用一个框架联合学习embedding和cluster两个任务。首先,借助graph encoder,使用注意力网络,将图中的拓扑结构和节点内容编码为一个稠密向量化表示,并在此基础上训练一个内积解码器(inner product decoder)来重构图的结构。然后,从图嵌入本身生成soft标签(带有概率的标签),监督自训练图的聚类过程,迭代地改进聚类结果。

在这里插入图片描述

Problem Definition and Overall Framework

cluster的目的是把图 G G G分成 k k k个group: G 1 . G 2 . . . G k G_1.G_2...G_k G1.G2...Gk,每个cluster的节点通常:(1)在图结构上,节点间的距离较近;(2)更有可能具有相似的属性值。本文的模型分为两个部分:一个图注意自动编码器和一个自训练聚类模块。自动编码器以属性值和图形结构作为输入,通过最小化重构损失来学习潜在的嵌入;自训练模块根据学习到的表示进行聚类,同时根据当前聚类结果对潜在表示进行调整。整个模型的框架如图所示:
在这里插入图片描述

Proposed Method

Graph Attentional Autoencoder

Auto-encoder本质上是GAT的一个改进:
在这里插入图片描述
z i l + 1 z_i^{l+1} zil+1表示节点 i i i的输出表示, N i N_i Ni是邻居节点集合, α i j α_{ij} αij则表示节点之间的注意力系数,这个系数由属性值和拓扑距离两个方面度量。先从属性值来看:
在这里插入图片描述
GAT本质上只聚合一阶邻居,但是由于图具有复杂的结构关系,我们建议在我们的编码器中利用高阶邻居。通过考虑图中的t阶邻接节点,得到了一个近似矩阵:
在这里插入图片描述
其中, B B B是转移矩阵, B i j = 1 / d i B_{ij}=1/d_i Bij=1/di d i d_i di是节点i的degree。如果两个节点之间不存在边,那就是0。因此, M i j M_{ij} Mij就表示节点j与节点i在t阶内的拓扑相关性。然后, α i j α_{ij} αij可以写作:
在这里插入图片描述
相比于GAT,此公式添加了拓扑权重 M M M,并同样采用了LeakyReLU和softmax进行归一化。encoder是两个注意力层的叠加:
在这里插入图片描述
接下来是图decoder部分。有各种各样的解码器,它们重构图的结构、属性值或两者都重构。由于我们的潜在嵌入已经包含了内容和结构信息,所以我们选择了一种简单的内积解码器来预测节点之间的链接,这样既高效又灵活:
在这里插入图片描述
这个A^就是图的重构结构矩阵。通过测量A与其之间的差异来最小化重构误差:
在这里插入图片描述

Self-optimizing Embedding

聚类的挑战是无监督,因为节点的标签并不存在,因此开发了一种自优化的嵌入算法作为解决方案。这里要说明一下,上文得到节点的向量化表示之后,在进行聚类学习之前,需要根据传统的聚类方法(本文使用了k-means)确定聚类中心。这样,损失函数就可以由KL散度确定:
在这里插入图片描述
KL散度又称相对熵,是两个概率分布差别的非对称性的度量,所以一般计算目标分步P与实际分布Q之间的差异的时候,都会用到KL散度。其中, q i u q_{iu} qiu用于衡量节点i与聚类中心 μ μ μ的相似程度,用Student’s t分布去计算:
在这里插入图片描述
目标分布计算如下:
在这里插入图片描述
之后在训练的过程中,PQ都进行更新。目标分布P作为“ground-truth label”,但也依赖于当前的软分配Q,而软分配Q在每次迭代时都会更新。在每次迭代时更新P是危险的,因为Q作为目标的不断变化会阻碍学习和收敛。为了避免自优化过程中的不稳定性,我们在实验中每5次更新P。

Joint Embedding and Clustering Optimization

共同优化了自编码器的嵌入和聚类学习,并将我们的总目标函数定义为:
在这里插入图片描述
可以从上一次优化的Q得到cluster的结果:
在这里插入图片描述
总体的算法可以被归纳为:
在这里插入图片描述

Experiments

略。主要来学一手算法。

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

五月的echo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值