图神经网络时代的深度聚类

©PaperWeekly 原创 · 作者|纪厚业

学校|北京邮电大学博士生

研究方向|图神经网络和推荐系统

聚类作为经典的无监督学习算法在数据挖掘/机器学习的发展历史中留下了不可磨灭的印记。其中,经典的聚类算法 K-Means 也被选为数据挖掘十大经典算法。随着深度学习的兴起,一些工作尝试将深度学习技术(如 Autoencoder )引入到传统聚类算法中,也取得了不错的效果。

近些年,图神经网络已经成为深度学习领域最热门的方向之一, 也在推荐/自然语言处理/计算机视觉等很多领域得到了广泛的应用。

那么,能不能利用图神经网络强大的结构捕获能力来提升聚类算法的效果呢?本文梳理总结了图神经网络赋能的深度聚类算法,供大家参考。

IJCAI 2019

论文标题:Attributed Graph Clustering: A Deep Attentional Embedding Approach

论文来源:IJCAI 2019

论文链接:https://arxiv.org/abs/1906.06532

1.1 论文动机

本文认为之前的深度聚类算法都是 two-step 的:首先学习数据的特征表示 embedding,然后基于特征表示进行数据聚类。这样所学习的数据 embedding 并不是任务导向的。那么,如果能够在学习 embedding 的过程中,针对聚类任务做一些针对性的设计,那么学习到的 embedding 自然可以实现更好的聚类。

针对上述问题,本文提出了一种聚类导向的深度算法 Deep Attentional Embedded Graph Clustering (DAEGC)。DAEGC 一边通过图神经网络来学习节点表示,一边通过一种自训练的图聚类增强同一簇节点之间的内聚性。

下图清晰的展示 two-step 和本文所提出的 DAEGC 的差异。

1.2 模型介绍

下图展示了 DAEGC 的模型框架:

可以看出,整个 DAEGC 主要包含两大模块:带有注意力机制的图自编码器+自训练聚类。

1.3 带有注意力机制的图自编码器

这里就是经典的 GAE 架构:通过对邻居的聚合来学习节点表示,然后利用节点对的内积来重构原始网络结构。比较有特色的部分就是结合注意力机制来学习邻居的权重, 这样可以更好的学习节点表示。

下式展示了融合注意力机制的 GAE 是如何聚合邻居信息来更新节点表示的。本质上就是对邻居的加权平均。

其中, 分别是聚合邻居信息前后的节点 的表示,  代表节点  的邻居集合,  表示了节点对 (i, j) 之间的注意力权重。

有了节点表示后, GAE 可以通过计算节点对的内积来重构原始网络结构,进而实现无监督的节点表示学习。

其中, 可以理解为节点对 (i, j) 间存在边的概率。最后,通过经典的 AE 重构损失 就可以对 GAE 进行训练。

1.4 自训练聚类

GAE 所学习到的节点表示只是为了更好的重构网络结构,和聚类并没有直接联系。自训练聚类模块就是对 GAE 所学习到的 embedding 进行约束和整合,使其更适合于聚类任务。假定聚类中为  , 那么节点  属于某个类别的概率  , 如下式所示:

这里,  可以看作是节点的分配的分布。进一步的, 为了引入聚类信息来实现聚类导向的节点表示, 我们需要迫使每个节点与相应的聚类中心更近一些,以实现所谓的类内距离最小,类间距离最大。因此,我们定义了如下的目标分布:

在目标分布中, 通过二次方  可以实现一种"强调"的效果(二次方后, 分布会变得更加尖锐,也更置信)。在训练过程中,分布  实际起到了一种标签的效果。最后,通过计算两个分布之间的 KL 散度,来实现互相约束,也就是所谓的自训练。

综合起来,模型最终的损失函数为:

节点  的所处于的簇 

  • 8
    点赞
  • 67
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值