文献阅读(67)TheWebConf2021-Structural Deep Clustering Network

本文是对《Structural Deep Clustering Network》一文的浅显翻译与理解,如有侵权即刻删除。

朋友们,我们在github创建了一个图学习笔记库,总结了相关文章的论文、代码和我个人的中文笔记,能够帮助大家更加便捷地找到对应论文,欢迎star~

Chinese-Reading-Notes-of-Graph-Learning

更多相关文章,请移步:
文献阅读总结:多视图聚类
文献阅读总结:网络表示学习/图学习

Title

《Structural Deep Clustering Network》

——TheWebConf2021

Author: Deyu Bo

总结

文章指出,当前图上的表示学习方法往往关注于数据的结构信息,而忽略了数据样本自身的信息。在此,文章提出了深度聚类网络SDCN,用DNN捕捉数据信息,用GCN捕捉结构信息,并建立连接将两者每层进行连接,共同生成样本表征。在损失函数方面,同时以DNN和GCN生成的分布作为自监督参照标的,优化样本嵌入表征用于聚类,如下图所示:

在这里插入图片描述

1 DNN模型

文章首先介绍了对数据样本相似度的计算方式。给定数据样本集X,每行代表一个数据样本,那么有两种方法可以计算两个数据样本间的相似度:

(1)连续数据计算,此时会引入时间t的概念,作为数据样本间的时间差(有时时间仅表示先后顺序),则有:

在这里插入图片描述

(2)离散数据计算,该类数据中不包含时间先后信息,可以直接做点积:

在这里插入图片描述

对数据样本集做相似度计算,可以得到相似度矩阵S,为任意样本选择top-K个最相似的样本,就构造了K近邻图,从而能够从数据中得到邻接矩阵A。

而后,文章选择了最经典的自编码器模型作为DNN模型,构建L层,每层对样本自身数据进行编码有:

在这里插入图片描述

其中,第一层的输入为数据样本集X本身。解码则是构建了几个全连接层,有:

在这里插入图片描述

上述出现的W和b分别为权重矩阵和偏置,是可学习参数。基于上述编码解码过程,可以构造对DNN的损失函数,使得解码得到的数据样本与原始数据尽可能相似:

在这里插入图片描述

2 GCN模型

上述提到的DNN模型关注于数据样本自身的信息,而样本间的结构信息同样重要,因此文章引入了GCN模型,来捕捉数据样本间的结构信息。

设GCN得到的样本表征为Z,则有:

在这里插入图片描述

文章还在DNN和GCN的每层间构造连接,使得两者生成的表征能够完成结合,即:

在这里插入图片描述

即在每层将GCN和DNN表征相结合,并以不同的权重予以分配,生成新的当前层GCN表征,并送入GCN的下一层中进行结构信息的捕捉,第一层的Z也是通过X送入式(8)计算得到。

文章指出,DNN的表征经过GCN层后,如果两个样本间的二阶相似度较大,GCN会使他们表征相互接近,这与二阶图正则化思想是相同的。对此,文章在原文3.5节有专门的理论分析,在此不再介绍。

GCN的最后一层是一个多分类层,由softmax构建:

在这里插入图片描述

其中,z_ij表示样本i属于聚类中心j,则Z可视为关于样本的概率分布,后续会再次用到。

3 双重自监督

文章的下游任务是聚类,而上述对样本表征的学习并没有提供一个良好的标的用于聚类任务。因此文章提出了双重自监督的策略,从数据样本中学习对照标签,用于构建损失函数。

其中,对第i个样本和第j个聚类中心,文章引入了Student’s t-distrubution作为核函数来衡量样本表征与聚类点表征的相似度,设样本表征为h,聚类中心表征为u,则有:

在这里插入图片描述

其中h来自于DNN学习到的表征矩阵H,而u来自于预训练的自编码器(文中未提及)。对任意样本和聚类点都得到概率q后,就形成了聚类结果的概率分布Q作为先验参考标的。而对实际的样本表征,可以计算得到目标概率分布P有:

在这里插入图片描述

其中f_j是对所有i对应的q_ij的加和,这是一个软聚类频率。j’表示为其他聚类中心,即在该式中,分子为样本i对聚类点j的相似度在全部样本对j相似度总和的占比,分母为样本i对其他聚类点j’的相似度在全部样本对j’相似度总和占比的加和,计算的仍然为概率形式。

则结合先验概率分布Q和目标概率分布P,可得到关于聚类的损失函数为:

在这里插入图片描述

注意到上述GCN同样计算得到了一个概率分布Z,可以作为另一项先验概率分布,从而加强自监督信息的可靠性,构造损失函数如下:

在这里插入图片描述

从而,构建了以上的双重自监督策略。最终的损失函数构造如下:

在这里插入图片描述

当模型最终训练稳定时,可以结合GCN的分布Z提取实际的聚类结果r,即:

在这里插入图片描述

4 算法流程及分析

文章的算法流程如下所示:

在这里插入图片描述

整篇文章的模型构造逻辑可推导为:

文章要在图数据或邻接矩阵相关的数据上实现聚类任务,因此需要K个聚类中心点,以及每个数据样本的表征。

为计算这些表征,文章构造了DNN对数据样本自身信息进行捕捉,并构造了GCN对样本间结构信息进行捕捉,将两者在各层之间相连接,最终能够得到样本表征。

得到的样本表征捕捉的是数据信息,而非针对聚类任务的,因此文章提出了双重自监督策略,分别从DNN和GCN的结果中提取先验概率分布作为训练标的,使得样本表征计算得到的概率分布与两个先验分布尽可能一致,从而完成了对样本表征的进一步优化。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值