本文是对《Multi-view Contrastive Graph Clustering》一文的浅显翻译与理解,如有侵权即刻删除。
更多相关文章,请移步:
文献阅读总结:多视图聚类
Title
《Multi-view Contrastive Graph Clustering》
——NIPS2021
Author: 潘尔林
总结
作者讲解视频:https://www.bilibili.com/video/BV1UQ4y1m76E?spm_id_from=444.41.0.0
文章引入对比学习思想,在多视图图数据上执行聚类,提出了MCGC方法。该方法可以分为三个模块:图滤波模块用于处理原数据,图学习模块用于从多视图中学到一致图,图对比模块用于提高图的质量。注意到,这三个模块共同构建了损失函数,而全文的优化目标在于从原始图上得到优化后的图,使得聚类效果更理想,而非直接进行多视图聚类。
1 问题定义
给出多视图的图数据G,有G={V,E_1,…,E_v,X1,…,Xv},其中V表示节点集,E_v表示视图v的边集,X^v表示视图v的特征集。定义A为邻接矩阵,D为度数矩阵,则视图v上归一化的邻接矩阵A和拉普拉斯矩阵L分别为:
2 图滤波
图滤波作用在于使得图上的信号在相邻点间平滑,即趋于近似值。一定程度上保留了图的拓扑信息,也消除了一些噪声。在此,文章定义了滤波信号H,通过减少H和特征矩阵X的差值完成对图的滤波:
其中s为平衡参数,H可以通过求上式的封闭解得到:
而后,文章保留上式展开式的第一项,并且考虑更高阶的情况,就得到了m阶(m为非负整数)滤波信号的计算公式:
3 图学习
得到滤波信号后,文章对原始图进行滤波处理,得到优化后的图S。对单个视图,S的优化方法如下:
上式考虑到了数据的自表达性质,即每个点都可以通过其他点的组合完成表达。上式前一部分为重构项,后一部分为正则化项。将上述公式扩展为多视图数据的处理上,则有:
相比单视图优化,多视图优化中多出的最后一项是为了自适应地求出每个视图的权重。
4 图对比
对比学习的思想是拉近正样本,推远负例。文章将这种思想引入,进一步对图数据进行优化,可以表示为:
即使得存在边的节点对尽可能接近,没有边的节点间尽可能偏远。最终,对比学习的思想作为正则化项加入到损失函数中:
5 优化
注意到,在上述的损失函数中,存在着两类参数,一类是调节不同视图间权重的λ,一类是优化得到的图矩阵S。在此,文章选择固定一项,优化另一项的方法,对损失函数进行迭代优化。优化得到的图S,再执行经典的k-means聚类方法。文章对优化求导过程做了介绍,在此不再赘述,其算法流程如下。