本人认为这篇文章最大的创新就是这个图对比降噪,降噪也是数据处理方面值得考虑和继续创新的一个点。
摘要:
我们提出了一种新的不完全多视图聚类统一图对比学习框架(UGCF),它联合学习数据恢复、图对比去噪和聚类。具体来说,UGCF首先通过利用每个视图中的保守关系恢复丢失的值,并保留数据中的局部结构。其次,UGCF通过学习每个视图对象的关联结构来消除多视图数据的异构性,并通过操纵关联图的拓扑结构来构建多视图数据的统一图。为了提高顶点特征的质量,通过选择正、负样本对统一的图进行图对比学习,大大提高了特征的判别性,从而消除了数据中的噪声。最后,UGCF将数据恢复、图对比去噪和聚类集成到一个总体目标中。
符号:
特征邻接矩阵:这个作者本人也不是很懂,大概是用更厉害的方法表示图中的顶点之间的关系,得到更厉害的特征。这个概念在《Lifelong Graph Learning》中有给出。
Model:
特征学习和数据恢复:
然而,由于缺少实例,NMF不能直接应用于不完整的多视图数据。设矩阵M[v]为X[v]中缺失实例的数据矩阵.为了恢复缺失的数据矩阵M[v],我们根据每个视图的特征和拓扑结构来利用完整和不完整实例之间的关系。换句话说,我们为每个具有k近邻(p= 8的KNN)的视图v构建了一个图W[v]。我们期望缺失和完整实例在多视图数据的结构表征上是一致的,即缺失实例M[v]也保留了W[v]的结构。因此,UGCF通过保留W[v]的局部结构来学习缺失实例M[v],其表述为跟踪优化,即:
其中,B[v]和F[v]分别为v-th视图的基矩阵和潜在特征矩阵,φ它是一个指示函数,用于将推断的实例映射回X[v]中的原始位置。
我们假设多视图数据从潜在空间的相同分布中采样,其中各种视图一致表示。因此,UGCF旨在识别不同的子空间,以获得不同视图的一致表示,F对应于所有视图的一致表示,将上式重新表述为
图对比去噪:
为了充分利用对象之间的间接关系,我们首先学习每个视图的亲和图A[v]。我们还期望如果对象在特征方面相似,那么它们在变量A[v]中是接近的。对于每个视图,我们通过保留的接近度来学习亲和图变量A[v]
其中,X^[v]=B[v]F 变量为恢复的多视图数据,LA[v]为亲和图A[v]构造的拉普拉斯矩阵,注意。构建每个视图的关联图,为多视图数据的噪声特征化提供了更好的方法。其次,通过图的拓扑结构反映对象之间的直接和间接关系,有助于解决对象的视图间和视图内关系。
为了进一步提高去噪性能,我们还使用矩阵投影对关联图学习进行降维。具体地说,UGCF用正交投影矩阵P[v]提取关键特征
由于学习到的亲和图的典型限制是异常密集,密集网络中的结构是模糊的,从而增加了算法的复杂性。而且在现实中,稀疏表示减少了网络在全局水平的密度,而不是在顶点水平。这可能破坏亲和图的局部结构。为了解决这个问题,我们将每个顶点的邻居数量限制为k,用L0-norm来实现,在这种情况下,UGCF不仅降低了亲和图的密度,而且在一定程度上保留了图的局部结构
为了实现图对比去噪,必须解决两个基本问题,即如何选择正、负对象,以及如何用部分信息去除噪声。对于第一个问题,最直观的策略是在亲和图A[v]中选择正顶点和负顶点。然而,这种在各种视图之间失去平衡,即某些视图中的正顶点很可能是其他视图中的负顶点。为了缓解各视图之间的平衡困境,我们通过平滑各视图的拓扑结构来学习各视图的共同亲和图。具体来说,通过最小化A[v]与A之间的距离来学习统一图A,即
现在就简化了正顶点和负顶点的选择,平衡了不同的视图。UGCF选择最接近的前50%的顶点作为每个顶点的正对,其中顶点的相似度可以用各种拓扑指标来量化,如最短路径的长度、中间度等。在这里,我们简单地使用边缘权重
因为本研究的最终目标是为IMC提出一个灵活的对比学习框架。随后,我们对统一图的变量变量进行对比学习
自适应加权不完全多视图学习:
目前大多数算法都假设数据视图同等重要,这与现实不符。事实上,多视图数据从不同的角度表征底层系统的结构,具有不同的物理解释和区分能力,这意味着视图的重要性差异很大。特别是,缺少实例较少的视图通常比缺少大量对象的视图更重要,因为不完整的数据是根据完整实例的特征恢复的。因此,我们采用自适应加权策略,用线性函数来平衡不同观点的重要性
因此,UGCF的总的目标函数为
算法
总结
多视图聚类得到了广泛的研究和应用。不完整的多视图数据对设计高效的不完整数据聚类算法提出了很大的挑战。在本研究中,我们为IMC开发了一种称为UGCF的新型联合学习框架,其中数据恢复,图对比去噪和聚类是为了总体目标而共同学习的。UGCF通过利用不完整和完整实例与图之间的间接和直接关系来恢复缺失实例,并通过图对比学习消除多视图数据的异构性和噪声。
前景考虑
首先,UGCF对共享亲和图进行图对比学习,便于对正、负对象进行选择。然而,共享图不能完全表征各种视图的具体结构。如何直接对视图的关联图进行图对比学习是一个有趣的问题。其次,UGCF通过量化视图的重要性来衡量噪声在多视图中的重要性,而不是在物体层面。如何在目标水平上对噪声进行表征是提高UGCF性能的潜在方向之一。最后,UGCF侧重于在不完整的多视图数据中识别聚类,而忽略背景。利用它来处理具有强大背景的数据,如基因组癌症数据,是一个很有前途的研究方向。