Large-Scale Clustering With Structured Optimal Bipartite Graph结构化最优二部图的大规模聚类

目录

1.引言

2.相关背景

A 二分图定义

B二分图划分

C二分图正则化

3.构造最优二分图

A方法学

B优化程序

4.初始化二分图

A基于图的锚点学习( ALG )

B二分图构建

5.复杂性分析

6.实验

A.实验设置

B合成数据上的结果

C在真实数据集上的结果

7.结论


摘要- -数据规模的普遍提高导致了承担大规模数据聚类任务的必要性。为了做到这一点,二部图理论经常被用于设计一个可扩展的算法,它描述了样本与少数锚点之间的关系,而不是绑定成对样本。然而,二部图和现有的谱嵌入方法忽略了显式的簇结构学习。他们必须通过使用类似K - Means的后处理来获得聚类标签。不仅如此,现有的基于锚点的方法通常使用K - Means的质心或少量的随机样本来获取锚点,这两种方法都是省时但性能不稳定的。在本文中,我们研究了大规模图聚类中的可扩展性、稳定性和集成性。本文提出了一个聚类结构的图学习模型,从而得到一个c-connected( c是聚类数)二部图,并且可以直接得到离散的标签。以数据特征或成对关系为出发点,我们进一步设计了一种与初始化无关的锚点选择策略。在合成和真实数据集上的实验结果表明,所提出的方法优于同类方法。

1.引言

聚类一直是无监督学习中基础且关键的算法。由于数据的高度易处理性,大多数流行的聚类方法都使用了数据的图形表示,例如谱聚类[ 3 ],归一化切割[ 4 ],比率切割[ 5 ]和图划分[ 6 ]等。基于图的方法涉及两步过程,即首先构建一个n × n的图[ 7 ] [ 8 ]来刻画n个数据点的成对关系,然后在固定的图上调用不同的优化策略[ 9 ] [ 10 ]。由于捕获了非线性嵌入结构,图方法获得了优越的性能。几十年来,它们已经被广泛地应用于现实世界的应用中[ 11 ],[ 12 ],[ 13 ]。然而,对于大规模数据,处理一个大的相似度矩阵的存储和计算都是昂贵的。例如,对一个n × n相似度矩阵进行SVD分解的时间复杂度至少是O ( n2 ),当n超过10000时是禁用的。因此,如何巧妙地提高大规模图聚类的效率在数据划分领域具有重要意义。

注:

时间复杂度的定义:一个算法所花费的时间与其中语句的执行次数成正比例,算法中的基本操作的执行次数,为算法的时间复杂度。符号O 为渐进上界记号,f\left ( n \right )= O\left ( g\left ( n \right ) \right )使得f(n)的阶数不高于函数g(n)。在计算机科学中,算法的时间复杂度是一个函数,它定量描述了该算法的运行时间。 一个算法执行所耗费的时间理论上来说是算不出来的,因为它不仅仅与你写的算法有关,还与运行这个算法的机器也有关系,如果你的机器很好,那么你所耗费的时间就可能会更少,所以,一个算法耗费的时间是需要放在机器上实际测验才能知道的,但是我们总不能每个算法都拿来上机测试,来记录该算法的时间,所以我们就有了时间复杂度这样的分析方式。

奇异值分解:对于任意的矩阵 A, 我们总可以将其分解为一个正定矩阵 U, 一个对角矩阵\Sigma和另一个正定矩阵的转置V^{T}的乘积。A= U\Sigma V^{T}

KNAC第十五章 奇异值分解_右边是我女神的博客-CSDN博客文章浏览阅读2.4k次,点赞3次,收藏33次。奇异值分解(SVD)是一种矩阵因子分解方法。任意一个m×nm\times nm×n矩阵,都可以表示为三个矩阵的乘积(因子分解)形式,分别是nnn阶正交矩阵、由降序排列的非负的对角线元素组成的m×nm\times nm×n的矩形对角矩阵和nnn阶正交矩阵。矩阵的奇异值分解一定存在,但不唯一。奇异值分解可以看做矩阵数据压缩的一种方法,即用因子分解的方式近似地表示原始矩阵,这种近似是在平方损失意义下的最优近似。定义15.1(奇异值分解)矩阵的奇异值分解是指,将一个非零的m×mm\times mm×m实矩阵A∈Rm_奇异值分解https://blog.csdn.net/weixin_46365033/article/details/125095992?ops_request_misc=&request_id=&biz_id=102&utm_term=%E5%A5%87%E5%BC%82%E5%80%BC%E5%88%86%E8%A7%A3&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-0-125095992.nonecase&spm=1018.2226.3001.4187

针对大规模数据的聚类问题,人们提出了许多方法。受“Nyström方法[ 14 ]的启发,一些改进的谱方法被提出[ 15 ],[ 16 ],[ 17 ] . Nyström解决了一个设计特征函数的子问题,其中亲和矩阵的m ( m<< n )列首先被采样以形成整个数据空间的子集,然后采样的列和剩余的列耦合以形成大型亲和矩阵的低秩近似。然而,采样方法不能像传统的图方法那样定义一个半正定的拉普拉斯矩阵,从而不能保证目标函数是凸的。Liu et al[18]针对半监督特征学习的可扩展性问题,定义了一种新颖的AnchorGraph,其中图是在锚点和数据点之间构建的,而不是在成对数据点之间构建的。一般而言,锚点是覆盖整个点云的少量条目。受此启发,许多基于锚点的(也称为基于地标的)方法被提出,它们利用二部图来实现数据聚类。例如,Cai et al.[19]从样本中生成地标,然后通过一系列地标的线性表示来复述给定的样本。随后在稀疏表示的基础上计算数据的谱嵌入。Zhu等[ 20 ]提出了一种平衡的K - Means策略来获取锚点,然后基于二部图的谱聚类。Yang等人[ 21 ]提出了先减小数据规模,再学习结构化图的方法对高光谱图像进行聚类。Li等人[ 22 ]也利用锚图提出了一种多视图大规模谱聚类,其中不同的特征或视图被考虑到聚类中。Gao等[ 23 ]采用非负矩阵分解,可以在每个簇内探索多个质心。通过这种方法,每个数据点都与其在二分图中的邻近质心相连。

尽管上述方法已经获得了良好的可扩展性能,但算法的分步和不稳定属性仍然使其存在缺陷。具体来说,现有工作构建的二部图忽略了对聚类结构的探索,需要进行K - Means等后处理来获得聚类标签。此外,在构建锚点图时,K - Means的质心或者少量的随机样本经常作为锚点。然而,众所周知,K - Means对其初始质心非常敏感且随机抽样也充满了不确定性。K - Means产生的锚点以及随机采样导致了算法一次性性能的不可靠性。本文将同时研究大规模图聚类中的可扩展性、稳定性和集成性问题。本文提出了一种新的基于锚点的二分图模型,即基于结构化最优二分图的大规模聚类( LCSOG )。我们认为学习到的图在两个方面是最优的:1 )优化后的相似度矩阵对于聚类任务是可解释性的,其中每个连通分支自然表示一个簇;2 )离散的c -聚类标签可以直接从优化的二部图中获得,而不需要任何后处理。这样,既保证了聚类的稳定性和质量,又保证了聚类的可扩展性。

该方法通过一个连通图学习算法(见图1)来优化二分图的结构化最佳逼近。为了将数据点划分为c个簇,得到一个c-connected的二部图来表示簇。在标签排序的理想情况下,相似度矩阵为c个显著块的块对角线。图1 :结构化最优二分图示意图。当对二部图的拉普拉斯矩阵在左边施加秩约束时,次优图被优化为在右边具有特定连通分支( c = 2 )的结构最优图。值得注意的是,pij也可以看作是第j个锚点与第i个样本在同一个簇中的概率,因此数据点和锚点的联合聚类递归地提升了聚类性能。

注:低秩矩阵
概念:当矩阵的秩较低时(r << n, m),就可以视其为低秩矩阵。低秩矩阵意味着,此矩阵中有较多的行(或列)是线性相关的,即:信息冗余较大。
作用:利用低秩矩阵的冗余信息,可以对缺失数据进行恢复,此问题叫做 “低秩矩阵重构” ,即:“假设恢复出来的矩阵是低秩的,利用已有的矩阵元素,恢复出矩阵中的缺失元素”,可以应用在图像修复、协同过滤等领域。
    在深度学习中,卷积核的参数过多,往往存在较大的冗余,即:卷积核参数是低秩的。此时,可以对卷积核进行低秩分解,可以降低参数量、提高计算速度、防止过拟合。

注:稀疏矩阵

稀疏矩阵和低秩矩阵一样,也代表矩阵中存在较多的冗余信息。但二者不同的是,矩阵越稀疏,表示其包含更多的零元素、更少的非零元素;矩阵越“低秩”,表示其有更多的线性相关的行(或列)。

低秩矩阵不一定稀疏,如:全一矩阵(全一矩阵的秩为1)
稀疏矩阵不一定低秩,如:单位矩阵(n阶单位矩阵的秩为n)

除了二部图优化,锚点选择也是基于二部图的方法的关键,因此它是研究的另一个焦点。我们分别考虑面向案例的特征驱动任务和关系驱动任务。换句话说,可用的信息是成对数据的特征向量或关系。对于关系数据,如引文网络[ 24 ],生化图[ 25 ]或社交网络[ 26 ],成对关系比数据特征更容易获取。为了解决这些问题,本文还提出了一种基于图的锚点学习( Anchor Learning with Graph,ALG )策略,通过比较不同样本的全局重要性来捕获关键点。有了锚点,就可以直接得到一个粗糙的二部图,并进入下一步提出的LCSOG算法。

本文的结构安排如下:在第二节中,我们回顾了二部图聚类的相关工作。第三节详细介绍了所提出的模型是如何提出的以及如何求解所提出的优化模型。第四节介绍了两种锚点选择策略,并给出了二分图的初始化方法。第五节讨论了所提方法的计算复杂度。实验在第五节和第七节中,在合成和真实世界的数据集上进行了本文的总结。

在整篇文章中,矩阵以大写和粗写的形式写成,如M;向量以小写和粗写的形式写成,如v;标量以小写的形式写成,如s。对于矩阵M,第i行和第j列的元素记为mij,第i行的向量记为mi,第j列的向量记为mj . M的迹记为Tr ( M )。向量v的l2 -范数记为‖v‖2 ,M的Frobenius范数记为‖M‖F,M的转置为MT。

2.相关背景

在这一部分,我们简要回顾二部图理论[ 27 ]以及它在机器学习中的两个重要技术,包括二部图划分和二部图正则化。下面的定义将贯穿本文的始终。

A 二分图定义

众所周知,数学中的正则图[ 28 ]描述了顶点集合的全局拓扑结构。与之不同的是,二部图[ 27 ]是两个互不相交且独立的顶点集之间的图。二部图提供了一条路径来显式地捕获数据到锚点的关系。

二分图又称作二部图,是图论中的一种特殊模型。 设G=(V,E)是一个无向图,如果顶点V可分割为两个互不相交的子集(A,B),并且图中的每条边(i,j)所关联的两个顶点i和j分别属于这两个不同的顶点集(i in A,j in B),则称图G为一个二分图。简而言之,就是顶点集V可分割为两个互不相交的子集,并且图中每条边依附的两个顶点都分属于这两个互不相交的子集,两个子集内的顶点不相邻。

当锚点已被收集时,一个无向二部图可以构建,X是n个数据点的集合;Y是m个锚点的集合;\varepsilon包含X和Y之间的边;B = [ bij ] n × m是描述所有边权重的亲和矩阵。如果第i个样本与第j个锚之间有一条边,则表示一个非零且为正的bij,否则bij为零。一般来说,这个亲和矩阵也表示了样本对和锚点对的相似程度借助相似度B,二分图B的邻接矩阵可以表示为

在此基础上,对二部图进行谱划分和谱正则化。定义1给出了谱二部图所涉及的定义。

定义1:二部图B的度矩阵定义为

其中,DWr∈Rn × n和DWc∈Rm × m分别为B的行度矩阵和列度矩阵,即DWr( i , i) =∑j bij和DWc( j , j) =∑i bij。拉普拉斯矩阵由L_{W} = D_{W} - W计算

14-1: 二部图及其判定算法 Bipartite Graphs_哔哩哔哩_bilibili下节课:https://youtu.be/cndaoZ6XTxA这节课介绍二部图 (Bipartite Graphs) 以及二部性的判别算法。二部图中的节点可以分成集合 U 和 V,U、V 集合内部的节点互不相连,U 和 V 之间可以有边相连。二部性的判别算法是一种广度优先算法,类似于最短路算法。, 视频播放量 17441、弹幕量 105、点赞数 644、投硬币枚数 493、收藏人数 429、转发人数 94, 视频作者 ShusenWang, 作者简介 ,相关视频:13-5: 最小割 Min-Cut,14-2: 无权二部图中的最大匹配 Maximum-Cardinality Bipartite Matching (MCBM),14-4: 匈牙利算法 Hungarian Algorithm,最大流问题(一)最大流标号算法,14-3: 有权二部图中的最大匹配 Maximum-Weight Bipartite Matching,运筹学//最小费用最大流问题(纯做题向),14-6: Gale-Shapley 算法 寻找稳定婚配,【王树森】图论和图算法完整课程,14-1_ 二部图及其判定算法 Bipartite Graphs,图论 匈牙利算法求最大匹配icon-default.png?t=N7T8https://www.bilibili.com/video/BV14q4y1j776/?spm_id_from=333.788&vd_source=52aa0aa2682c3170bfde2df48654b0dc

B二分图划分

在这一部分中,首先介绍了图划分中的一个基本术语"割",它表示不相交簇之间的连接。给定一个正则图,它由一个顶点集V和一个边集\varepsilon组成。M ∈ Rn×n是相似度矩阵。

注:正则图是指各顶点的度均相同的无向简单图。

在图论中,正则图中每个顶点具有相同数量的邻点; 即每个顶点具有相同的度。 正则的有向图也必须满足更多的条件,即每个顶点的内外自由度都要彼此相等。具有k个自由度的顶点的正则图被称为k度的k-正则图。 此外,奇数程度的正则图形将包含偶数个顶点。

注:聚类其实和分割有一定的联系,分割的目标是让边或者结点均匀分配,且保证子图的局部性,子图间通讯开销最小化;聚类则是希望将图中相似语义和结构化信息的点聚集在一起,不考虑每个簇的结点数量,这相当于是松弛的点分割。

注:一个割就是一组边的集合,将给集合边从图中边集合中移除,那么图被分割为两个部分,这两个部分之间没有任何边连接。如果说得有点绕口,那么最简单来说,一块肉被从中间隔开,分成两个部分,中间断开的连接的集合就是割。

最小割就是将图切割为两个部分时,代价最小的割的集合,代价就是边上容量的和,如式3所示。还是拿猪肉作类比,最小割就是找到一块肉连接最小的部分,一刀劈开,那个部分的连接就是最小割。

对于二类图划分,割是 ,其中{ G1,G2 }是图G的一个2 划分,例如通过匈牙利算法进行最大匹配或最小匹配。在此基础上,二部图划分[ 29 ]定义了两个不相交顶点集合上的联合聚类问题,其中两个具有对应关系的不同集合在聚类时应该是一致的。对于二部图

当样本集X由c个互不相交的簇{ Xi } i= 1到c构成时,它的锚集Y一定有相应的簇{ Yi } i = 1到c。换句话说,如果一个样本属于聚类Xs,那么它的最近锚点一致地属于聚类Ys。或者,当一个锚点属于Ys时,我们可以确定它最接近的样本在Xs中。因此,当B的2划分达到最优时:

式中:{ Q1,Q2 }为二分图的任意2划分。为了避免一些平凡解,例如将所有点指定为一个簇,提出了二部图划分的归一化割,即N cut算法:

其中,权重( Qi ) =∑J∈Qi Dw ( j , j)。最小化N ( Q1、Q2)保证了二分图的2 -划分以尽可能小的割来平衡。与正则规范化割[ 4 ]一样,通过求解(5)可以实现N ( Q1、Q2)的最小化

其中1 = [ 1 , ... , 1]n + m,q∈Bn + m是一个二元指标,表示n个样本和m个锚点所属的簇。在此基础上,通过定义一个c维指示矩阵Q∈B ( n + m ) × c,并最小化多个聚类的割,进行多重划分。这意味着在图中探索到的簇可以被学习到。基于割的图划分方法是图聚类中最早出现的技术。然而,最小化割是学习聚类标签的一种困难的方法,因为二进制标签不容易被优化。鉴于此,本文提出了一种将指标松弛为连续的谱聚类方法,并对其进行了介绍。

C二分图正则化

除了图划分,图正则化是基于图的方法中的另一个基本技术。与图划分具有直接的聚类目标不同,图正则化在子空间学习中通常作为辅助项。借助图正则化,频谱分析被灵活地融入到嵌入学习中,从而可以探索数据的局部流形结构。二分图正则化项可以表示为

其中F∈R ( n + m ) × c表示数据的图嵌入。最小化目标可以探索数据的c维嵌入。乘以一个系数,这个二分图正则化项很容易被添加到大规模数据挖掘任务的目标中,例如特征选择。

对于GNN有没有用到图正则项这个问题,或者说GNN为什么捕捉到了传统的图拉普拉斯正则所能提供的图结构信息?推荐大家看发表在www 2021的论文 Interpreting and unifying graph neural networks with an optimization framework 给出了非常清晰的推导和证明:其实 GNNs 的目标优化函数中本身是存在一个图正则项的。所以从他们的角度来讲,图拉普拉斯正则项对GNNs没有益处的原因就是:它的优化函数中已经有图拉普拉斯正则项了,再去加正则项显然无益。

直接在loss用拉普拉斯正则太强了,会限制模型泛化能力。也就不需要在现有的GNN基础之上再加入额外的图拉普拉斯正则了。

3.构造最优二分图

A方法学

在此之前,现有的基于图的聚类方法涉及两步过程,即首先构建一个图来描述数据点之间的关系,然后在固定的图上调用不同的优化策略来学习数据的嵌入。考虑到算法的可扩展性,许多基于二部图的方法被提出,通过将n个数据点和它们的m个锚点耦合在一个n × m的亲和矩阵(式中: m<< n)中。然而,这些方法存在两个相当大的问题:1 )它们高度依赖于使用欧氏距离固定的原始二部图。一旦图的质量较差,很容易导致不理想的聚类性能;2 )固定图缺乏明确的簇结构,需要后处理来获得簇标号。本文的核心发现是同时处理大规模图聚类中的可扩展性、稳定性和集成性问题。

图1 :结构化最优二分图示意图。当对二部图的拉普拉斯矩阵在左边施加秩约束时,次优图被优化为在右边具有特定连通分支( c = 2 )的结构最优图。值得注意的是,pij也可以看作是第j个锚点与第i个样本在同一个簇中的概率,因此数据点和锚点的联合聚类递归地提升了聚类性能。

这里,我们将B的数据集定义为X = { xi } i = 1到n,其中xi∈Rd为第i个样本,由X生成的锚集合为Y = { yi } i = 1到m,其中yj∈Rd为第j个锚。同样,矩阵B∈Rn × m是邻接矩阵,其中bij表示xi和yj的相似度。定义B的邻接矩阵为W,如式( 1 )所示。与现有方法不同,我们提出学习一个W的结构化最优近似,使得同一簇中的数据点只与同一簇中的锚点相连,而同一簇中的锚点与同一簇中的数据点(见图1)相连。考虑到邻接矩阵W的形式,我们将其最佳逼近表示为

其中P∈Rn × m本质上是B的逼近。为了得到结构化的最优二部图我们提出如下模型

其中rank  LS 表示矩阵" LS "的秩," LS "是S的标准化拉普拉斯矩阵,定义为

式中:DS为定义1中S的度矩阵。在模型( 8 )中,对P的非负约束和正规化约束使其成为左随机矩阵,从而保证了" LS "是半正定的。基于此,令优化后的二部图的拉普拉斯矩阵的秩为n + m-c,保证" LS "的零特征值个数为c。根据引理1中的熟知知识,

引理1:若亲和矩阵S非负,则其标准化拉普拉斯矩阵'LS有一个重要性质:LS的零特征值的k重数等于二分图S中的连通分支数。

这个秩约束使得优化后的亲和矩阵S有c个连通分支。考虑到P是数据点与锚点之间的亲和度矩阵,定义的S可以表示总亲和力矩阵。一方面,可以观察到S是一个对称矩阵,因此S的连通性完全取决于其右上分块矩阵P中的权重;另一方面,当我们将P看成一个图时,P实际上是数据点到锚点的单向图,S相应地就是双向图。通过这种方式,模型( 8 )学习到的c -连通S保证了一个c -连通P,其中样本和锚点都被划分成c个簇。

受益于模型( 8 ),优化后的二部图通过一个具有c个显著块的块对角相似矩阵进行学习。然后,学习到的图在两个方面对聚类是最优的:1 )优化的相似度矩阵对聚类任务具有可解释性,其中每个连通分量自然地表示一个簇;2 )离散的c -聚类标签可以直接从优化的二部图中获得,而不需要任何后处理。值得注意的是,pij也可以看作是第j个锚点与第i个样本在同一个簇中的概率,因此数据点和锚点的联合聚类递归地提升了聚类性能。因此,聚类的稳定性和高质量以及可扩展性都是通过结构化的最优b来实现的。

引理1:若A是对称的n*n的对角占优矩阵,并且对角元非负,则A是半正定矩阵。

引理2:设半正定实对称矩阵A的特征值为\lambda _{1},\lambda _{2},,,\lambda _{n}\lambda _{1}\leq \lambda _{2}\leqslant \cdots \lambda _{n},则 \lambda _{1}\leq R(A,x) \leq \lambda _{n}

性质1:标准化拉普拉斯矩阵L\widetilde{}为半正定矩阵。

性质2:标准化拉普拉斯矩阵L\widetilde{}的特征值均介于[0,2]。

B优化程序

在这一部分,我们给出了如何求解所提出的模型( 8 )。考虑到W和S的结构,我们将问题( 8 )改写为:

由于秩约束的非凸性,问题( 10 )难以处理。因此,我们考虑模型( 10 )的对应物。假设σ i ( ' LS )表示' LS的第i个最小特征值。因为" LS "是半正定的,所以它对每个i都有σ i ( " LS " )≥0 。基于此,问题( 10 )可以通过求解来解决:

式中:λ为足够大的参数。然后,最小化目标函数迫使每个σ i (  LS )无限趋近于零,从而满足问题( 10 )中的秩约束。默认条件为σ c + 1 ( LS ) > 0,使得LS有精确的c个零特征值。根据Ky Fan定理[ 31 ],我们有一个重要的等式:

其中F = { f1,f2,..,fn + m }∈R ( n + m ) × c是一个指示矩阵。问题( 11 )等价于:

问题( 13 )有两个待优化变量,我们采用block-coordinate descent method块坐标下降法[ 32 ]交替更新P和F,直到收敛。当P固定时,问题( 13 )转化为:

为了加快求解问题( 14 )的步骤,我们将F和DS分解为

其中F′∈Rn × c保留F的前n行,F′′∈Rm × c保留F的其余m行.。D′∈Rn × n保留DS对角线上的前n个元素,D′′∈Rm × m保留DS对角线上的其余m个元素.改写F,D和S,问题( 14 )可以等价:

根据定理1,F′和F′′的最优解是通过计算n × m矩阵D′- 1/2 PD′′- 1/2的c主奇异向量得到的。

定理1:假设X∈Rn × C,Y∈Rm × C,A∈Rn × M。问题的最优解

为X =√2/2 U,Y =√2/2 V,其中U和V分别为A的c个主左奇异向量和右奇异向量。

证明:记问题( 17 )的拉格朗日函数为L( X , Y , Λ) = Tr ( XT AY ) - Tr( Λ ( XT X + YT Y-I) )。根据KKT条件,最优解满足L( X , Y , Λ)的偏导数w . r . t .的必要条件。X和Y分别为零。因此,我们有AY = XΛ和AT X = YΛ,并且有AAT X = AYΛ = XΛ2 。因此,X的最优解与AAT的特征向量和A的左奇异向量都是线性的。类似地,Y的最优解与A的右奇异向量是线性的。注意到一个矩阵的奇异向量是相互正交的。因此,考虑约束XT X + YT Y = I,X和Y的解分别为A的前k个左、右奇异向量乘以√2/2。

接下来,我们用固定的F来优化问题13中的P。接下来,我们介绍了另一个在光谱分析中被广泛使用的重要方程:

这个问题被Nie等人[ 33 ]有效地解决了。算法1提供了求解问题( 8 )的流程。为了减轻计算负担,使用的P是一个稀疏矩阵,即每个样本只有k个最近的锚点有非零权重。详细的复杂度分析将在第五节中给出。

算法1:输入:给定一个相似度矩阵B∈Rn × m,聚类数c和一个较大的参数λ。

用其c个最小特征值对应的特征向量 L 初始化F∈R ( n + m ) × c,其中W定义在式( 1 )中,D为W的度矩阵。将F和D划分为{ F′,F′′}和{ D′,D′′}如( 15 )式。

重复:1:对于每个i,通过求解问题( 21 )更新pi,其中uij =‖F′i√d′i-F″j√d″j‖22,并将ui排序为ui1≤ui2≤· · ·≤uim。2:更新{ D′,D′′},其中D′( i , i) =∑j pij,D′′( j , j) =∑i pij . 3:更新{ F′,F′′},其中F′和F′′分别是D′- 1 2 PD′′- 1 2的前c个左奇异向量和右奇异向量. 4:计算" LS "的c个最小特征值之和,即Δ c =∑ci = 1σi ( " LS " )。若Δ c > 0,则用λ/2更新参数λ;直到Δ c = 0且Δ c + 1 > 0。

5:从c -连通的P中获得数据的标签。输出:具有c -连通分量的图相似度矩阵P∈Rn × m以及标签l∈[ 1、c ]n。

4.初始化二分图

注意到本文提出的模型( 8 )是基于图的,其中输入是待聚类数据的二分图。在这一部分,我们主要关注如何高效地初始化一个二部图B∈Rn × m。值得注意的是,我们考虑了两种给定信息的情况,包括数据的特征和一个原始的n × n关系数据。当数据特征已知时,考虑到所涉及的数据规模较大,我们利用基于平衡K - means的层次K - means ( Balanced K-means based Hierarchical K-means,BKHK ) [ 20 ]方法,由于其平衡的二叉树结构,以较低的计算成本生成代表性锚点。另一方面,利用给定的相似度图构建二分图的情况很少被关注。然而,对于引文网络[ 24 ]、生化图[ 25 ]或社交网络[ 26 ]等数据,对象之间的关系比各自的特征更容易获得。因此,我们提出了基于图的锚点学习( anchor-points learning with graph,ALG )。随后,给出了一种通用的二部图构建方案。

A基于图的锚点学习( ALG )

图2:锚点学习示意图( ALG )。图中的色块代表不同的相似度值。灰色块为样本得分,取值范围为0 ~ 1。红色星号表示每次迭代中的锚点指数。I & N是分数的初始化和归一化,R & N是分数的重新计算和归一化。

假设有一个n个数据点的大型稀疏相似度矩阵A∈Rn × n。我们的原则是对A的行进行采样,每个簇的行以平衡的方式进行采样,如图2所示。具体来说,我们设计了一种利用A为每个样本计算一个分数的方法,目标是当样本在同一个簇中时,该簇中的样本将获得近似的分数,当样本在不同的簇中具有不同的得分。一个基本前提是A实际上反映了数据的结构,即具有相似邻居的两个样本会彼此靠近。利用这一点,我们可以非常有效地获得锚集Y。首先,计算一个权重向量d∈Rn

由于A是稀疏的,因此某些行可以被零绝对填充。然后,这些样本的权重为零,不能作为锚点。在此基础上,我们计算m个anchors的学习得分

在得到第一个锚点后,( 23 )和( 24 )被使用m - 1次。由于更新方案中的d,稀疏节点的得分保持为零,因此无法选择这些样本。值得注意的是,s可以用图A的嵌入表示初始化。其余与上一轮选择的样本具有较大相似性的样本被赋予一个很小的权重1 - s,并且它们的分数在新的一轮中被压缩。相反,不同簇中的样本获得了更大的权重,它们的得分将在新一轮中被放大。因此,不同簇中的样本是交替选择的。由于样本规模较大,且所有样本分布均匀,因此每个簇会根据簇的大小进行有规律的挑选。换句话说,更多属于较大尺寸簇的样本将被选为锚点。值得注意的是,我们对分数进行归一化以去除缩放,以防止分数不断缩小。算法2对ALG的流水线进行了总结。

算法2:输入:相似矩阵N∈Rn × n,锚点个数m,空锚集Y。通过( 22 )初始化得分向量d。1:通过( 24 )归一化d。2:计算s = maxi di,并将ns加入A。3:对于t = 2到m。4:通过( 23 )和( 24 )更新并归一化得分。5:计算s = maxi di,并将ns加入A。6:输出:锚集Y。

B二分图构建

在数据集X和锚点集Y下,二部图的构造近年来得到了很好的研究。如前所述,X∈Rd × n表示与X相关联的数据矩阵,Y∈Rd × m表示与Y相关联的锚矩阵。由于在模型( 10 )中我们学习到了一个归一化的非负相似矩阵P,所以相似度B∈Rn × m应该满足相同的条件以保持尺度。此外,样本的相似性应该与其距离成反比。因此,通过求解可以学习到所需的图B

        

其中h( xi , yj)表示第i个样本到第j个锚点的距离,简记为hi,j。这里使用了一个简单的欧氏距离度量,即hi,j =‖xi-yj‖22。目标( 25 )中的第二项是一个平滑正则项。为了加速所提出的算法,我们遵循[ 33 ]得到一个稀疏B,其中每个样本只与它的k个最近邻相连。假设每个i,[ hi , 1 , hi , 2 , ... , hi , m]排序为hi,1≤hi,2≤· · ·≤hi,m。问题( 25 )的闭式解如下

式中:( v) + = Max( 0、v )。这个解保证了bi有k个非零元素,从而得到一个稀疏图B .求解问题( 25 )的详细过程参见文献[ 33 ] 。

当算法的输入为图时,借助ALG方案,直接用A的选定行构建二部图B,即:

式中:idx记录了ALG算法的选择结果。

5.复杂性分析

通过所提出的算法对聚类数据的处理包括三个步骤,即锚点选择,二部图初始化和结构化最优二部图学习。在这一部分,我们对算法中的每一步都给出了详细的计算复杂度分析。

锚点的选择:我们分别讨论了使用n个数据点( BKHK )和一个原始的n × n图( ALG )生成m个锚点的方案。正如Zhu等人[ 20 ]所提供的,所采用的BKHK方法的计算复杂度为O ( ndt1log ( m ) ),其中d是每个样本的维数,t1是迭代次数。对于ALG问题,算法2需要迭代m次才能得到m个锚点,并且每一次迭代都要对一个n维的得分向量进行一次线性运算,因此算法2的计算复杂度为O ( nm )。

二部图的初始化:为了使图B中的样本只与其k个最近的锚点相连,首先计算每个样本与m个锚点之间的距离,并分别以O ( nmd )和O ( nm log ( m ) )的计算复杂度进行排序。然后利用式( 26 )计算B,计算复杂度为O ( nk ),其中k通常是一个很小的整数。因此,该步骤的主要时间复杂度为O( nmd + nmlog ( m) )。

结构化最优图的优化:算法1得到二分图B的结构化最优近似。算法1的主要时间消耗是迭代更新F和P。实际上,每次迭代中P的更新都有与式( 26 )中B的初始化形式相同的解。因此,实现P的计算复杂度为O( nmct + nmlog ( m)t ),其中t是算法1中的迭代次数,c是F的维数。根据定理1,我们通过对一个n × m矩阵进行SVD分解得到F,这需要O( m3t + m2nt)。

由于m<<n和t通常是一个不超过30的小值,所以主要的复杂度为O ( nmd )。因此,计算复杂度与样本数量n呈线性关系,使得我们的方法可以很好地适应数据规模。

6.实验

在这一部分中,我们在合成数据和真实数据上对所提出的LCSOG以及几种最先进的算法进行了广泛的实验,以证明LCSOG在实现结构化最优二部图方面的有效性,并验证了LCSOG在时间消耗和聚类精度方面的强大竞争力。

A.实验设置

在展示实验结果之前,我们首先阐明了实验设置,包括评估聚类性能的指标、比较的方法以及实验中使用的数据集。

1 )度量指标:所有算法的聚类性能由两个常用的指标和两个认可度较高的指标来评估,即标准化互信息( NMI )、精确率( ACC )、调整兰德指数( ARI )和Fscore。此外,CPU时间成本也作为一个衡量指标被关注。NMI:我们定义了互信息( MI ) [ 34 ]:

式中:P( Ci , C′j)为任意点共同属于子集Ci和C′j的联合概率,由P( Ci , C′j) = | Ci∩C′j | / n计算,其中n为样本个数,| · |表示集合的基数。P ( Ci )表示任意点属于子集Ci┐C的概率,由P ( Ci ) = | Ci | / n给出.在MI的基础上,NMI被定义为

其中,算子H ( · )计算簇C的熵,用于归一化互信息,由H ( C ) = -∑Ci∈C P ( Ci ) log ( P ( Ci ) )计算。NMI被归一化为从0到1的范围,从概率统计的角度表示这两个集合的相似性。NMI值越大,说明两个集合之间的共享信息越多。如果得到的聚类与真实标签完全匹配,则NMI值等于1。若数据点划分不良或随机,则近似为0。

ACC:聚类精度是一种简单的度量方法,它通过直接计算正确聚类的样本在总样本中的比例来评估聚类性能:

其中n为样本总数,ri表示第i个样本的真实标签,ci为相应的聚类指标。这里,我们使用一个函数映射( · )将每个聚类标签映射到它最匹配的真实标签,基于匈牙利算法[ 35 ],从概率的观点来看。δ ( a , b)是一个符号函数,当a = b时为1,否则为0。

ARI:兰德指数( ARI:Rand Index )是一种成对评估,它计算两个聚类集合的正确决策的比例,即:

其中,TP和TN是正确划分为相同或不同类簇的正对或负对的真决策,而FP和FP是错误划分样本对的假决策。调整兰德指数将兰德指数标准化到[ - 1 , 1]的范围内,公式为

式中:E [ RI ]表示RI的期望值。

F计分。该指标取决于查准率和查全率。精确率计算的是真实的积极决策占所有积极决策的比例,召回率计算的是应该被识别为积极决策的成对比例。Fscore在这两种评价之间进行权衡

通过这种方式,Fscore可以识别得到的聚类数目过少或过多的不良聚类结果。

CPU时间:在实验中,所有算法都在MATLAB R2016a中实现,并在Ubuntu 4.8.4PC机上运行,CPU为酷睿i7 - 6800K 3.40GHz,RAM为64GB。值得注意的是,除了LCSOG和CLR外,所有的竞争者都执行了K - Means来获得最终的标签。为了公平和一致性,所有算法的计算成本从输入由原始特征形成的数据矩阵开始,通过获得聚类标签结束。

2 )比较方法:我们将提出的方法与一些基于图的方法进行比较,包括可扩展方法( LSC-K 、LSC - R 、FSC )和不可缩放的方法( Ncut 、CLR - L1 、CLR - L2 )。除了基于图的算法外,我们还使用了流行的K - Means以及它的三个改进,包括Kmean + +,SKmean + +和FCmeans。两个具有代表性的算法Nystr ? m [ 17 ] )和KMeans分别作为可伸缩和不可伸缩方法的基准。

LSC-K:第一个基于地标点的大规模数据谱聚类方法。该算法利用K - Means获取路标点并构建二分图,然后在二分图上进行谱聚类。

LSC-R:随机选取地标点,进一步加速LSC算法。LSC - K和LSC - R的Matlab实现可在https://github.com/ZJULearning/ MatlabFunc / tree / master / Clustering获得。

FSC:通过一种有效的锚点选择策略,即基于平衡Kmeans的层次Kmeans ( BKHK ),实现快速谱聚类。然后,构建二部图并进行谱分析,如LSC - K .

Nyström:采用Nyst ö m方法开发的并行谱聚类。实现的代码版本有很多种方法。

CLR-L2:结构化图学习算法的先驱,启发我们学习一个秩约束图进行直接图聚类。

CLR-L1:CLR - L2的鲁棒版本,其中鲁棒L1范数作为损失函数。CLR - L1和CLR - L2的代码可在http://www.escience.cn/people/fpnie/论文. html中获得。

Ncut:一种用于图像分割的经典聚类方法,其目标是最小化图划分的归一化割。

K- Means:一种经典的聚类算法,将每个数据点划分到其最近的质心。初始质心是从样本中随机选取的。质心和标签都迭代更新,直到平衡。”

SKmeans + +:是K - Means + +在Python库" Slearn "包中的一种实现,有效地优化了时间消耗。这些基于K - Means的方法的代码都可以在https://github.com/jforjohn/canopyKmeans_中得到改进。

3 )基准数据集:在实验中,我们使用了8个基准数据集。数据集的数值介绍见表1。所有数据集均可在http://www.escience.cn/people/fpnie/papers.html.网站上获得。每个数据集的描述如下:

Reuters21578 [ 37 ]由五种不同语言编写的文件及其翻译组成,包括法语、德语、西班牙语、意大利语等。加州理工学院-101 [ 38 ]由101类8671幅图像组成,包括加菲尔德、Snoopy、摩托车、Brain等。每个类别大约有40 ~ 800张不等的图像,大多数类别大约有50张图像。Aloi [ 39 ]包含了1000k张来自1k个物体的图像,这些图像是为了捕获物体记录中的感觉变化而建立的。在不同的视角、照明角度等条件下对物体进行记录。MSRA25 [ 40 ]包含了12个物体的1799张图像。每幅图像都具有复杂的背景和低对比度的物体。Prostate-MS [ 41 ]是一个生物医学基因数据库,包含3类332个样本,其中69个样本被诊断为前列腺癌,190个样本为良性前列腺增生,63个样本没有疾病证据。Isolet [ 42 ]是计算机语音领域中用于自动识别的口语字母数据库。

4 )实验设置:在实验中,如果没有特定语句,统一设置参数。我们将算法中的聚类数设置为数据集的真实类别数。迭代算法的停止时刻为30次迭代,并有一个收敛准则的中断。对于基于锚点的算法,在MSRA25、Prostate - MS、Isolet、Reuters21758和加州理工学院- 101中,锚点数量经验性地设置为27个,在Aloi中设置为210个。对于基于图的方法,最近邻的默认值设置为5。聚类算法重复运行30次,取各指标的平均值作为最终结果。所有基于图的算法在MATLAB R2016b中实现,基于K - Means的算法在Python 3中实现。程序运行在装有酷睿i7 - 9700F 3.00 GHz CPU和16GB RAM的Windows 10PC机上。

B合成数据上的结果

我们设计了toy实验来验证所提出的算法在三个方面的性能。

第一个实验旨在验证算法2 ( ALG )的有效性,该算法从给定的点云亲和力矩阵中生成锚点。在本实验中,我们生成了一个由600个二维点组成的数据集,这些二维点均匀分布在两个半月形(每个聚类有300个点)中。通过输入这些点的高斯图( k = 50 ),ALG迭代选择的20个锚点的结果如图3所示。我们展示了分别在{ 1,2,3,4,5,10,15,20 }次迭代中选择的锚点。从这些结果可以看出,在当前迭代中确定的锚点在最后一次迭代中距离锚点较远。总的锚点很好地覆盖了点云,它们不仅在簇之间而且在每个簇内部均匀分布。

图3:用ALG图示了一个两月形数据的迭代锚点选择过程,其中plus ' + '表示每次迭代中被选为锚点的样本,每次被选中的样本用圆' o '标记。

在第二个实验中,我们研究了参数k (邻居个数)和相似性函数在所提出的LCSOG以及基于图的竞争者中的影响。我们随机生成了1500个点的三环点云,每个簇有500个点。对于所有基于锚点的算法,我们将锚点的数量设置为256。首先,我们比较了需要k近邻图(包括LCSOG、LSCR、LSC - K和FSC)的算法,以研究k是如何影响它们的。图4展示了k在{ 3,5,8 }内变化时的聚类结果,从中可以观察到所提出的LCSOG对这种复杂的非线性数据分布表现良好,并且对k不敏感。然而,其他竞争者无论参数k取多少都表现不佳。

原因在于竞争者直接从给定的图中挖掘出聚类。当在欧氏空间中构建的亲和图较差时,它们将永远无法访问预期的聚类,从而无法对这些数据点进行划分。实际上,对于非线性数据,构造高质量的图并不容易,如何选择合适的相似度函数至关重要。现有的研究人员经常使用高斯相似图,其中通过使用高斯核将样本和锚点之间的欧式距离转化为相似性,并且每个数据点只有k个最近的锚点的相似性非零。在此算法中,我们采用了第四节B中介绍的PKN (投影k -近邻算法)图。PKN图是一个概率图,计算出其中每个样本自适应地与其k个最近邻相连的概率,大的概率代表着高的相似性。为了研究相似性函数的影响,我们比较了相似图中邻居的数量和图的构造方法对相似性函数的影响。图5展示了不同邻居数的PKN图的构造结果。同时,图5通过使用不同的图构建策略(高斯图和PKN图)展示了这些基于图的方法的结果。

图4 .三种基于图的方法在三环数据上采用不同的图构建策略得到的聚类结果。

图5 .使用具有不同数量预定义邻居的PKN对三种基于图的方法进行聚类的结果。

研究发现,使用PKN图、LCSOG图和LSC图,样本之间的关系可以在不同程度上沿着圆周进行传递,说明它们比使用高斯图能够捕获更多的非线性结构。当使用高斯图时,所有算法的聚类切割线几乎都是线性的,说明非线性结构完全没有被捕捉到。因此,PKN更适合学习非线性数据。利用PKN图,LCSOG可以有效地处理复杂的数据结构。

第三个实验是为了说明LCSOG在处理带有噪声的原始亲和力矩阵时的有效性。为此,我们生成了一个具有三个对角块的300 × 150矩阵,并添加了不同的高斯噪声,结果如图6所示。第一行和第二行分别是平衡数据和非平衡数据,它们在不同簇中的数据大小相等或不相等。输入图形的噪声强度设置为0.5和0.9。通过观察4个输出图,我们发现所提出的LCSOG对常见的高斯噪声具有鲁棒性,并且可以从输入的二部图中显著地学习到所需的聚类结构。

C在真实数据集上的结果

表2:利用算法1在不同近邻数k下的输入图B ( IN )和输出图P ( OUT )的连通性得到的聚类结果

1 )图的连通性的有效性:在这一部分,我们进行了一个实验来验证方法中的图连通性的有效性.为此,我们比较了输入图B和输出图P的聚类能力,其中B由( 26 )直接建立在样本的欧氏空间中,P是通过输入B得到的算法1的结构最优输出。表II记录了输入具有不同邻居数的原始图B的聚类结果,我们突出了每个数据集上的最佳结果。通过比较B和P的聚类能力,我们可以观察到:1 )所提出的算法可以从不同的给定图中学习到具有特定聚类数的图;2 )从数据空间构建的图B几乎没有精确的c个簇,而使用结构最优图P比使用原始图B的效果有明显的改善,证明了图连通性学习的有效性。进一步地,当聚类数量未知,我们的算法从预定义的图B中生成若干个猜测的选项,因此,无论聚类数是否已知,我们的算法都可以进行。

我们还研究了参数k (图B中的邻居数)。众所周知,k直接决定了图B的连通度.一个较小的k使得更多的样本相互连接,因此从图连通性的角度来看,一个原始图B会有更少的簇。由于我们的模型是通过舍弃部分邻居来找到合适的簇,因此B应该具有不超过我们预期的连通分量,因此k不能太小。经验地,参数k≥3对于垂直度在万以内的图是足够的,k≥5对于垂直度在十万以内的图是足够的。在实验中,我们研究k在{ 3,5,8 }内变化的影响,如表II所示。从结果中,我们得出结论,图的聚类性能对k很敏感,并且该参数在理论上很难确定。参考KNN图的构造,我们在算法中将k固定为5,该算法在大多数数据集中表现良好。

2 )算法1中的迭代过程:我们在第III - B节详细介绍了模型( 13 )的优化,其中两个变量F和P分别由其闭式解求解。然而,为了提高算法的效率,我们在算法1中采用了启发式方案,其中参数λ是启发式确定的。我们初步将λ设定为一个较小的值。每次迭代后,对" LS "的c个最小特征值求和。当该值大于零时,表明图的连通分支小于c,则将λ扩大2 λ。否则,我们求和Ls的c + 1个最小特征值.当它等于零或趋近于零时,表明该图有c个以上的连通分支,我们将λ缩小为λ/ 2 。算法1终止当且仅当" Ls "的c个最小特征值等于零。为了说明迭代过程,我们实验统计了每次迭代优化后Ls的零特征值的个数,如图7所示。从结果中可以清楚地观察到零特征值的个数单调增加并收敛到c (每个数据集中的期望聚类数)。此外,我们发现不同数据集中的所有聚类都可以在20次迭代中获得。零特征值的数量在开始时增长缓慢,经过多次迭代后急剧增加。

图7 .算法1中每次迭代后拉普拉斯矩阵的零特征值个数Ls

这是因为图中的簇不是一个个被探索出来的,而是同时和全局学习到的。我们可以将图优化的过程分为三个阶段:第一阶段,图中的边是稠密的。虽然去掉了一些边,但在这个阶段,图的连通性并不容易改变。因此,在最初的几次迭代中,零特征值的个数等于1;在第二阶段,图的边不再稠密。由于两个不同的簇可能只由一条边连接,因此有时可以通过删除一条边来生成另外一个簇。因此,当删除一些关键的边时,可以同时得到许多簇;在第三阶段,得到期望的聚类数后,状态将趋于稳定。因此,我们的算法是有效的,即使有很多类簇需要找到。

表3:本文提出的Lcsog在3个大规模数据集上的聚类性能( % , AV E R AG E ± DEVIATION)和Cpu time ( second )与基于K - means的方法(基于非图的方法)和基于图的方法进行了比较

3 )聚类性能比较:除了图聚类技术专注于此方面的研究外,K - Means由于其简单性,多年来一直是一种流行的聚类工具。K - Means的许多工作都是为了提高初始化的稳定性或降低K - Means的计算复杂度,如Kmean + +和SKmean + +。为了证明所提出的方法在解决可扩展性和稳定性方面的效率,我们对所提出的方法与三种基于K - Means的方法和四种基于图的方法进行了比较。表三展示了在处理三个大规模数据集时的聚类性能,当数据集规模不超过一万时,LSC - R、LSC - K、FSC和LCSOG的锚点数固定为128,否则固定为1024。算法的停止时刻是在50次迭代中找到期望的聚类。

表3给出了平均值及其标准差。由于K - Means、K - Means + +、SKmeans + +和CLR - L2需要85.9 GBytes来处理Aloi,因此它们被禁止在内存有限的PC机上运行。从这些结果可以得出:1 )相比于LSC - R、LSC - K、FSC和LCSOG等图算法,K - Means和K - Means + +在处理大规模数据集时代价更大。虽然SKmeans + +减少了时间开销,但是它仍然具有存储负担,并且对于大规模数据集的处理能力非常有限;2 )与加速竞争对手SKMeans + +、LSC - R、LSC - K和FSC相比,本文提出的LCSOG在聚类能力上更胜一筹,在时间消耗上也表现优异。值得注意的是,与LSC - R、LSC - K和FSC相比,LSCOG减少了十倍以上的CPU时间。此外,LCSOG非常稳定,不依赖于锚点选择或聚类质心等初始化;3 )与同样学习结构最优图的传统图学习方法CLR - L2相比,LCSOG的改进不仅在于时间成本,还在于聚类能力,这说明对于大规模数据分析,原始样本的成对关系是冗余的;4 )与所有基于K - Means和基于图的方法相比,本文提出的LCSOG在聚类性能和时间成本方面具有明显的竞争力,证明了本文模型的实质价值。

表4:在3个Normal - scale数据集上,Lcsog与加速算法的一个基线( Nyström )、3个基于正则图的算法( CLR-L2 , CLR-L1 AND NCUT)和K - means的基线进行了聚类性能比较

除此之外,为了证明所提出方法的泛化性,我们还将我们的方法与三个基于正则图的算法( CLR - L2、CLR - L1和Ncut),一个K - Means的基线和一个加速算法( Nystr ? m )的基线在三个正常规模的数据集上进行了比较。表4记录了结果,从中我们观察到LCSOG比竞争对手具有最好的性能。此外,具有鲁棒损失函数的CLR - L1在大多数情况下的表现优于CLR - L2,并且在所有竞争者中获得了次优的性能。作为结构图学习方法的先驱,CLR [ 36 ]给了我们很多启发来优化一个原始图。不同的是,CLR由于其较高的计算复杂度和存储复杂度,处理大规模数据的能力非常有限。为此,提出的方法实际上是对CLR的一种改进。首先,LCSOG通过处理一个不平衡的亲和矩阵来解决CLR的可扩展性问题,其中数据点和锚点之间的关系是不平衡的。为了解决这种不平衡矩阵优化中的秩约束问题,调用了二分图技术;其次,LCSOG在大型二部图上采用加速矩阵分解,通过先计算一个小矩阵再进行线性变换来计算大规模图的特征值;第三,与CLR不同,LCSOG需要锚点来初始化一个二部图,因此涉及锚点选择。传统的锚点选择策略会遇到一些不确定性,导致聚类算法的不稳定。我们提出了一种简单有效的图驱动的锚点选择,它与我们的聚类模型很好地配合。

图8 .聚类结果随着锚点数量的变化而变化。x轴表示锚点个数,y轴分别为( a ) ( b ) ( c )和( d ) ( e ) ( f )中的聚类精度( ACC )和归一化互信息( NMI )

此外,我们进一步进行实验,评估不同锚点数量下的聚类性能,如图8所示。从这些结果中,我们清楚地观察到LCSOG的性能总是优于其他基于锚点的方法。此外,对于加州理工学院- 101和Reuters21578 (二者均约有八千个样品),当锚节点数约为1000时,LCSOG的聚类性能达到峰值。对于Aloi来说,在选择了四千多个锚之后,表现趋于上升,因为Aloi包含了一万多个样本。结果表明,LCSOG不需要太多的锚点来达到令人满意的聚类性能,而其他方法则是如此。

7.结论

在本文中,我们提出了一种新的基于二分图的大规模数据聚类方法。该方法用一个n × m的相似度矩阵来描述样本和少量锚点之间的关系,而不是计算一个n × n的相似度矩阵。与现有方法忽略聚类结构学习不同,我们的方法通过约束拉普拉斯秩方法寻找一个具有精确c -连通分量(式中: c为聚类数)的结构化最优二分图。通过这种方式,聚类标签的学习被直接纳入到图优化中,这种优化的二分图在保持低计算复杂度的同时提升了聚类性能。在合成数据集和真实数据集上进行了广泛的实验,验证了所提方法的有效性和优越性。在研究的基础上,我们进一步聚焦于多模态信息检索任务,将改进的聚类算法用于文本图像划分。目前的研究主要集中在两个方面:一个是文本图像数据的快速检索,另一个是基于图像的问答系统。通过应用联合聚类算法,我们的目标是在未来显著地促进跨模态任务。

此文为文献抄读参考,另需PPT资源可在评论区留言。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值