The Constrained Laplacian Rank Algorithm for Graph-Based Clustering

The Constrained Laplacian Rank Algorithm for Graph-Based Clustering

基于图的聚类约束拉普拉斯秩算法

在本文中,我们提出了一种新的基于图的聚类模型,该模型学习具有恰好k个连接组件的图(其中k是聚类的数量)。在我们的新模型中,我们没有将输入数据图固定到关联矩阵上,而是学习了一个新的数据相似矩阵,它是一个块对角矩阵,有k个连接的组件——k个聚类。因此,我们的新数据相似度矩阵直接用于聚类任务;无需进行任何后处理即可获得聚类结果,提取聚类指标。为了实现这种理想的聚类结构,我们对新数据相似矩阵的拉普拉斯图施加了秩约束(LS=n-k) ,从而保证了k个连通分量的存在。同时考虑l2范数和l1范数目标,我们提出了两个新的聚类目标,并推导了求解它们的优化算法。我们还引入了一种新的图构造方法来初始化与关联矩阵相关的图。

1.新的聚类公式

为了解决基于图的聚类方法的缺点,我们的目标是在给定数据图A的基础上学习一个新的数据图S,使新的数据图更适合聚类任务。在我们的策略中,我们建议学习一个新的数据图S,它恰好有k个连接的组件,其中k是簇的数量。

为了制定基于该策略的聚类目标,我们从以下定理开始。如果亲和矩阵A是非负的,则拉普拉斯矩阵LA=DA-AT+A2 ,其中度矩阵DARn*n 定义为第i个对角元素为jaij+aji)/2 的对角矩阵,具有以下重要性质:

定理1拉普拉斯矩阵LA 的特征值0的多重性k等于与A相关的图中连通分量的个数。在定理1的激励下,给定一个初始亲和矩阵ARn*n ,我们学习到一个相似矩阵SRn*n ,使得对应的拉普拉斯矩阵LS=DS-ST+S2 被约束为秩(LS ) = n−k,在此约束下,学习到的S是块对角线,并具有适当的排列,因此我们可以基于S直接将数据点划分为k个簇(Nie, Wang, and Huang 2014)。为了避免S的某些行都为零的情况,我们进一步约束S使S的每一行之和为1。在这些约束条件下,我们学习到最接近初始亲和矩阵A的S。考虑给定亲和矩阵A与学习到的相似矩阵S之间l2范数和l1范数两个不同的距离,我们定义基于图的聚类的约束拉普拉斯秩(Constrained Laplacian Rank, CLR)作为以下优化问题的解:

2. 优化算法优化算法

 2.1 求解式(1)中jCLR L2 的优化算法

σi (LS )表示LS 的第i个最小特征值。注意σi (LS )≥0,因为LS 是正半定的。当λ足够大时,问题(1)等价于以下问题:

根据范凯定理(Fan 1949),我们有

因此,问题(3)进一步等价于以下问题:

与原来的问题(1)相比,问题(5)更容易解决。

当S固定时,问题(5)变为

F的最优解由LS 对应的k个最小特征值的k个特征向量构成。

当F固定时,问题(5)变为

注意,对于不同的i,问题(7)是独立的,所以对于每个i,我们可以分别求解如下问题:

问题(8)可以写成向量形式

这个问题可以用封闭形式解求解,也可以用高效的迭代算法求解。

2.2  求解式(1)中jCLR L1 的优化算法

同理,当λ足够大时,问题(2)等价于下一个问题:

公式(10)进一步等价于下式:

这个问题也可以通过备选优化方法来解决。对于固定F,问题(11)变为

注意,上述问题在不同的i之间是独立的,所以我们可以针对每个i分别求解以下问题:

类似于等式。(8)(9),则(12)问题可以写成向量形式:

采用迭代重加权法,可通过迭代求解以下问题求解(13):

问题(14)可以简化为

pi=Uai-λ2vi ,对于每一个i,我们需要解决下面的问题

这个问题可以有效地解决。问题(16)的拉格朗日函数为

对式(17)求导,令si 其为零,得到

然后对于si 的第j个元素,我们有

注意,根据KKT条件sijaij = 0,则由式(19)可得:

式中(v)+ = max(0,v)我们定义如下函数η

然后根据方程。(20)-(21),且约束 siT = 1,则有:

3.学习初始图

在本文提出的算法中,在学习归一化和块对角相似矩阵S∈Rn*n 之前,需要给出初始图关联矩A∈Rn*n 我们提出了一种初始化图A的方法。由于我们要学习一个非负的归一化相似矩阵S,使得S的每一行之和等于1,因此希望初始图A具有相同的约束。如果我们没有关于数据的任何信息,我们可以将A的所有亲和力设置为相同的值,这可以看作是一个先验。在这些非负性和规格化约束下,最小化A的每一行L2-范数将得到相同值的亲和度。因此,我们可以使用A的每一行的L2范数作为正则化来学习A的亲和值。

给定数据集,我们可以学习到A的亲和点用欧氏距离的平方来表示,可以解决一下问题:

在许多情况下,为了效率和更高的性能,我们更喜欢稀疏亲和矩阵A。因此,我们学习了与最大值γ的亲和性,使得问题(23)的最优解ai 恰好有m个非零值;即,将ai 的l0 -范数约束为m。为此,我们求解如下问题:

其中a 是问题(23)的最优解。

定义eij=xi-xj22 ,并将ei 表示为第j个元素为eij 的向量,则问题(23)可简化为

问题(26)的拉格朗日函数为

将方程对ai 求偏导令其等于 0,得到最优解a 所以可以得到:

然后对于a 的第j个元素,我们有

注意到根据KKT条件aijβij = 0,从Eq.(29)我们得到

根据问题(24)中的约束ai0=m ,我们知道ai,m > 0和ai,m+1 = 0。因此,我们有

根据式(30)和问题(23)中的约束aiT  = 1,我们有

根据式(31)和式(32),我们得到了γ的不等式:

因此,要获得恰好有m个非零值的问题(23)的最优解a ,则最大γ为

我们得到最优亲和度aij 如下:

4.归一化切割连接

归一化切割连接是CLR算法的一个关键步骤。归一化切割连接的目标是找到一个最优的切割点,将图切割成k个连通分量,使得每个连通分量内部的节点相似度较高,而与其他连通分量之间的相似度较低。在CLR算法中,归一化切割连接是通过优化一个目标函数来实现的。这个目标函数通常基于图的拉普拉斯矩阵和节点的度矩阵来定义。通过求解这个目标函数,可以找到一个最优的切割点,使得切割后的连通分量具有较高的内相似度和较低的外相似度。

5.结论

  总的来说,该算法首先学习初始图A和数据相似矩阵S去构建一个图的拉普拉斯矩阵,然后通过求解一个优化问题来找到一个最优的切割点,将图切割成k个连通分量。这个优化问题的目标函数是有两种形式分别是:基于L2范数和基于L1范数的,通过最小化这个目标函数,可以使得切割后的连通分量具有较高的内相似度和较低的外相似度。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值