The Constrained Laplacian Rank Algorithm for Graph-Based Clustering

最新推荐文章于 2024-09-27 11:50:10 发布

qq_53673860

最新推荐文章于 2024-09-27 11:50:10 发布

阅读量990

点赞数 25

文章标签：支持向量机算法机器学习

本文链接：https://blog.csdn.net/qq_53673860/article/details/135113551

版权

The Constrained Laplacian Rank Algorithm for Graph-Based Clustering

基于图的聚类约束拉普拉斯秩算法

在本文中，我们提出了一种新的基于图的聚类模型，该模型学习具有恰好k个连接组件的图(其中k是聚类的数量)。在我们的新模型中，我们没有将输入数据图固定到关联矩阵上，而是学习了一个新的数据相似矩阵，它是一个块对角矩阵，有k个连接的组件——k个聚类。因此，我们的新数据相似度矩阵直接用于聚类任务;无需进行任何后处理即可获得聚类结果，提取聚类指标。为了实现这种理想的聚类结构，我们对新数据相似矩阵的拉普拉斯图施加了秩约束(LS=n-k) ，从而保证了k个连通分量的存在。同时考虑l2范数和l1范数目标，我们提出了两个新的聚类目标，并推导了求解它们的优化算法。我们还引入了一种新的图构造方法来初始化与关联矩阵相关的图。

1.新的聚类公式

为了解决基于图的聚类方法的缺点，我们的目标是在给定数据图A的基础上学习一个新的数据图S，使新的数据图更适合聚类任务。在我们的策略中，我们建议学习一个新的数据图S，它恰好有k个连接的组件，其中k是簇的数量。

为了制定基于该策略的聚类目标，我们从以下定理开始。如果亲和矩阵A是非负的，则拉普拉斯矩阵LA=DA-AT+A2 ，其中度矩阵DA∈Rn*n 定义为第i个对角元素为j（aij+aji）/2 的对角矩阵，具有以下重要性质:

定理1拉普拉斯矩阵LA 的特征值0的多重性k等于与A相关的图中连通分量的个数。在定理1的激励下，给定一个初始亲和矩阵A∈Rn*n ，我们学习到一个相似矩阵S∈Rn*n ，使得对应的拉普拉斯矩阵LS=DS-ST+S2 被约束为秩(LS ) = n−k，在此约束下，学习到的S是块对角线，并具有适当的排列，因此我们可以基于S直接将数据点划分为k个簇(Nie, Wang, and Huang 2014)。为了避免S的某些行都为零的情况，我们进一步约束S使S的每一行之和为1。在这些约束条件下，我们学习到最接近初始亲和矩阵A的S。考虑给定亲和矩阵A与学习到的相似矩阵S之间l2范数和l1范数两个不同的距离，我们定义基于图的聚类的约束拉普拉斯秩(Constrained Laplacian Rank, CLR)作为以下优化问题的解:

2. 优化算法优化算法

2.1 求解式(1)中jCLR L2 的优化算法

令σi (LS )表示LS 的第i个最小特征值。注意σi (LS )≥0，因为LS 是正半定的。当λ足够大时，问题(1)等价于以下问题:

根据范凯定理(Fan 1949)，我们有

因此，问题(3)进一步等价于以下问题:

与原来的问题(1)相比，问题(5)更容易解决。

当S固定时，问题(5)变为

F的最优解由LS 对应的k个最小特征值的k个特征向量构成。

当F固定时，问题(5)变为

注意，对于不同的i，问题(7)是独立的，所以对于每个i，我们可以分别求解如下问题:

问题(8)可以写成向量形式

这个问题可以用封闭形式解求解，也可以用高效的迭代算法求解。

2.2 求解式(1)中jCLR L1 的优化算法

同理，当λ足够大时，问题(2)等价于下一个问题:

公式(10)进一步等价于下式:

这个问题也可以通过备选优化方法来解决。对于固定F，问题(11)变为

注意，上述问题在不同的i之间是独立的，所以我们可以针对每个i分别求解以下问题:

类似于等式。(8)(9)，则(12)问题可以写成向量形式:

采用迭代重加权法，可通过迭代求解以下问题求解(13):

问题(14)可以简化为

设pi=Uai-λ2vi ，对于每一个i，我们需要解决下面的问题

这个问题可以有效地解决。问题(16)的拉格朗日函数为

对式(17)求导，令si 其为零，得到

然后对于si 的第j个元素，我们有

注意，根据KKT条件sijaij = 0，则由式(19)可得:

式中(v)+ = max(0，v)我们定义如下函数η

然后根据方程。(20)-(21)，且约束 siT = 1，则有:

3.学习初始图

在本文提出的算法中，在学习归一化和块对角相似矩阵S∈Rn*n 之前，需要给出初始图关联矩A∈Rn*n 我们提出了一种初始化图A的方法。由于我们要学习一个非负的归一化相似矩阵S，使得S的每一行之和等于1，因此希望初始图A具有相同的约束。如果我们没有关于数据的任何信息，我们可以将A的所有亲和力设置为相同的值，这可以看作是一个先验。在这些非负性和规格化约束下，最小化A的每一行L2-范数将得到相同值的亲和度。因此，我们可以使用A的每一行的L2范数作为正则化来学习A的亲和值。

给定数据集，我们可以学习到A的亲和点用欧氏距离的平方来表示，可以解决一下问题：

在许多情况下，为了效率和更高的性能，我们更喜欢稀疏亲和矩阵A。因此，我们学习了与最大值γ的亲和性，使得问题(23)的最优解ai 恰好有m个非零值;即，将ai 的l0 -范数约束为m。为此，我们求解如下问题:

其中a 是问题(23)的最优解。

定义eij=xi-xj22 ，并将ei 表示为第j个元素为eij 的向量，则问题(23)可简化为

问题(26)的拉格朗日函数为

将方程对ai 求偏导令其等于 0，得到最优解a 所以可以得到：

然后对于a 的第j个元素，我们有

注意到根据KKT条件aijβij = 0，从Eq.(29)我们得到

根据问题(24)中的约束ai0=m ，我们知道ai,m > 0和ai,m+1 = 0。因此，我们有

根据式(30)和问题(23)中的约束aiT = 1，我们有

根据式(31)和式(32)，我们得到了γ的不等式:

因此，要获得恰好有m个非零值的问题(23)的最优解a ，则最大γ为

我们得到最优亲和度aij 如下:

4.归一化切割连接

归一化切割连接是CLR算法的一个关键步骤。归一化切割连接的目标是找到一个最优的切割点，将图切割成k个连通分量，使得每个连通分量内部的节点相似度较高，而与其他连通分量之间的相似度较低。在CLR算法中，归一化切割连接是通过优化一个目标函数来实现的。这个目标函数通常基于图的拉普拉斯矩阵和节点的度矩阵来定义。通过求解这个目标函数，可以找到一个最优的切割点，使得切割后的连通分量具有较高的内相似度和较低的外相似度。

5.结论

总的来说，该算法首先学习初始图A和数据相似矩阵S去构建一个图的拉普拉斯矩阵，然后通过求解一个优化问题来找到一个最优的切割点，将图切割成k个连通分量。这个优化问题的目标函数是有两种形式分别是：基于L2范数和基于L1范数的，通过最小化这个目标函数，可以使得切割后的连通分量具有较高的内相似度和较低的外相似度。