基于结构熵的大规模多约束半监督聚类

曾广杰

已于 2024-11-13 18:40:01 修改

阅读量1.2k

点赞数 17

文章标签：聚类机器学习

于 2024-11-13 18:37:54 首次发布

本文链接：https://blog.csdn.net/qq_39664173/article/details/143747337

版权

基于结构熵的大规模多约束半监督聚类

不同于常见的无监督聚类，半监督聚类利用额外的、以约束形式存在的先验知识实现更高质量的聚类效果。当前主流的半监督聚类算法，特别是基于图的算法，常常具有很高的时间复杂度与空间复杂度，因而不能应用在大规模数据集上。这篇文章我们聚焦于规模可扩展的半监督聚类算法，提出了基于结构熵的大规模多约束半监督聚类算法SSSE。项目地址：https://github.com/SELGroup/SSSE。论文地址：https://penghao-bdsc.github.io/papers/SSSE_TKDE%202024.pdf

引言

半监督聚类利用额外的先验知识增强聚类性能。传统的无监督聚类旨在仅依赖输入数据将数据点分成类簇，使得类簇内数据点相似度高，类簇间数据点相似度低。与之不同的是，半监督聚类通过利用以约束形式存在的先验知识使得聚类结果更精准且更符合用户需求。
半监督聚类算法通常来自于无监督聚类算法，包括基于KMeans的、基于密度的、基于谱聚类的、基于非负矩阵分解的算法等，其中包含的先验知识有各种不同的来源，它们以不同的约束形式存在。目前常见的约束包括成对约束（pairwise constraints）和标签约束（label constraints）。当前的半监督算法常专注与单一类型的约束，这让它们不能灵活地面对多种应用场景。
半监督算法的核心在于先验知识的利用。常见的方法包括两种：一种是将先验知识包含在要优化的目标函数中，成为一个正则项（regularization term）；另一种是通过先验知识学习更好的数据点间相似度（聚类）度量。当前的半监督算法关注于如何将先验知识更好地利用，而忽视了算法的规模可扩展性。
为了解决上述问题，我们提出了提出了基于结构熵的大规模多约束半监督聚类算法SSSE。该算法基于李昂生教授提出的结构信息理论，将数据建模成相似度图G，并通过最小化图的结构熵实现数据聚类。在处理多种约束类型的问题上，算法将不同约束类型整合成统一的视图并存储在图G’中。在处理算法规模可扩展性上，算法利用邻域保持的图采样策略缩小问题数据规模。

方法

在这里插入图片描述
SSSE算法框架图如上图所示。算法包括三个主要步骤：（I）图的构建、（II）采样图聚类、（III）剩余图聚类。（I）对于给定的输入数据（Input data）和先验知识（Prior information），算法分别构建相似度数据图G和关系图G’。（II）在采样得到的子图上进行聚类。（III）聚类得到的类簇作为新的数据点插入数据图和关系图中，并在剩余的图上进行聚类。在具体的聚类过程中，我们分别基于二维结构熵和三维结构熵实现了半监督的划分聚类（partitioning clustering）和层次聚类（hierarchical clustering）。

邻域保持的图采样策略

为了保持算法的规模可扩展性，降低算法的时间和空间复杂度，我们采用了图采样策略。随机的图节点采样会让完整的图结构被破坏，大量的边会被切断。因此，我们设计了邻域保持的图采样策略。
在这里插入图片描述
图采样策略如上图所示。算法首先随机挑选一些采样种子图节点，然后将根据数据图的连边将采样集合扩展到相邻的图节点，得到数据子图。同时，关系图中的相应节点也会被挑出来组合成关系子图。

基于二维结构熵的半监督划分聚类

在采样得到的子图上，算法优化基于二维结构熵的目标函数实现半监督划分聚类。该目标函数被定义为：
$\mathcal{L}^{\mathcal{P}} (G,G') = \mathcal{H}^{\mathcal{P}} (G) + \phi \mathcal{E}^\mathcal{P}(G,G'),$
其中 $\mathcal{H}^{\mathcal{P}} (G)$ 是数据图的二维结构熵， $\mathcal{E}^\mathcal{P}(G,G')$ 是利用先验知识的约束项。该约束项具体定义为：
$\mathcal{E}^\mathcal{P}(G,G') = - \sum_{X \in \mathcal{P}} \frac{g'_X}{\mathcal{V}_G} \log_2\frac{\mathcal{V}_X}{\mathcal{V}_G}.$