使用自相似性的聚类方法——Chameleon

最新推荐文章于 2024-08-25 14:44:28 发布

Leon1895

最新推荐文章于 2024-08-25 14:44:28 发布

阅读量2.4k

点赞数 1

分类专栏：机器学习文章标签： Figure-based Clustering

本文链接：https://blog.csdn.net/qq_40793975/article/details/84934946

版权

Chameleon是一种凝聚层次聚类算法，结合图划分和自相似性度量，解决传统方法依赖全局模型的问题。通过相对接近度(RC)和相对互连度(RI)评估簇合并的相似性，适用于不同特性的簇。算法分为图划分和层次聚类两阶段，适用于处理大小、形状和密度变化的簇。

摘要由CSDN通过智能技术生成

使用自相似性的聚类方法——Chameleon

第三十六次写博客，本人数学基础不是太好，如果有幸能得到读者指正，感激不尽，希望能借此机会向大家学习。本文作为基于图的聚类的第四部分，主要针对“使用自相似性的Chameleon聚类算法”即进行介绍。其他基于图的聚类算法的链接可以在这篇综述《基于图的聚类算法综述（基于图的聚类算法开篇）》的结尾找到。

传统相似性度量方法的缺陷

层次聚类技术通过合并两个最相似的簇来进行聚类，其中簇的相似性定义依赖于具体的算法，例如，“单链”使用不同簇中点的最小距离来表示相似性，CURE则使用两个簇中最近的代表点间距离来表示相似性。仅仅使用单一的相似度度量方法可能导致簇被错误的合并和分割，如下图所示存在4个簇，如果使用“单链”层次聚类或CURE算法会将簇a、b错误的合并在一起，而不是将簇c、d进行合并。

图1 聚类实例

另一问题是，大部分聚类技术都有一个全局（静态）簇模型，例如，K-Means假定簇是球形的，而DBSCAN基于单个密度阈值定义簇，使用这种全局模型的聚类方法不能处理诸如大小、形状和密度等簇特征在簇间变化很大的情况。以“组平均”层次聚类算法为例，如下图所示存在4个簇，假设每个顶点之间边的权值相等，且每个簇的大小相等，“组平均”会将簇c、d错误的合并，而不是将簇a、b进行合并。

图2 聚类实例

Chameleon是一种凝聚层次聚类技术，他将数据的初始划分（使用一种有效的图划分算法）和一种新颖的层次聚类方案相结合，可以有效的解决上述问题。这种层次聚类使用接近性和互连性概念以及簇的局部建模，因此不依赖于全局（静态）模型，关键思想是，仅当合并后的结果簇类似于原来的两个簇时，这两个簇才应当合并。

自相似性（Self-similarity）度量

Chameleon力求合并这样一对簇，合并后产生的簇，用接近性和互联性度量，与原来一对簇最相似，因为这种方法仅依赖于簇对而不依赖于全局模型，Chameleon能够处理包含具有各种不同簇特性的簇的情况，下面分别对接近性和互联性进行介绍。
(1) 相对接近度（Relative Closeness，简称RC）
相对接近度是被簇的内部接近度规范化的两个簇的绝对接近度，更具体的说，仅当结构簇中的点之间的接近程度几乎与原来的每个簇一样时，才满足两个簇合并的条件，数学表示为：