使用自相似性的聚类方法——Chameleon

使用自相似性的聚类方法——Chameleon

第三十六次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。本文作为基于图的聚类的第四部分,主要针对“使用自相似性的Chameleon聚类算法”即进行介绍。其他基于图的聚类算法的链接可以在这篇综述《基于图的聚类算法综述(基于图的聚类算法开篇)》的结尾找到。

传统相似性度量方法的缺陷

  层次聚类技术通过合并两个最相似的簇来进行聚类,其中簇的相似性定义依赖于具体的算法,例如,“单链”使用不同簇中点的最小距离来表示相似性,CURE则使用两个簇中最近的代表点间距离来表示相似性。仅仅使用单一的相似度度量方法可能导致簇被错误的合并和分割,如下图所示存在4个簇,如果使用“单链”层次聚类或CURE算法会将簇a、b错误的合并在一起,而不是将簇c、d进行合并。

图1 聚类实例

  另一问题是,大部分聚类技术都有一个全局(静态)簇模型,例如,K-Means假定簇是球形的,而DBSCAN基于单个密度阈值定义簇,使用这种全局模型的聚类方法不能处理诸如大小、形状和密度等簇特征在簇间变化很大的情况。以“组平均”层次聚类算法为例,如下图所示存在4个簇,假设每个顶点之间边的权值相等,且每个簇的大小相等,“组平均”会将簇c、d错误的合并,而不是将簇a、b进行合并。

图2 聚类实例

  Chameleon是一种凝聚层次聚类技术,他将数据的初始划分(使用一种有效的图划分算法)和一种新颖的层次聚类方案相结合,可以有效的解决上述问题。这种层次聚类使用接近性和互连性概念以及簇的局部建模,因此不依赖于全局(静态)模型,关键思想是,仅当合并后的结果簇类似于原来的两个簇时,这两个簇才应当合并。

自相似性(Self-similarity)度量

  Chameleon力求合并这样一对簇,合并后产生的簇,用接近性和互联性度量,与原来一对簇最相似,因为这种方法仅依赖于簇对而不依赖于全局模型,Chameleon能够处理包含具有各种不同簇特性的簇的情况,下面分别对接近性和互联性进行介绍。
(1) 相对接近度(Relative Closeness,简称RC)
  相对接近度是被簇的内部接近度规范化的两个簇的绝对接近度,更具体的说,仅当结构簇中的点之间的接近程度几乎与原来的每个簇一样时,才满足两个簇合并的条件,数学表示为:

其中, m i m_i mi m j m_j mj分别是簇 C i C_i Ci C j C_j Cj的大小, S ‾ E C ( C i , C j ) \overline{S}_{EC}\left(C_{i},C_{j}\right) SEC

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值