Chameleon两阶段聚类算法

最新推荐文章于 2023-02-23 14:10:15 发布

Android路上的人

最新推荐文章于 2023-02-23 14:10:15 发布

阅读量1.4w

点赞数 9

分类专栏：算法机器学习数据挖掘经典数据挖掘算法文章标签：算法技术数据数据挖掘机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Androidlushangderen/article/details/44569077

版权

参考文献：http://www.cnblogs.com/zhangchaoyang/articles/2182752.html(用了很多的图和思想)
博客园（华夏35度）作者:Orisun
数据挖掘算法-Chameleon算法.百度文库

我的算法库：https://github.com/linyiqun/lyq-algorithms-lib（里面可能有你正想要的算法）

算法介绍

本篇文章讲述的还是聚类算法，也是属于层次聚类算法领域的，不过与上篇文章讲述的分裂实现聚类的方式不同，这次所讲的Chameleon算法是合并形成最终的聚类，恰巧相反。Chamelon的英文单词的意思是变色龙，所以这个算法又称之为变色龙算法，变色龙算法的过程如标题所描绘的那样，是分为2个主要阶段的，不过他可不是像BIRCH算法那样，是树的形式。继续看下面的原理介绍。

算法原理

先来张图来大致了解整个算法的过程。

上面图的显示过程虽然说有3个阶段，但是这其中概况起来就是两个阶段，第一个是形成小簇集的过程就是从Data Set 到k最近邻图到分裂成小聚餐，第二个阶段是合并这些小聚簇形成最终的结果聚簇。理解了算法的大致过程，下面看看里面定义的一些概念，还不少的样子。

为了引出变色龙算法的一些定义，这里先说一下以往的一些聚类算法的不足之处。

1、忽略簇与簇之间的互连性。就会导致最终的结果形成如下：

2、忽略簇与簇之间的近似性。就会导致最终的聚类结果变成这样“：

为什么提这些呢，因为Chameleon算法正好弥补了这2点要求，兼具互连性和近似性。在Chameleon算法中定义了相对互连性，RI表示和相对近似性，RC表示，最后通过一个度量函数:

function value = RI( Ci, Cj)× RC( Ci, Cj)α，α在这里表示的多少次方的意思，不是乘法。

来作为2个簇是否能够合并的标准，其实这些都是第二阶段做的事情了。

在第一阶段，所做的一件关键的事情就是形成小簇集，由零星的几个数据点连成小簇，官方的作法是用hMetic算法根据最小化截断的边的权重和来分割k-最近邻图，然后我网上找了一些资料，没有确切的hMetic算法，借鉴了网上其他人的一些办法，于是用了一个很简单的思路，就是给定一个点，把他离他最近的k个点连接起来，就算是最小簇了。事实证明，效果也不会太差，最近的点的换一个意思就是与其最大权重的边，采用距离的倒数最为权重的大小。因为后面的计算，用到的会是权重而不是距离。

我们再回过头来细说第二阶段所做的事情，首先是2个略复杂的公式（直接采用截图的方式）：

相对互连性RI=

最低0.47元/天解锁文章

Android路上的人

关注

9
点赞
踩
36

收藏

觉得还不错? 一键收藏
4
评论
Chameleon两阶段聚类算法

参考文献：http://www.cnblogs.com/zhangchaoyang/articles/2182752.html(用了很多的图和思想)博客园（华夏35度）作者:Orisun数据挖掘算法-Chameleon算法.百度文库我的算法库：https://github.com/linyiqun/lyq-algorithms-lib（里面可能有你正想要的算法）算法介绍本篇文
复制链接

扫一扫

专栏目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。