层次聚类的介绍

最新推荐文章于 2024-07-13 06:30:00 发布

红豆和绿豆

最新推荐文章于 2024-07-13 06:30:00 发布

阅读量2.1w

点赞数

分类专栏：文本挖掘数据挖掘文章标签： DIANA AGNES 层次聚类自底向上自顶向下

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011955252/article/details/50805198

版权

数据挖掘同时被 2 个专栏收录

54 篇文章 2 订阅

订阅专栏

46 篇文章 3 订阅

订阅专栏

AGNES算法（自底向上层次聚类）

AGNES(Agglomerative Nesting) 是凝聚的层次聚类算法，如果簇C1中的一个对象和簇C2中的一个对象之间的距离是所有属于不同簇的对象间欧式距离中最小的，C1和C2可能被合并。这是一种单连接方法，其每个簇可以被簇中的所有对象代表，两个簇之间的相似度由这两个簇中距离最近的数据点对的相似度来确定。

算法描述：

输入：包含n个对象的数据库，终止条件簇的数目k

输出：k个簇

（1）将每个对象当成一个初始簇

（2） Repeat

（3）根据两个簇中最近的数据点找到最近的两个簇

（4）合并两个簇，生成新的簇的集合

（5） Until达到定义的簇的数目

算法性能：

（1）简单，但遇到合并点选择困难的情况。

（2）一旦一组对象被合并，不能撤销

（3）算法的复杂度为O(n的平方)，不适合大数据集

DIANA（Divisive Analysis）算法属于分裂的层次聚类，首先将所有的对象初始化到一个簇中，然后根据一些原则（比如最邻近的最大欧式距离），将该簇分类。直到到达用户指定的簇数目或者两个簇之间的距离超过了某个阈值。

DIANA用到如下两个定义：

（1）簇的直径：在一个簇中的任意两个数据点都有一个欧氏距离，这些距离中的最大值是簇的直径

（2）平均相异度（平均距离）：

算法描述：

输入：包含n个对象的数据库，终止条件簇的数目k

输出：k个簇，达到终止条件规定簇数目

（1）将所有对象整个当成一个初始簇

（2） For ( i=1;i!=k;i++) Do Begin

（3）在所有簇中挑选出具有最大直径的簇；

（4）找出所挑出簇里与其他点平均相异度最大的一个点放入splinter group，剩余的放入old party中。

（5） Repeat

（6）在old party里找出到splinter group中点的最近距离不大于old party中点的最近距离的点，并将该点加入splinter group

（7） Until 没有新的old party的点被分配给splinter group；

（8） Splinter group 和old party为被选中的簇分裂成的两个簇，与其他簇一起组成新的簇集合

（9） END

算法性能：

缺点是已做的分裂操作不能撤销，类之间不能交换对象。如果在某步没有选择好分裂点，可能会导致低质量的聚类结果。大数据集不太适用。

层次聚类算法的分析：

层次聚类法的优点是可以通过设置不同的相关参数值，得到不同粒度上的多层次聚类结构；在聚类形状方面，层次聚类适用于任意形状的聚类，并且对样本的输入顺序是不敏感的。
层次聚类的不足之处是算法的时间复杂度大，层次聚类的结果依赖聚类的合并点和分裂点的选择。并且层次聚类过程最明显的特点就是不可逆性，由于对象在合并或分裂之后，下一次聚类会在前一次聚类基础之上继续进行合并或分裂，也就是说，一旦聚类结果形成，想要再重新合并来优化聚类的性能是不可能的了。聚类终止的条件的不精确性是层次聚类的另一个缺点，层次聚类要求指定一个合并或分解的终止条件，比如指定聚类的个数或是两个距离最近的聚类之间最小距离阈值。

红豆和绿豆

关注

0
点赞
踩
41

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。