分层聚类详解

最新推荐文章于 2022-01-15 10:05:00 发布

飘羽

最新推荐文章于 2022-01-15 10:05:00 发布

阅读量1.4w

点赞数 9

分类专栏：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011808596/article/details/80978927

版权

算法专栏收录该内容

2 篇文章 0 订阅

订阅专栏

层次聚类（Hierarchical clustering）是在不同的“层次”上对样本数据集进行划分，一层一层地进行聚类。就划分策略可分为自底向上的凝聚方法（agglomerative hierarchical clustering），比如AGNES。自上向下的分裂方法（divisive hierarchical clustering），比如DIANA。

AGNES先将所有样本的每个点都看成一个簇，然后找出距离最小的两个簇进行合并，不断重复到预期簇或者其他终止条件。
DIANA先将所有样本当作一整个簇，然后找出簇中距离最远的两个簇进行分裂，不断重复到预期簇或者其他终止条件。

1、层次聚类（Hierarchical clustering）的步骤

分析步骤：假设有N个待聚类的样本，对于层次聚类来说：

（1）初始化：把每个样本各自归为一类（每个样本自成一类），计算每两个类之间的距离，也就是样本之间的相似度（本质还是计算类与类之间的距离）。

（2）寻找各个类之间最近的两个类，把它们归为一类（这样，总类的数量就减少了一个）

（3）重新计算新生成的这个类与各个旧类之间的距离（相似度）

（4）重复（2）（3）步，直到所有的样本都归为一类，结束。

2.关键的步骤为第三步，如何判断两个类之间的相似度有不少种方法，常见的三种：

（1）SingleLinkage：又叫做nearest-neighbor，就是取两个类中最近的两个样本之间的距离作为两个集合的距离，即：最近的两个样本之间的距离越小，

这两个类之间相似度越大，容易造成一种叫做Chaining的效果，两个类明明从“大局”上离的比较远，但由于其中个别点距离比较近就被合并了。

这种合并之后Chaining效应会进一步扩大，最后得到比较松散的聚类cluster。

（2）Complete Linkage：完全是SingleLinkage的反面极端，取两个集合距离最远的两个点的距离作为两个集合的距离，其效果也刚好相反，限制非常大。

两个聚类cluster即使已经很接近了，但是只要有不配合的带你存在，就顽固到底，老死不相合并，也是不太好的办法，这两种相似度定义方法共同问题就是：

只考虑了某个特有的数据，而没有考虑类数据整体的特点。

（3）Average Linkage：这种方法就是把两个集合中的点两两距离全部放在一起求平均值，相应的能得到一点合适的结果。

（4）Average Linkage的一个变种就是取两两距离的中值，与取平均值相比更加能够解除个别偏离样本对结果的干扰

关注

9
点赞
踩
35

收藏

觉得还不错? 一键收藏
0
评论
分层聚类详解

层次聚类（Hierarchical clustering）是在不同的“层次”上对样本数据集进行划分，一层一层地进行聚类。就划分策略可分为自底向上的凝聚方法（agglomerative hierarchical clustering），比如AGNES。自上向下的分裂方法（divisive hierarchical clustering），比如DIANA。AGNES先将所有样本的每个点都看成一个簇，然...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。