机器学习之层次聚类

最新推荐文章于 2022-05-04 21:15:32 发布

语亦情非

最新推荐文章于 2022-05-04 21:15:32 发布

阅读量452

点赞数

分类专栏：机器学习数据挖掘面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a1272899331/article/details/104802858

版权

机器学习同时被 2 个专栏收录

25 篇文章 1 订阅

订阅专栏

数据挖掘面试

25 篇文章 1 订阅

订阅专栏

层次聚类引入

层次聚类跟kmeans聚类一样不适合非球样本，

密度聚类DBSCAN就可以很好的聚类非球样本并且密度聚类可以非常方便地发现数据中的异常点。

层次聚类的实质是计算各簇内样本点之间的相似度，并通过相似度的结果构建凝聚或分

裂的层次树。凝聚树是一种自底向上的造树过程，起初将每一个样本当作一个类，然后通过计

算样本间或簇间的距离进行样本合并，最终形成一个包含所有样本的大簇；分裂树与凝聚树恰

好相反，它是自顶向下的造树过程，起初将所有样本点聚为一个类，然后利用相似度的方法将

大簇进行分割，直到所有样本为一个类为止。

簇间的距离度量

1 ．最小距离法

最小距离法是指以所有簇间样本点距离的最小值作为簇间距离的度量，但是该方法非常

容易受到极端值的影响。

2 ．最大距离法

最大距离法是指以所有簇间样本点距离的最大值作为簇间距离的度量，同样，该方法也

容易受到极端值的影响。

3 ．平均距离法

最小距离法和最大距离法都容易受到极端值的影响，可以使用平均距离法对如上两种方

法做折中处理，即以所有簇间样本点距离的平均值作为簇间距离的度量。

层次聚类的步骤

在理解有关点与点、点与簇和簇与簇之间的距离度量标准之后，就需要进一步掌握层次

聚类算法是如何实现样本点聚类的。本小节将详细介绍有关层次聚类算法的操作步骤，并通

过举例说明的方式加强对聚类步骤的理解。层次聚类的步骤如下：

（ 1 ）将数据集中的每个样本点当作一个类别。

（ 2 ）计算所有样本点之间的两两距离，并从中挑选出最小距离的两个点构成一个簇。

（ 3 ）继续计算剩余样本点之间的两两距离和点与簇之间的距离，然后将最小距离的点或簇

合并到一起。

（ 4 ）重复步骤（ 2 ）和（ 3 ），直到满足聚类的个数或其他设定的条件，便结束算法的运行。

如上的 4 个步骤光用文字说明可能理解起来比较困难，接下来通过一个简单的例子形象地

说明层次聚类法的整个聚类过程。

参数

cluster.AgglomerativeClustering(n_clusters=2, affinity='euclidean', memory=None,

connectivity=None, compute_full_tree='auto', linkage='ward')

n_clusters ：用于指定样本点聚类的个数，默认为 2 。

affinity ：用于指定样本间距离的衡量指标，可以是欧氏距离、曼哈顿距离、余弦相似度

等，默认为 'euclidean' ；如果参数 linkage 为 'ward' ，该参数只能设置为欧氏距离。

memory ：是否指定缓存结果的输出，默认为否；如果该参数设置为一个路径，最终将把

计算过程的缓存输出到指定的路径中。

connectivity ：用于指定一个连接矩阵。

compute_full_tree ：通常情况下，当聚类过程达到 n_clusters 时，算法就会停止，如果该参

数设置为 True ，则表示算法将生成一棵完整的凝聚树。

linkage ：用于指定簇间距离的衡量指标，默认为 'ward' ，表示最小距离法；如果

为 'complete' ，则表示使用最大距离法；如果为 'average' ，则表示使用平均距离法。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习之层次聚类

层次聚类引入层次聚类跟kmeans聚类一样不适合非球样本，密度聚类DBSCAN就可以很好的聚类非球样本并且密度聚类可以非常方便地发现数据中的异常点。层次聚类的实质是计算各簇内样本点之间的相似度，并通过相似度的结果构建凝聚或分裂的层次树。凝聚树是一种自底向上的造树过程，起初将每一个样本当作一个类，然后通过计算样本间或簇间的距离进行样本合并，最终形成一个包含所有样本的大簇；分裂...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。