层次聚类python代码_聚类算法总结以及python代码实现

最新推荐文章于 2024-07-16 13:51:24 发布

weixin_39710966

最新推荐文章于 2024-07-16 13:51:24 发布

阅读量2.1k

点赞数 1

文章标签：层次聚类python代码

本文介绍了层次聚类算法的原理，包括自下而上的凝聚层次聚类（AGNES）和自上而下的分裂层次聚类（DIANA）。并提供了Python代码示例，展示了如何使用平均连接方法进行层次聚类。文章还提到了DBSCAN等基于密度的聚类算法，强调了层次聚类在处理具有层次结构数据时的优势。

摘要由CSDN通过智能技术生成

一、聚类(无监督)的目标

使同一类对象的相似度尽可能地大；不同类对象之间的相似度尽可能地小。

二、层次聚类

层次聚类算法实际上分为两类：自上而下或自下而上。自下而上的算法在一开始就将每个数据点视为一个单一的聚类，然后依次合并(或聚集)类，直到所有类合并成一个包含所有数据点的单一聚类。因此，自下而上的层次聚类称为合成聚类或HAC。聚类的层次结构用一棵树(或树状图)表示。树的根是收集所有样本的唯一聚类，而叶子是只有一个样本的聚类。在继续学习算法步骤之前，先查看下面的图表

1.我们首先将每个数据点作为一个单独的聚类进行处理。如果我们的数据集有X个数据点，那么我们就有了X个聚类。然后我们选择一个度量两个聚类之间距离的距离度量。作为一个示例，我们将使用平均连接(average linkage)聚类，它定义了两个聚类之间的距离，即第一个聚类中的数据点和第二个聚类中的数据点之间的平均距离。

2.在每次迭代中，我们将两个聚类合并为一个。将两个聚类合并为具有最小平均连接的组。比如说根据我们选择的距离度量，这两个聚类之间的距离最小，因此是最相似的，应该组合在一起。

3.重复步骤2直到我们到达树的根。我们只有一个包含所有数据点的聚类。通过这种方式，我们可以选择最终需要多少个聚类，只需选择何时停止合并聚类，也就是我们停止建造这棵树的时候！

层次聚类算法不要求我们指定聚类的数量，我们甚至可以选择哪个聚类看起来最好。此外，该算法对距离度量的选择不敏感;它们的工作方式都很好，而对于其他聚类算法，距离度量的选择是至关重要的。层次聚类方法的一个特别好的用例是，当底层数据具有层次结构时，你可以恢复层次结构;而其他的聚类算法无法做到这一点。层次聚类的优点是以低效率为代价的，因为它具有O(n³)的时间复杂度，与K-Means和高斯混合模型的线性复杂度不同。

层次聚类方法对给定的数据集进行层次的分解，直到某种条件满足或者达到最大迭代次数。具体又可分为：

凝聚的层次聚类(AGNES算法)：一种自底向上的策略，首先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇(一般是计算所有簇的中心之间的距离，选取距离最小的两个簇合并)，直到某个终结条件被满足或者达到最大迭代次数。

分裂的层次聚类(DIANA算法)：采用自顶向下的策略，它首先将所有对象置于一个簇中，然后逐渐细分为越来越小的簇(一般是每次迭代分裂一个簇为两个)，直到达到了某个终结条件或者达到最大迭代次数。

import sys,os

import numpy as np

class Hierarchical:

def __init__(self,center,left=None,right=None,flag=None,distance=0.0):

self.center = center

self.l

最低0.47元/天解锁文章

weixin_39710966

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
层次聚类python代码_聚类算法总结以及python代码实现

一、聚类(无监督)的目标使同一类对象的相似度尽可能地大；不同类对象之间的相似度尽可能地小。二、层次聚类层次聚类算法实际上分为两类：自上而下或自下而上。自下而上的算法在一开始就将每个数据点视为一个单一的聚类，然后依次合并(或聚集)类，直到所有类合并成一个包含所有数据点的单一聚类。因此，自下而上的层次聚类称为合成聚类或HAC。聚类的层次结构用一棵树(或树状图)表示。树的根是收集所有样本的唯一聚类，而叶...
复制链接

扫一扫