层次聚类算法(一)

  层次聚类(hierarchical clustering)试图在不同层次上对数据集进行划分,从而形成树形的聚类结构,数据集的划分可采用“自底向上”的聚合策略,也可以采用“自顶向下”的分拆策略。即层次聚类可以是凝聚的也可以是分裂的。

   凝聚的层次聚类方法使用自底向上的策略。即刚开始每个点都认为是一个簇,然后在迭代过程中,不断的合并直到满足某种条件。在合并步骤中,它找出最相近的簇(“最相近”的衡量标准可以子集设定),并且合并他们,形成一个簇。

   分裂的层次聚类方法使用自顶向下的策略,即把所有的对象都放到一个簇中开始。不断向下划分,知道满足某种设定的条件。

         不管是凝聚的还是分裂的方法,一个核心问题就是度量两个簇之间的距离

度量方式主要有一下几种:


            

  层次聚类算法也是基于距离来衡量相似性的,不过距离衡量的是簇的相似性,层次聚类也是旨在发现球形簇

  当使用最小距离来度量两个簇之间的距离时,有时被称为最近邻聚类算法当最近的两个簇之间的距离超过设定的阈值之后,迭代就会终止,则其成为单连接算法。(最小距离由两个簇中的最近的两个样本决定)

  当使用最大距离来度量两个簇之间的距离时,有时被称为最远邻聚类算法。如果最近的两个簇之间的最远距离大于某个设定的阈值,迭代终止,称为全连接算法。(最大距离由连个簇中最大的连个样本决定)

     最小/最大距离代表了簇间距离距离度量的两个极端,对离群点以及噪声点过分敏感,使用均值距离/平均距离是一种折中的办法,可以克服离群点等的影响。均值距离计算简单,但是平均距离既能处理数值数据也可以处理分类数据。

  分裂或者是凝聚的层次聚类算法,形式都是一样的,在这里我们以自底向上的凝聚的聚类算法为例,简单阐述一下层次聚类的基本思想:所谓从下而上地合并cluster,具体而言,就是每次找到距离最短的两个cluster,然后进行合并成一个大的cluster,直到全部合并为一个cluster。整个过程就是建立一个树结构,类似于下图。看懂了自底向上的凝聚的聚类结构形式,那么自顶向下的形式也就懂了。




















  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
层次聚类算法的理论基础包括以下几个方面的内容: 1. 自底向上和自顶向下的层次分解:层次聚类算法可以根据层次分解的顺序分为自底向上和自顶向下两种方法。自底向上方法从每个个体开始,逐步合并相似的个体形成一个大的类。自顶向下方法则从一个包含所有个体的大类开始,逐步将其分解为较小的类,直到达到所需的类数。 2. Linkage方法:在层次聚类算法中,需要根据Linkage方法来判断个体或类之间的相似度。常用的Linkage方法包括最短距离法、最长距离法、中间距离法和类平均法等。其中,类平均法被认为是最常用和最好用的方法,因为它具有良好的单调性并且在空间扩张或浓缩程度上适中。 3. 混合数据类型层次聚类算法:除了处理数值型数据外,层次聚类算法还可以处理字符型数据和混合型数据。通过定义新的个体间不可区分度、类间不可区分度和聚类结果的综合近似精度等概念,可以使用新的混合数据类型层次聚类算法处理这些数据类型。这个算法的处理能力更加全面,可以应对更多类型的数据。 4. 与其他聚类方法的结合:为了弥补层次聚类算法在分解和合并方面的不足,常常需要与其他聚类方法相结合,如循环定位。这种结合可以进一步提高聚类的准确性和效果。 综上所述,层次聚类算法的理论基础包括自底向上和自顶向下的层次分解、Linkage方法、混合数据类型层次聚类算法以及与其他聚类方法的结合。这些理论基础为层次聚类算法的应用提供了指导和支持。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值