层次聚类

层次聚类,也称为层次聚类分析,是一种将相似对象分组为聚类的算法。 端点是一组群集,其中每个群集彼此都不相同,并且每个群集内的对象彼此大致相似。

分层聚类技术:

层次聚类是一种流行且易于理解的聚类技术。此聚类技术分为两种类型:
集聚的
分裂性

聚集层次聚类技术:在此技术中,最初,每个数据点都被视为一个单独的聚类。在每次迭代中,相似的群集将与其他群集合并,直到形成一个群集或K个群集。

集聚的基本算法很简单。
计算邻近矩阵

让每个数据点成为一个簇

重复:合并两个最接近的群集并更新邻近矩阵
直到只剩下一个集群
关键操作是计算两个集群的接近度
为了更好地理解,让我们看一下聚集层次聚类技术的图形表示。假设我们有六个数据点{A,B,C,D,E,F}。

步骤1:在第一步中,我们计算单个点的接近度,并将所有六个数据点视为单个簇,如下图所示。

在这里插入图片描述

步骤2:在第二步中,将相似的群集合并在一起并形成一个群集。 让我们考虑B,C和D,E是在第二步中合并的相似集群。 现在,我们剩下四个群集,分别是A,BC,DE,F。
步骤3:我们再次计算新群集的接近度,并合并相似的群集以形成新群集A,BC,DEF。
步骤4:计算新群集的接近度。 群集DEF和BC相似,合并在一起形成一个新群集。 现在剩下两个簇A,BCDEF。
步骤5:最后,将所有群集合并在一起,形成一个群集。
可以使用树状图来可视化层次聚类技术。在这里插入图片描述
2.划分层次聚类技术:由于在现实世界中使用划分层次聚类技术并不多,因此,我将简要介绍划分层次聚类技术。

用简单的话来说,分裂等级聚类与聚集等级聚类恰好相反。在分割层次聚类中,我们将所有数据点视为单个聚类,并且在每次迭代中,我们将数据点与不相似的聚类分开。分离的每个数据点都被视为一个单独的群集。最后,我们将剩下n个群集

当我们将单个群集划分为n个群集时,它被称为Divisive Hierarchical群集。

“我们如何计算两个群体之间的相似度?”
计算两个聚类之间的相似性对于合并或划分聚类很重要。有一些方法可用于计算两个聚类之间的相似度:

最小值
最大值
团体平均
Ward 算法

首先是Min也就是最小值算法。

MIN:也可以定义为单链接算法,因为两个群集C1和C2的相似度等于点Pi和Pj之间的相似度的最小值,因此Pi属于C1,Pj属于C2。
从数学上讲,可以写成
Sim(C1,C2)= Min Sim(Pi,Pj),使得Pi∈C1&Pj∈C2
用简单的话来说,选择两个最接近的点,以使一个点位于聚类1中,另一个点位于聚类2中,并取得它们的相似性并将其声明为两个聚类之间的相似性。
在这里插入图片描述
MIN的优点:
只要两个簇之间的间隙不小,此方法就可以分离非椭圆形。
在这里插入图片描述
MIN的缺点:
如果群集之间存在噪音,则MIN方法无法正确分离群集。
在这里插入图片描述
下面 是最大值方法:
MAX:也称为完全链接算法,与MIN方法完全相反。 两个聚类C1和C2的相似度等于点Pi和Pj之间的相似度的最大值,使得Pi属于C1并且Pj属于C2。
从数学上讲,可以写成
Sim(C1,C2)=最大Sim(Pi,Pj),使得Pi∈C1&Pj∈C2
用简单的话来说,选择两个最远的点,以便一个点位于群集1中,另一点位于群集2中,并取得它们的相似性并将其声明为两个群集之间的相似性。
在这里插入图片描述
MAX的优点:
如果群集之间存在噪声,则MAX方法在隔离群集方面效果很好。
在这里插入图片描述
最大缺点:
最大方法偏向球状信息团。
最大方法往往会破坏大型群集。
在这里插入图片描述

Group Average方法
Average Group:取所有成对的点并计算它们的相似度,然后计算相似度的平均值。
从数学上讲,可以写成
sim(C1,C2)= ∑ sim(Pi,Pj)/ | C1 | * | C2 |
其中,Pi∈C1&Pj∈C2
在这里插入图片描述
团体平均的优点:
如果群集之间存在噪音,则“分组平均值”方法在隔离群集方面效果很好。

团体平均值的缺点:
分组平均法偏向球状信息团。
重心之间的距离:计算两个聚类C1和C2的重心,并将两个重心之间的相似性视为两个聚类之间的相似性。 在现实世界中,这是一种不太流行的技术。
在这里插入图片描述
沃德的方法:这种计算两个聚类之间相似度的方法与分组平均值完全相同,只是沃德的方法计算的是距离Pi和PJ的平方和。
从数学上讲,可以写成
sim(C1,C2)= ∑(dist(Pi,Pj))²/ | C1 | * | C2 |

沃德方法的优点:
如果群集之间存在噪音,Ward的方法也可以很好地隔离群集。

沃德方法的缺点:
沃德的方法也偏向球状信息团。

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值