分层聚类详解

层次聚类(Hierarchical clustering)是在不同的“层次”上对样本数据集进行划分,一层一层地进行聚类。就划分策略可分为自底向上的凝聚方法(agglomerative hierarchical clustering),比如AGNES自上向下的分裂方法(divisive hierarchical clustering),比如DIANA

AGNES先将所有样本的每个点都看成一个簇,然后找出距离最小的两个簇进行合并,不断重复到预期簇或者其他终止条件。 
DIANA先将所有样本当作一整个簇,然后找出簇中距离最远的两个簇进行分裂,不断重复到预期簇或者其他终止条件。

1、层次聚类(Hierarchical clustering)的步骤

分析步骤:假设有N个待聚类的样本,对于层次聚类来说:

(1)初始化:把每个样本各自归为一类(每个样本自成一类),计算每两个类之间的距离,也就是样本之间的相似度(本质还是计算类与类之间的距离)。

(2)寻找各个类之间最近的两个类,把它们归为一类(这样,总类的数量就减少了一个)

(3)重新计算新生成的这个类与各个旧类之间的距离(相似度)

(4)重复(2)(3)步,直到所有的样本都归为一类,结束。

2.关键的步骤为第三步,如何判断两个类之间的相似度有不少种方法,常见的三种:

(1)SingleLinkage:又叫做nearest-neighbor,就是取两个类中最近的两个样本之间的距离作为两个集合的距离,即:最近的两个样本之间的距离越小,

这两个类之间相似度越大,容易造成一种叫做Chaining的效果,两个类明明从“大局”上离的比较远,但由于其中个别点距离比较近就被合并了。

这种合并之后Chaining效应会进一步扩大,最后得到比较松散的聚类cluster。

(2)Complete Linkage:完全是SingleLinkage的反面极端,取两个集合距离最远的两个点的距离作为两个集合的距离,其效果也刚好相反,限制非常大。

两个聚类cluster即使已经很接近了,但是只要有不配合的带你存在,就顽固到底,老死不相合并,也是不太好的办法,这两种相似度定义方法共同问题就是:

只考虑了某个特有的数据,而没有考虑类数据整体的特点。

(3)Average Linkage:这种方法就是把两个集合中的点两两距离全部放在一起求平均值,相应的能得到一点合适的结果。

(4)Average Linkage的一个变种就是取两两距离的中值,与取平均值相比更加能够解除个别偏离样本对结果的干扰


  • 9
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值