层次聚类——自底向上方法

直观认识
假设数据集 D={a,b,c,d,e} , 在D上运行自底向上的层次聚类算法的过程如下图所示:
这里写图片描述
得到一颗树:
这里写图片描述
在树中,由同一个根结点分支出去的所有后代节点属于同一个聚类。

算法
自定向上的层次聚类算法伪代码如下:
这里写图片描述
伪代码中需要详细说明的是计算两个聚类之间距离的方式。这里有四种方式:
最小距离: distmin(Ci,Cj)=minpCi,pCj{|pp|}
最大距离: distmax(Ci,Cj)=maxpCi,pCj{|pp|}
均值距离: distmean(Ci,Cj)=|mimj|
平均距离: distavg(Ci,Cj)=1ninjpCi,pCj|pp|
其中, |pp| 是两个对象p和p’之间的距离, mi 是聚类 Ci 的均值, ni 是聚类 Ci 中对象的数据。
这些距离度量方式又称为连接度量,其中,最小距离成为单连接度量,最大距离称为全连接度量,平均距离称为平均连接度量。

参考资料:
《Web数据挖掘》第2版,Bing Liu 著, 俞勇 译
《数据挖掘概念与技术》第3版,Jiawei Han,Micheline Kamber,Jian Pei 著,范明,孟小峰 译

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值