层次聚类

层次聚类的数学结构

在给定一个需要聚类的对象的矩阵之后,我们可以计算相应的邻近度矩阵,邻近度矩阵是层次聚类方法的基础,邻近度矩阵中的元素可以是对象之间的相似度(similarity)或不相似度(dissimilarity)。一般我们都是使用的对象之间的距离(一种不相似度)来组成邻近度矩阵。而所有的层次聚类方法都可以看成是把一个邻近度矩阵转化为一系列具有嵌套结构的划分。

首先通过定义来解释一下什么是一系列有嵌套结构的划分。用集合 X 表示n个待聚类的对象,

X={x1,x2,,xn}

xi 表示第i个对象, X 的一个划分 Y 将X划分成多个子集 {C1,C2,,Cm} ,且满足以下条件:
CiCj=Φ

C1C2Cm=X

每一次聚类就是一次划分,划分的每一个成分 Ci 都是一个簇。 Z 是X的另外一个划分,如果说 Z 的每一个成分都是 Y 的成分的子集,那么可以说划分 Z 嵌套在划分 Y 中。
举个栗子,如果 X 如下:
X={x1,x2,,x10}

划分 YZ 如下:
Y={(x1,x3,x5,x7),(x2,x4,x6,x8),(x9,x10)}

Z={(x1,x3),(x5,x7),(x2),(x4,x6,x8),(x9,x10)}

则称 ZY

而划分 YZ 与下面的划分都没有嵌套关系

{(x1,x2,x3,x4),(x5,x6,x7,x8),(x9,x10)}

层次聚类得到的就是一系列的具有嵌套关系划分(如 YZ )。

凝聚的层次聚类算法使用自下而上的策略,最开始的时候每一个对象都作为一个簇,根据对象的邻近度矩阵,找出两个最接近的簇,合并它们,形成一个簇,直到所有的对象都在一个簇里面。而分裂的层次聚类算法的步骤洽洽相反。

层次聚类的树状图表示

相比上面抽象的符号表示,也许一个树状图更能让你理解层次聚类的过程。这里写图片描述

一个树状图包括多个层,每个层包含多个节点。例如,上图就包括五个层,第一层有5个节点,代表了5个簇,第5层只有一个节点,表示只剩下一个簇了。节点之间的连线表示相互之间的嵌套关系。
对树状图进行水平切割,可以得到一个聚类,比如在第二层和第三层之间进行水平切割,我们得到的聚类结果是 {(x1,x2),(x3),(x4),(x5)}

接下来的一篇文章将介绍层次聚类中经常用到的单连接算法(single-linkage)和全连接算法(complete-linkage )

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值