【机器学习】层次聚类-Agglomerative clustering

【机器学习】层次聚类-Agglomerative clustering

Agglomerative clustering从 N N N个簇开始,每个簇最初只包含一个对象,然后在每个步骤中合并两个最相似的簇,直到形成一个包含所有数据的簇。

合并过程可以用二叉树(binary tree) 表示,称为树状图(dendrogram)。初始簇位于叶节点(图的底部),每当两个簇合并时,我们就将它们联接到树中。分支的高度表示正在加入的簇之间的差异。树的根(在顶部)表示包含所有数据的簇。如果我们在任何给定的高度砍树,我们会得到一个给定大小的集群。
在这里插入图片描述
实际上,根据我们如何定义不同簇之间的差异,Agglomerative clustering有三种变体。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Single link

单链接聚类(single link clustering)也叫最近邻聚类(nearest neighbor clustering)。两个簇之间的距离定义为两簇中离得最近的两个元素之间的距离:
在这里插入图片描述
计算复杂度为 O ( N 2 ) O(N^{2}) ON2

Complete link

complete link clustering也叫最远邻聚类( furthest neighbor clustering)。两个簇之间的距离定义为两簇中离得最远的两个元素之间的距离:
在这里插入图片描述
单链接聚类只需要一对对象很近,两个簇就可以认为很近,而不考虑组中其他成员的相似性。因此,可以形成违反紧性(compactness) 的集群,紧性是指一个组内的所有观察结果应该彼此相似。特别是如果我们定义一个组的直径(diameter) 为其成员的最大的不同时,我们可以看到,单链接聚类可以产生大直径的集群。complete link clustering则代表了相反的极端:只有当两个簇的所有观察结果都比较相似时,才认为它们是相近的。这将倾向于产生小直径的集群,即紧凑的集群。

Average link

在实际应用中,首选的方法是平均链接聚类(average link clustering),测量所有对之间的平均距离:
在这里插入图片描述
是上面两种聚类方式的折中,得到的是相对紧密的集群。

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值