层次聚类算法_层次KMeans聚类(Hierarchical KMeans Clustering)

本文介绍了无监督聚类方法Hierarchical K-Means Clustering,结合了层次聚类和K-Means的优点。首先回顾了层次聚类和K-Means的基本概念和步骤,然后详细阐述了Hierarchical K-Means的工作流程,指出其初始中心更合理,避免了K-Means中k值选定和初始中心选取的问题。最后提供了R语言的实现示例,并建议根据数据特性选择合适的聚类方法。
摘要由CSDN通过智能技术生成

我们在分析多个样本多个特征的时候,经常用到的分析方法是聚类分析,看哪些样本或者哪些特征可以聚成几类。具体的聚类方法分有监督聚类(分类)和无监督聚类,今天我们学习一个比较简单的无监督聚类方法——Hierarchical K-Means Clustering。

在介绍Hierarchical K-means聚类算法前,我们先复习一下层次聚类(Hierarchical cluster)和k-means聚类的概念吧。

层次聚类

层次聚类通过连续不断地将最为相似的群组两两合并,来构造出一个群组的层级结构。其中的每个群组都是从单一元素开始的。在每次迭代的过程中,层次聚类算法会计算每两个群组间的距离,并将距离最近的两个群组合并成一个新的群组。这一过程会一直重复下去,直至只剩一个群组为止。

假设有N个待聚类的样本,对于层次聚类来说,基本步骤就是:

  1. (初始化)计算样本与样本之间的相似度,将相似的样本聚为一类,常用的算法有欧氏距离、皮尔逊相关系数、余弦距离、Jaccard距离等(具体实现脚本我用python实现了放在GitHub上,https://github.com/aiyacharley/VectorDist);

  2. 然后寻找各个类之间最近的两个类,把他们归为一类(这样类的总数就少了一个),计算类间距离算法常见的有SingleLinkage、CompleteLinkage和Average-linkage等,选择不同的距离指标,最终的聚类效果也不同,其中CompleteLinkage和Average-li

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值