层次聚类算法_层次KMeans聚类（Hierarchical KMeans Clustering）

weixin_39703926

于 2020-12-13 17:54:52 发布

阅读量3.4k

点赞数 3

文章标签：层次聚类算法

本文介绍了无监督聚类方法Hierarchical K-Means Clustering，结合了层次聚类和K-Means的优点。首先回顾了层次聚类和K-Means的基本概念和步骤，然后详细阐述了Hierarchical K-Means的工作流程，指出其初始中心更合理，避免了K-Means中k值选定和初始中心选取的问题。最后提供了R语言的实现示例，并建议根据数据特性选择合适的聚类方法。

摘要由CSDN通过智能技术生成

我们在分析多个样本多个特征的时候，经常用到的分析方法是聚类分析，看哪些样本或者哪些特征可以聚成几类。具体的聚类方法分有监督聚类(分类)和无监督聚类，今天我们学习一个比较简单的无监督聚类方法——Hierarchical K-Means Clustering。

在介绍Hierarchical K-means聚类算法前，我们先复习一下层次聚类(Hierarchical cluster)和k-means聚类的概念吧。

层次聚类：

层次聚类通过连续不断地将最为相似的群组两两合并，来构造出一个群组的层级结构。其中的每个群组都是从单一元素开始的。在每次迭代的过程中，层次聚类算法会计算每两个群组间的距离，并将距离最近的两个群组合并成一个新的群组。这一过程会一直重复下去，直至只剩一个群组为止。

假设有N个待聚类的样本，对于层次聚类来说，基本步骤就是：

(初始化)计算样本与样本之间的相似度，将相似的样本聚为一类，常用的算法有欧氏距离、皮尔逊相关系数、余弦距离、Jaccard距离等(具体实现脚本我用python实现了放在GitHub上，https://github.com/aiyacharley/VectorDist)；
然后寻找各个类之间最近的两个类，把他们归为一类(这样类的总数就少了一个)，计算类间距离算法常见的有SingleLinkage、CompleteLinkage和Average-linkage等，选择不同的距离指标，最终的聚类效果也不同，其中CompleteLinkage和Average-li

最低0.47元/天解锁文章

weixin_39703926

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。