K-means聚类算法的三种改进(K-means++,ISODATA,Kernel K-means)介绍与对比

最新推荐文章于 2024-08-14 00:10:28 发布

weixin_34248705

最新推荐文章于 2024-08-14 00:10:28 发布

阅读量3.3k

点赞数 2

原文链接：http://www.cnblogs.com/yixuan-xu/p/6272208.html

版权

本文介绍了K-means聚类算法的三种改进版本：K-means++、ISODATA和Kernel K-means。K-means++通过改进聚类中心的选择，使得初始聚类中心分散更均匀；ISODATA允许在运行过程中动态调整聚类中心数量，适应数据分布变化；而Kernel K-means引入核函数改善了距离度量。文章通过实例和算法流程详细解释了这些改进方法，并提供了源代码实现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、概述

在本篇文章中将对四种聚类算法(K-means,K-means++,ISODATA和Kernel K-means)进行详细介绍，并利用数据集来真实地反映这四种算法之间的区别。

首先需要明确的是上述四种算法都属于"硬聚类”算法，即数据集中每一个样本都是被100%确定得分到某一个类别中。与之相对的"软聚类”可以理解为每个样本是以一定的概率被分到某一个类别中。

先简要阐述下上述四种算法之间的关系，已经了解过经典K-means算法的读者应该会有所体会。没有了解过K-means的读者可以先看下面的经典K-means算法介绍再回来看这部分。

(1) K-means与K-means++：原始K-means算法最开始随机选取数据集中K个点作为聚类中心，而K-means++按照如下的思想选取K个聚类中心：假设已经选取了n个初始聚类中心(0<n<K)，则在选取第n+1个聚类中心时：距离当前n个聚类中心越远的点会有更高的概率被选为第n+1个聚类中心。在选取第一个聚类中心(n=1)时同样通过随机的方法。可以说这也符合我们的直觉：聚类中心当然是互相离得越远越好。这个改进虽然直观简单，但是却非常得有效。

(2) K-means与ISODATA：ISODATA的全称是迭代自组织数据分析法。在K-means中，K的值需要预先人为地确定，并且在整个算法过程中无法更改。而当遇到高维度、海量的数据集时，人们往往很难准确地估计出K的大小。ISODATA就是针对这个问题进行了改进，它的思想也很直观：当属于某个类别的样本数过少时把这个类别去除，当属于某个类别的样本数过多、分散程度较大时把这个类别分为两个子类别。

(3) K-means与Kernel K-means：传统K-means采用欧式距离进行样本间的相似度度量，显然并不是所有的数据集都适用于这种度量方式。参照支持向量机中核函数的思想，将所有样本映射到另外一个特征空间中再进行聚类，就有可能改善聚类效果。本文不对Kernel K-means进行详细介绍。

可以看到，上述三种针对K-means的改进分别是从不同的角度出发的，因此都非常具有代表意义。目前应用广泛的应该还是K-means++算法（例如2016年底的NIPS上也有针对K-means++的改进，感兴趣的读者可以进一步学习）。

二、经典K-means算法

算法描述如下，非常清晰易懂。经典K-means算法应该是每个无监督学习教程开头都会讲的内容，故不再多费口舌说一遍了。

图1. 经典K-means算法