现有的k-means聚类数确定方法
k-means聚类算法是被研究和应用最为广泛的聚类算法之一,其基本思想是把具有n个数据对象的数据集S按照某种相似性规则和聚类准则函数划分为k个类簇。其实现原理简单,但有两个较明显的局限:(1)需要人工给定一个聚类数k的值,这个值一般是凭聚类用户的经验给定,具有很大的主观性,不合适的k值可能导致错误的聚类结果;(2)随机从数据集选取初始聚类中也,选择不好的初始聚类中也点可能导致聚类评价指标陷入局部最优。自1987年MacQueen提出k-means算法以来,对k-means的研究与改进都是针对这两个局限性进行改进和优化。对k-means聚类数的确定的方法有很多改进算法,其中很多算法确定聚类数k值的主要思想是:给定一个聚类评价指标,然后根据聚类数迭代,一般是从[2,Int
![v2-cdd7e72339e2e99766f8d9c31a9ed42c_b.jpg](http://img-03.proxy.5ce.com/view/image?&type=2&guid=20fbbaea-1151-eb11-8da9-e4434bdf6706&url=https://pic1.zhimg.com/v2-cdd7e72339e2e99766f8d9c31a9ed42c_b.jpg)
]捜索聚类数,当这个聚类指标值达到最优时对应的聚类数就是最佳聚类数。目前经典的一些检验聚类效果有效性的函数指标,主要有Calinski-Harabasz(CH)指标、Davies-Bouldin(DB)指标、Krzanowski-Lai(KL)指标Weightednter-intra(Wint)指标、In-GroupProportion(IGP)指标等。文献中,周世兵、唐旭清等人提出了一种新的评价聚类有效性的指标(称为BWP指标,其值为聚类离差距离与聚类距离的比值),并依据此指标提出了确定k-means最佳聚类数的方法。文献中定义样本对象的类内距离是该样本与同类簇中其他样本对象之间距离的平均值,定义样本对象的类间距离是样本与其他各类中对象的距离平均值中的最小值;如图5-1所示,类x中样本i的类内距离是i与类x中其他对象之间距离的平均值,类x中样本i的类间距离是对象i与类y、z及其他类中对象的距离的平均值之中的最小值。文献[36]中关于聚类指标的相关定义如下:
![daad244f877377cbe57d9a8266a17325.png](https://i-blog.csdnimg.cn/blog_migrate/f6004e2cf81d2fd08821c7814480f065.png)
![913603ca39fa0c8983a07a8c0e7a6550.png](https://i-blog.csdnimg.cn/blog_migrate/05f2e91ae7bad7d15bf6e6ebc2464170.png)
![956bf3dc8ba74bee5cec13bc3fceb68d.png](https://i-blog.csdnimg.cn/blog_migrate/b8ab5ddce2e755501a0f63a2b8def4bb.png)
![12e2b1612dce4c208e31de3715fe4bca.png](https://i-blog.csdnimg.cn/blog_migrate/9ae82d0cd03705b8f1935d50d4c5edfd.png)
![1ee1a3c7d9260db331fe8c8c3d8295ea.png](https://i-blog.csdnimg.cn/blog_migrate/ce7859b09b7085d294397334b6091808.png)
图5-1聚类结构示例图a
算法步骤如下:
![f3076cab16f11aa3d39970e9519273f6.png](https://i-blog.csdnimg.cn/blog_migrate/459a9dd046611a5fa5ff0004a42a9d17.png)
周世兵、唐旭清等人提出的逸个确定最佳聚类数的方法存在不足之处,其初始聚类中也的选择是随机的,这有可能选取到不合适的数据对象或噪声点作为初始聚类中也,这会导致聚类结果不稳定:此外,捜索聚类数时,k的值变化时,不同聚类数聚类时的初始中也点各不一样,聚类结果对比性不强,将其聚类结果做对比会存在一定的偏差。本章将针对周世兵等人算法的不足之处提出改进方法,提出一个基于初始聚类中也选择优化的k-means最佳聚类数确定方法,该方法先产生一个比较适合的初始聚类中也候选集,每次聚类从这个集合中选取初始聚类中也点,当捜索聚类数时只变动部分中也点,从而使聚类结果更稳定,对比性更强,聚类效果更好。
《来源于科技文献,经本人分析整理,以技术会友,广交天下朋友》
石显:改进k-means聚类数确定方法——聚类中也优化的k-means最佳聚类数确定方法zhuanlan.zhihu.com