聚类分析如可确定最佳的聚类簇数？

interbigdata

已于 2023-12-11 15:59:25 修改

阅读量1.8w

点赞数 20

分类专栏：机器学习文章标签：聚类数据挖掘机器学习

于 2019-07-23 17:21:47 首次发布

本文链接：https://blog.csdn.net/interbigdata/article/details/97007398

版权

机器学习专栏收录该内容

7 篇文章

订阅专栏

聚类与分类的不同在于，聚类所要求划分的类是未知的。也就是说我们对样本数据的划分是不了解。聚类分析的任务就是要明确这个划分。例如我们采集到很多未知的植物标本，并对每株标本的植物学特征进行了记录、量化。那么这些植物标本到底是几个物种呢？聚类分析就可以解决这个问题。

当前在机器学习领域涌现了许多优秀的聚类分析算法供我们使用，如k-means、DBSCAN、AGNES等。通过使用这些成熟的算法，我们很容易完成对数据样本的聚类分析。但是同时我们也普遍面临一个问题的困扰——对于类别未知的数据集合，分几个类别才是最优的？

可视化的手段是常用的，如上图。我们可以直观的判断样本聚集的质量。但是对于超出3维的高维数据，可视化手段就失效了。

聚类质量的判断标准是簇内相似度最高、簇间差异性最高，这个标准我们如何进行衡量呢？

今天我们介绍一个非常好有并且有效的工具——calinski_harabaz分数。calinski_harabaz分数的计算公式如下：

，其中m为样本总量，k为分类的数量（簇数），Bk是簇间协方差矩阵，Wk是簇内协方差矩阵，tr是矩阵的迹（矩阵主对角线（从左上方至右下方的对角线）上各个元素的总和被称为矩阵的迹）。也就是说，类别内部数据的协方差越小越好，类别之间的协方差越大越好，这样的Calinski-Harabaz分数会高，聚类的结果就更好。

对于聚类结果的评价，我们还可以使用轮廓系数silhouette和兰德指数，从计算效率来看calinski_harabaz分数最高，所以一般来说calinski_harabaz分数更常用。

使用sklearn.metrics的calinski_harabaz_score(样本数据,聚类结果)函数就可以进行聚类结果的评价了。在实际工作中，我们可以使用如下算法完成最优聚类结果的选择：

import sklearn.metrics
ch_score=0
best=null
#args为聚类算法clustering的参数
for arg in args:
    clusters=clustering(sample,arg)
    _score=calinski_harabaz_score(sample,clusters)
    if(_score>ch_score):
        best=clusters
        ch_score=_score
output(best)