评估指标【簇内误差平方和】-轮廓系数

最新推荐文章于 2023-08-23 11:18:55 发布

神音sss

最新推荐文章于 2023-08-23 11:18:55 发布

阅读量6.4k

点赞数 2

分类专栏： python

本文链接：https://blog.csdn.net/oxygensss/article/details/117093463

版权

本文探讨了如何衡量无标签聚类算法的效果，指出Inertia（簇内误差平方和）作为评估指标的局限性，并详细介绍了轮廓系数这一更优的评估标准。轮廓系数考虑了样本与其所在簇及相邻簇的相似度，范围在-1到1之间，能更好地反映聚类的合理性。文中还提及K-Means中初始质心选择的重要性及其初始化参数init的设置选项。

摘要由CSDN通过智能技术生成

一、面试高危问题：如何衡量聚类算法的效果？
我们知道：聚类模型的结果不是某种标签输出，聚类的结果也是不确定的，其优劣由业务需求或者算法需求来决定，并且没有永远的正确答案。那我们如何衡量聚类的效果呢？

记得我们说过， KMeans 的目标是确保“簇内差异小，簇外差异大”，我们就可以通过衡量簇内差异来衡量聚类的效果。而Inertia 是用距离来衡量簇内差异的指标，因此，我们是否可以使用 Inertia 来作为聚类的衡量指标呢？ Inertia 越小模型越好。答案也是可以的，但是簇内误差平方和Inertia这个指标的缺点和极限太大。

二、关于簇内误差平方和Inertia的讨论

主要有以下几方面的情况：

（1）它不是有界的。我们只知道， Inertia 是越小越好，是 0 最好，但我们不知道，一个较小的Inertia 究竟有没有达到模型的极限，能否继续提高。
（2）它的计算太容易受到特征数目的影响，数据维度很大的时候， Inertia 的计算量会陷入维度诅咒之中，计算量会爆炸，不适合用来一次次评估模型。

（3）它会受到超参数 k 的影响，在我们之前的尝试中其实我们已经发现，随着 k 越大， Inertia 注定会越来越小，但这并不代表模型的效果越来越好了。

（4）Inertia 作为评估指标，会让聚类算法在一些细长簇，环形簇，或者不规则形状的流形时表现不佳：

在这里插入图片描述
一、轮廓系数的概念

聚类是没有标签，即不知道真实答案的预测算法，我们必须完全依赖评价簇内的稠密程度（簇内差异小）和簇间的离散程度（簇外差异大）来评估聚类的效果。其中轮廓系数是最常用的聚类算法的评价指标。它是对每个样本来定义的，它能够同时衡量：
（1）样本与其自身所在的簇中的其他样本的相似度，等于样本与同一簇中所有其他点之间的平均距离，这个距离记作a。
（2）样本与其他簇中的样本的相似度，等于样本与下一个最近的簇中的所有点之间的平均距离，这个距离记作b。
二、轮廓系数的计算

根据聚类的要求”簇内差异小，簇外差异大“，我们希望 b 永远大于 a，并且大得越多越好。单个样本的轮廓系数计算为：
在这里插入图片描述