评估指标【簇内误差平方和】-轮廓系数

本文探讨了如何衡量无标签聚类算法的效果,指出Inertia(簇内误差平方和)作为评估指标的局限性,并详细介绍了轮廓系数这一更优的评估标准。轮廓系数考虑了样本与其所在簇及相邻簇的相似度,范围在-1到1之间,能更好地反映聚类的合理性。文中还提及K-Means中初始质心选择的重要性及其初始化参数init的设置选项。
摘要由CSDN通过智能技术生成

一、面试高危问题:如何衡量聚类算法的效果?
我们知道:聚类模型的结果不是某种标签输出,聚类的结果也是不确定的,其优劣由业务需求或者算法需求来决定,并且没有永远的正确答案。那我们如何衡量聚类的效果呢?

记得我们说过, KMeans 的目标是确保“簇内差异小,簇外差异大”,我们就可以通过衡量簇内差异来衡量聚类的效果。而Inertia 是用距离来衡量簇内差异的指标,因此,我们是否可以使用 Inertia 来作为聚类的衡量指标呢? Inertia 越小模型越好。 答案也是可以的,但是簇内误差平方和Inertia这个指标的缺点和极限太大。

二、关于簇内误差平方和Inertia的讨论

主要有以下几方面的情况:

(1)它不是有界的。我们只知道, Inertia 是越小越好,是 0 最好,但我们不知道,一个较小的Inertia 究竟有没有达到模型的极限,能否继续提高。
(2)它的计算太容易受到特征数目的影响,数据维度很大的时候, Inertia 的计算量会陷入维度诅咒之中,计算量会爆炸,不适合用来一次次评估模型。

(3)它会受到超参数 k 的影响,在我们之前的尝试中其实我们已经发现,随着 k 越大, Inertia 注定会越来越小,但这并不代表模型的效果越来越好了。

(4)Inertia 作为评估指标,会让聚类算法在一些细长簇,环形簇,或者不规则形状的流形时表现不佳:

在这里插入图片描述
一、轮廓系数的概念

聚类是没有标签,即不知道真实答案的预测算法,我们必须 完全依赖评价簇内的稠密程度(簇内差异小)和簇间的离散程度(簇外差异大)来评估聚类的效果。其中轮廓系数是最常用的聚类算法的评价指标。它是对每个样本来定义的,它能够同时衡量:
(1) 样本与其自身所在的簇中的其他样本的相似度,等于样本与同一簇中所有其他点之间的平均距离,这个距离记作a。
(2)样本与其他簇中的样本的相似度,等于样本与下一个最近的簇中的所有点之间的平均距离,这个距离记作b。
二、轮廓系数的计算

根据聚类的要求”簇内差异小,簇外差异大“,我们希望 b 永远大于 a,并且大得越多越好。单个样本的轮廓系数计算为:
在这里插入图片描述

这个公式可以被解析为:
在这里插入图片描述

很容易理解轮廓系数范围是(-1,1):
(1)轮廓系数越接近 1: 此时a接近0,样本与自己所在的簇中的样本很相似,并且与其他簇中的样本不相似。
(2)轮廓系数为 0 时&#x

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值