聚类个数的选择：轮廓系数（计算公式和原理）

最新推荐文章于 2025-03-22 10:45:01 发布

M-1015

最新推荐文章于 2025-03-22 10:45:01 发布

阅读量1.3w

点赞数 6

文章标签：聚类机器学习算法

本文链接：https://blog.csdn.net/M10150831/article/details/122745846

版权

轮廓系数是评估聚类效果的指标，取值范围为[-1,1]，越接近1表示聚类效果越好。

在聚类时可用于聚类个数的选择。通过遍历簇数，计算对应轮廓系数，选择轮廓系数最大时对应的聚类模型。

单一样本 $i$ 的轮廓系数： $s(i)=\frac{b(i)-a(i)}{\max\{a(i),b(i)\}}$

其中
$a (i)$ : $i$ 所属簇内其它样本的平均距离，若簇内仅 $i$ 一个样本，则令 $s (i) = 0$
$\in A,a(i)=average_{j \in A,j \neq i}(dist(i,j))$

$b (i)$ : $i$ 与其它簇的样本平均距离的最小值
$\in A,C \neq A,dist(i,C)=average_{j \in C}(dist(i,j))$
$b(i)=min_{C \neq A} dist(i,C)$
聚类总体的轮廓系数：所有样本轮廓系数的平均值
$S=\frac{1}{N}\sum_{i=1}^Ns(i)$