聚类分析的度量（评价准则）

最新推荐文章于 2024-09-12 17:33:24 发布

不染53

最新推荐文章于 2024-09-12 17:33:24 发布

阅读量1.7k

点赞数 40

分类专栏：数学建模文章标签：数学建模聚类算法

本文链接：https://blog.csdn.net/qq_65799630/article/details/141528364

版权

数学建模专栏收录该内容

8 篇文章

订阅专栏

聚类分析的度量（评价准则）

聚类分析是一种典型的无监督学习，用于对未知类别的样本进行划分，将它们按照一定的规则划分成若干个类族，把相似（距高相近）的样本聚在同一个类簇中，把不相似的样本分为不同类簇，从而揭示样本之间内在的性质以及相互之间的联系规律。

可以采用邓恩指标（Dunn Index）以及轮廓系数（Silhouette Coefficient）对聚类算法的效果进行评估。当数据集的外部信息可用时，也可以通过比较聚类划分与外部准则的匹配度，评价不同聚类算法的性能。

更多算法请见这里：2024 数学建模国赛 C 题攻略（无废话版）

良好聚类算法的特征

良好的可伸缩性
处理不同类型数据的能力
处理噪声数据的能力
对样本顺序的不敏感性
约束条件下的表现
易解释性和易用性

聚类分析的度量

内部有效性指标

内部有效指标主要基于数据集的集合结构信息从紧致性、分离性、连通性和重叠度等方面对聚类划分进行评价。

邓恩指标（Dunn Index）

$DI=\frac{\min\limits_{1\leq k<k'\leq m}d_{min}(C_k,C_{k'})}{\max\limits_{1\leq l'\leq m}diam(C_{l'})} \\\\ d_{\min}(C_k,C_{k'})=\min_{x\in C_k,x'\in C_l}\operatorname{dist}(x,x') \\\\ diam(C_{l'})=\max_{1\leq i<j\leq |C_{l'}|}\operatorname{dist}(x_i,x_j)$
Dunn 指标计算任意两个簇元素的最短距离（类间）除以任意族中的最大距离（类内）。 $D I$ 越大，意味着类间距离越大，同时类内距离越小。

$d_{\min}(C_k,C_{k'})$ 表示任取两个类簇，让这两个类簇各派一个样本点计算距离，并取最小的距离作为这两个类簇的远离程度。

$diam(C_{l'})$ 表示任取一个类簇，让这个类簇内任意两点计算距离，并取最大的距离作为覆盖类簇所有点的圆直径（diameter）。注意这个圆直径不是一个可覆盖类簇内所有点的最小圆直径，因为最小覆盖圆问题的求解复杂度太高了。

[!NOTE]

由于使用欧氏距离，邓恩指数对离散点的聚类测评很高、对环状分布测评效果差

轮廓系数（Silhouette Coefficient）

$SC(i)=\frac{b(i)-a(i)}{\max (a(i),b(i))} \\\\ a(i)=\frac{1}{n-1}\sum_{j\neq i}^n\operatorname{dist}(i,j) \\\\ b(i)=\min(b_1(i),b_2(i)...b_m(i))$
$a (i)$ 定义为 $i$ 向量到同一簇内其他点不相似程度的平均值，其中 $j$ 代表与样本 $i$ 在同一个类内的其他样本点， $a (i)$ 越小说明该类越紧密。