聚类算法的评价指标

理物迷

于 2024-07-21 16:14:43 发布

阅读量1.9k

点赞数 37

分类专栏：机器学习文章标签：算法聚类机器学习

本文链接：https://blog.csdn.net/2303_78834656/article/details/140589613

版权

机器学习专栏收录该内容

6 篇文章

订阅专栏

聚类算法的评价指标

聚类是什么？

通俗来讲，就是把凌乱的样本按照其相似度，进行划分的过程。

举个例子，将人按性格划分，将用户按群体划分。

聚类与分类的区别：聚类是一种无监督学习，所用样本为无标记样本，即无法通过算法输出与实际结果的比较进行评价
数学定义：
- 样本集： $X=\{x^{(1)},...,x^{(N))}\}$ ，含 N 个无标记样本
- $x^{(n)}$ ：D维特征向量， $[x^{(n)}_1,...,x^{(n))}_D]^T$
- 不相交簇： ${C_l|l=1,...,k\}$ ，其中 $C_{l'}\bigcap_{l'\neq l}C_l=\emptyset$
- 样本集 X 的划分：寻找若干 X 子集 $C_l$ ，使 $X=\bigcup^k_{l=1}C_l$
- 聚类：把样本集划分为不相交簇的过程，此时的不相交簇，被称为 “样本簇”
- 簇标记： $\lambda_n\in\{1,...,k\}$ ，用于表示样本 $x_{(n)}$ 的簇标记（cluster label）
- 簇标记向量： $\vec{\lambda}=[\lambda_1,...\lambda_N]$
聚类算法的性能度量：

掌握算法的性能度量，我们才能评估聚类结果的好坏；设定合适的性能度量作为我们的优化目标，用于判定是否已经达到要求，以期达到“簇内相似度高”，“簇间相似度低”的聚类效果。

方案一 具有参考模型，可将聚类结果与参考模型比较

聚类算法簇划分： $C=\{C_1,...,C_K\}$ ，标记向量 $\vec\lambda$

参考模型簇划分： $C^*=\{C_1^*,...,C_K^*\}$ ，标记向量 $\vec\lambda^*$

定义：

$a=|SS|,SS=\{(x^{(i)},x^{(j)})|\lambda_i=\lambda_j,\lambda_i^*=\lambda_j^*,i<j\}$

$b=|SD|,SD=\{(x^{(i)},x^{(j)})|\lambda_i=\lambda_j,\lambda_i^*\neq\lambda_j^*,i<j\}$

$c=|DS|,DS=\{(x^{(i)},x^{(j)})|\lambda_i\neq\lambda_j,\lambda_i^*=\lambda_j^*,i<j\}$

$d=|DD|,DD=\{(x^{(i)},x^{(j)})|\lambda_i\neq\lambda_j,\lambda_i^*\neq\lambda_j^*,i<j\}$

由排列组合知识可得： $a+b+c+d=C^2_N=N(N-1)/2$

Jaccard 系数： $JC=\frac{a}{a+b+c}$

FM 指数： $FMI=\sqrt{\frac{a}{a+b}\cdot\frac{a}{a+c}}$

Rand 指数： $RI=\frac{2(a+d)}{N(N-1)}$

以上性能度量结果均在 [0,1] 内，且越大越好

方案二 无参考模型，依据距离来衡量聚类性能

定义：

$avg(C)=\frac{2}{|C|(|C|-1)}\sum_{1\leq i< j \leq|C|}dist(x^{(i)},x^{(j)})$

$diam(C)=max_{1\leq i< j \leq|C|}dist(x^{(i)},x^{(j)})$

$d_{min}(C_i,C_j)=min_{x^{(i)}\in C_i,x^{(j)}\in C_j}dist(x^{(i)},x^{(j)})$

$d_{cen}(C_i,C_j)=dist(\bar x^{(i)},\bar x^{(j)})$

符号说明：

dist()，表示两样本间的距离

avg(C)，簇 C 内样本间的平均距离

diam(C)，簇 C 内样本间的最远距离

$d_{min}$ ， $C_i,C_j$ 最近样本间的距离

$d_{cen}$ ， $C_i,C_j$ 中心点间的距离

|C|，C 中元素个数

DB 指数： $DBI=\frac{1}{k}\sum^k_{i=1}max_{j\neq i}(\frac{avg(C_i)_+avg(C_j)}{den(\bar x^{(i)},x^{(j)})})$

Dunn 指数： $DI=min_{1\leq i\leq k}\{min_{j\neq i}(\frac{d_{min}(C_i,C_j)}{max_{1\leq l\leq k}diam(C_l)})\}$

DBI 越小越好，DI 越大越好。
聚类算法中的距离计算

距离的性质：
- 非负性
- 同一性，距离为0，样本相同
- 对称性， $dist(x^{(i)},x^{(j)})=dist(x^{(j)},x^{(i)})$
- 直递性， $dist(x^{(i)},x^{(j)})=dist(x^{(i)},x^{(k)})+dist(x^{(k)},x^{(j)})$
经典距离的定义：
- 闵可夫斯基距离： $dist_{mk}(x^{(i)},x^{(j)})=(\sum^D_{d=1}|x_d^{(i)}-x_d^{(j)}|)^{1/p}$
- 曼哈顿距离：令上式 p=1
- 加权距离：由于样本空间中不同属性的重要性不同，一般会使用加权距离，如加权闵可夫斯基距离，如下
  
  $dist_{wmk}(x^{(i)},x^{(j)})=(w_1|x_d^{(i)}-x_d^{(j)}|^p+...+w_D|x_d^{(i)}-x_d^{(j)}|^p)^{1/p}$ 其中 $\sum^D_{d=1}w_d=1$
距离是相似度的度量，一般距离越小，相似度越高。

在用于度量相似度时，距离定义的直递性往往不重要。

数据样本复杂多变，往往需要根据数据样本的情况重新选择合适的距离公式，可通过距离学习来实现。