聚类及相关算法一（性能度量）

最新推荐文章于 2024-07-14 08:22:58 发布

loveitlovelife

最新推荐文章于 2024-07-14 08:22:58 发布

阅读量1.1k

点赞数 1

分类专栏：机器学习相关

本文链接：https://blog.csdn.net/loveitlovelife/article/details/79424519

版权

机器学习相关专栏收录该内容

18 篇文章 4 订阅

订阅专栏

聚类任务

寻找数据的内在分布。

性能度量

亦称“有效性指标”，由此来评估聚类模型的好坏，并将其作为聚类过程的优化目标。

聚类要求：簇内相似度高且簇间相似度低。

两类度量指标：
外部指标：将聚类结果与某个“参考模型”进行比较
内部指标：直接考察聚类结果不利用任何参考模型

对数据集 $D={x_1,x_2,...,x_m}$ ，假定通过聚类给出的簇划分为 $C=\{C_1,C_2,...,C_k\}$ ，参考模型给出簇划分为 $C^*=\{C_1^*,C_2^*,...,C_s^*\}$ ，相应的，令 $\lambda与\lambda^*$ 分别表示与C和 $C^*$ 对应的簇标记向量。有如下定义：

a = | S S |, S S = {(x i, x j) | λ i = λ j, λ * i = λ * j, i < j)} b = | S D |, S D = {(x i, x j) | λ i = λ j, λ * i \neq λ * j, i < j)} c = | D S |, D S = {(x i, x j) | λ i \neq λ j, λ * i = λ * j, i < j)} a = | D D |, D D = {(x i, x j) | λ i \neq λ j, λ * i \neq λ * j, i < j)}

$a=|SS|,~SS=\{(x_i,x_j)|\lambda_i=\lambda_j,\lambda _i^*=\lambda_j^*,i<j)\}\\b=|SD|,~SD=\{(x_i,x_j)|\lambda_i=\lambda_j,\lambda _i^*\neq \lambda_j^*,i<j)\}\\c=|DS|,~DS=\{(x_i,x_j)|\lambda_i\neq \lambda_j,\lambda _i^*=\lambda_j^*,i<j)\}\\a=|DD|,~DD=\{(x_i,x_j)|\lambda_i\neq \lambda_j,\lambda _i^*\neq \lambda_j^*,i<j)\}\\$ 其中集合SS中表示两个数据样本在C中属于相同簇，也同时在

C∗ C ∗ $C^*$ 中属于相同簇，以此类推。

基于以上定义可以导出下面常用的聚类性能度量外部指标：

+Jaccard系数： $JC=\frac{a}{a+b+c}$

+FM指数： $FMI=\sqrt{\frac{a}{a+b}·\frac{a}{a+c}}$

+Rand 指数： $RI=\frac{2(a+d)}{m(m-1)}$

上述结果均在[0,1]区间，值越大越好。

对于聚类结果的簇划分 $C={C_1,C_2,...,C_k},$ 定义：

a v g (C) = 2 | C | ( | C | - 1 ) \sum 1 \leq i < j \leq | C | d i s t (x i, x j) - - 簇 内 平 均 距 离 d i a m (C) = m a x 1 \leq i < j \leq | C | d i s t (x i, x j) - - 簇 内 最 远 距 离 d m i n (C i, C j) = m i n x i \in C i, x j \in C j d i s t (x i, x j) - - 簇 间 最 近 距 离 d c e n (C i, C j) = d i s t (μ i, μ j) - - 簇 间 的 中 心 距 离

$avg(C)=\frac{2}{|C|(|C|-1)} \sum_{1\le i \lt j \le |C|} dist(x_i,x_j)--簇内平均距离 \\diam(C)=max_{1\le i \lt j \le |C|} dist(x_i,x_j)--簇内最远距离\\ d_{min}(C_i,C_j)=min_{x_i \in C_i,x_j \in C_j }dist(x_i,x_j)--簇间最近距离 \\d_{cen}(C_i,C_j)=dist(\mu_i,\mu_j)--簇间的中心距离$

基于以上定义，我们列出以下聚类性能度量内部指标：

+DB指数： $DBI=\frac{1}{k}\sum_{i=1}^{k} max_{j \neq i}(\frac{avg(C_i)+avg(C_j)}{d_{cen} ~(\mu_i,\mu_j)})--簇内平均距离越小越好$