聚类性能度量指标及距离计算

未来影子

已于 2022-07-03 17:01:04 修改

阅读量719

点赞数

分类专栏：机器学习文章标签：聚类

于 2021-05-16 10:28:40 首次发布

本文链接：https://blog.csdn.net/mynameisgt/article/details/116882430

版权

机器学习专栏收录该内容

10 篇文章 5 订阅

订阅专栏

Python实现KMeans算法

1.外部指标

将聚类结果与某个“参考模型进行比较”

每次抽出两个样本，讨论所属聚类结果和参考模型，确定四个值：

a:聚类结果同属于一类，参考模型同属于一类
b:聚类结果同属于一类，参考模型不同属于一类
c:聚类结果不同属于一类，参考模型属于同一类
d:聚类结果不同属于一类，参考模型不同属于一类

1.1Jaccard系数（JC）

$JC=\frac{a}{a+b+c}$

1.2FM指数（FMI）

$FMI=\sqrt{\frac{a}{a+b}*\frac{a}{a+c}}$

1.3Rand指数（RI）

$RI=\frac{2(a+d)}{m(m-1)}$
上述性能度量的结果值均在[0,1]区间，值越大越好。

2.内部指标

直接考察聚类结果而不利用任何参考模型

将聚类结果的簇划分为 $C=\{C_1,C_2,...,C_k\}$ ,也就是总共划分为k个簇
$avg(C)=\frac{2}{|C|(|C|-1)}\sum_{1\leq i<j\leq|C|} dist(x_i,x_j)$

$a v g (C)$ ：对应于簇C内样本间的平均距离
$diam(C)=max_{1\leq i<j\leq|C|}dist(x_i,x_j)$
$d i a m (C)$ ：对应于簇C内样本间的最远距离
$d_{min}(C_i,C_j)=min_{x_i\in C_i,x_j\in C_j}dist(x_i,x_j)$
$d_{min}(C_i,C_j)$ ：对应于簇 $C_i$ 与簇 $C_j$ 最近样本间的距离
$d_{cen}(C_i,C_j)=dist(u_i,u_j)$
$d_{cen}(C_i,C_j)$ ：对应于簇 $C_i$ 与簇 $C_j$ 中心点间的距离

2.1DB指数（DBI）

$DBI=\frac{1}{k}\sum_{i=1}^{k}max_{j\ne i}(\frac{avg(C_i)+avg(C_j)}{d_{cen}(C_i,C_j)})$

2.2Dunn指数（DI）

$DI=min_{1\leq i\leq k}\{min_{j\ne i}(\frac{d_{min}(C_i,C_j)}{max_{1\le l\le k}diam(C_l))})\}$
DBI的值越小越好，DI值越大越好.

3距离计算

dist(,)若它是一个“距离度量”，则需要满足一些基本性质：

非负性： $dist(x_i,x_j)\geq0$
同一性： $dist(x_i,x_j)=0$ 当且仅当 $x_i=x_j$
对称性： $dist(x_i,x_j)=dist(x_j,x_i)$
直递性： $dist(x_i,x_j)\le dist(x_i,x_k)+dist(x_k,x_j)$

给定样本 $x_i=(x_{i1};x_{i2};...;x_{in})$ 与 $x_j=(x_{j1};x_{j2};...;x_{jn})$ ,最常用的是"闵可夫斯基距离"(Minkokski distance)
$dist_{mk}(x_i,x_j)=(\sum_{u=1}^n|x_{iu}-x_{ju}|)^{\frac{1}{p}}$
$p\geq 1$ 时，满足上述的距离基本性质

当 $p = 2$ 时，闵可夫斯基距离就是我们熟知的欧式距离(Euclidean distance)
$dist_{ed}(x_i,x_j)=||x_i-x_j||_2=\sqrt{\sum_{u=1}^n|x_{iu}-x_{ju}|^2}$
当 $p = 1$ 时,闵可夫斯基距离为曼哈顿距离(Manhattan distance)
$dist_{man}(x_i,x_j)=||x_i-x_j||_1=\sum_{u=1}^n|x_{iu}-x_{ju}|$

未来影子

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
聚类性能度量指标及距离计算

1.外部指标将聚类结果与某个“参考模型进行比较”每次抽出两个样本，讨论所属聚类结果和参考模型，确定四个值：a:聚类结果同属于一类，参考模型同属于一类b:聚类结果同属于一类，参考模型不同属于一类c:聚类结果不同属于一类，参考模型属于同一类d:聚类结果不同属于一类，参考模型不同属于一类1.1Jaccard系数（JC）JC=aa+b+cJC=\frac{a}{a+b+c}JC=a+b+ca1.2FM指数（FMI）FMI=aa+b∗aa+cFMI=\sqrt{\frac{a}{a+
复制链接

扫一扫

专栏目录