聚类算法的两个基本问题----性能度量+距离计算

最新推荐文章于 2022-04-15 21:13:04 发布

爱学习的小杠精

最新推荐文章于 2022-04-15 21:13:04 发布

阅读量694

点赞数 3

分类专栏：机器学习/深度学习文章标签：机器学习聚类算法聚类算法数据挖掘

本文链接：https://blog.csdn.net/qq_42003997/article/details/103886950

版权

机器学习/深度学习专栏收录该内容

14 篇文章 0 订阅

订阅专栏

聚类算法的性能度量和距离计算

性能度量
距离计算

性能度量

1、性能度量的用处

通过某种性能度量来评估聚类结果的好坏；
可作为聚类过程的优化目标，从而找到更符合要求的聚类结果。

2、性能度量的种类

外部指标：将聚类结果与某个“参考模型”进行比较；
内部指标：直接考察聚类结果而不利用任何模型作参考

3、性能度量的计算

外部指标：
假设聚类给出的结果为 $\lambda$ ，参考模型给出的结果是 $\lambda^{*}$ ，将样本进行两两配对，样本量为m，定义：
$\begin{aligned} &\left.a=|S S|, \quad S S=\left\{\left(x_{i}, x_{j}\right) | \lambda_{i}=\lambda_{j}, \lambda_{i}^{*}=\lambda_{j}^{*}, i<j\right)\right\}\\ &\left.b=|S D|, \quad S D=\left\{\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right) | \lambda_{i}=\lambda_{j}, \lambda_{i}^{*} \neq \lambda_{j}^{*}, i<j\right)\right\}\\ &\left.c=|D S|, \quad D S=\left\{\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right) | \lambda_{i} \neq \lambda_{j}, \lambda_{i}^{*}=\lambda_{j}^{*}, i<j\right)\right\}\\ &\left.d=|D D|, \quad D D=\left\{\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right) | \lambda_{i} \neq \lambda_{j}, \lambda_{i}^{*} \neq \lambda_{j}^{*}, i<j\right)\right\} \end{aligned}$
a：聚类结果同类簇，参考结果同类簇；
b：聚类结果同类簇，参考结果不同类簇；
c：聚类结果不同类簇，参考结果同类簇；
d：聚类结果不同类簇，参考结果不同类簇。
则a+b+c+d=m(m-1)/2成立。
- Jaccard系数（JC）：
  $\mathrm{JC}=\frac{a}{a+b+c}$
- FM指数（FMI）：
  $\mathrm{FMI}=\sqrt{\frac{a}{a+b} \cdot \frac{a}{a+c}}$
- Rand指数（RI）：
  $\mathrm{RI}=\frac{2(a+d)}{m(m-1)}$
  上述性能度量的结果均在[0,1]之间，且值越大越好。
内部度量
定义如下公式：
$\operatorname{avg}(C)=\frac{2}{|C|(|C|-1)} \sum_{1 \leqslant i<j \leqslant|C|} \operatorname{dist}\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)$ ，表示簇内样本的平均距离，越小越好；
$\operatorname{diam}(C)=\max _{1 \leqslant i<j \leqslant|C|} \operatorname{dist}\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)$ ，表示簇内样本的最远距离，越小越好；
$d_{\min }\left(C_{i}, C_{j}\right)=\min _{\boldsymbol{x}_{i} \in C_{i}, \boldsymbol{x}_{j} \in C_{j}} \operatorname{dist}\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)$ ，表示簇间最小距离，越大越好。
$d_{\mathrm{cen}}\left(C_{i}, C_{j}\right)=\operatorname{dist}\left(\boldsymbol{\mu}_{i}, \boldsymbol{\mu}_{j}\right)$ ，表示簇中心距离，越大越好。
- DB指数（DBI）
  $\mathrm{DBI}=\frac{1}{k} \sum_{i=1}^{k} \max _{j \neq i}\left(\frac{\operatorname{avg}\left(C_{i}\right)+\operatorname{avg}\left(C_{j}\right)}{d_{\operatorname{cen}}\left(\mu_{i}, \mu_{j}\right)}\right)$
  DBI越小越好，分子越小越好，分母越大越好。
- Dunn指数（DI）
  $\mathrm{DI}=\min _{1 \leqslant i \leqslant k}\left\{\min _{j \neq i}\left(\frac{d_{\min }\left(C_{i}, C_{j}\right)}{\max _{1 \leqslant l \leqslant k} \operatorname{diam}\left(C_{l}\right)}\right)\right\}$
  DI越大越好，分子越大越好，分母越小越好。

距离计算

1、距离度量的性质

非负性：距离大于等于0
同一性：同一样本之间距离为0
对称性：A和B的距离等于B和A的距离
直递性： $\operatorname{dist}\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right) \leqslant \operatorname{dist}\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{k}\right)+\operatorname{dist}\left(\boldsymbol{x}_{k}, \boldsymbol{x}_{j}\right)$

2、距离的定义

有序属性
1）闵可夫斯基距离
$\operatorname{dist}_{\operatorname{mk}}\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)=\left(\sum_{u=1}^{n}\left|x_{i u}-x_{j u}\right|^{p}\right)^{\frac{1}{p}}$
其显然满足以上4个性质。
2） p=2时，欧氏距离
$\operatorname{dist}_{\mathrm{ed}}\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)=\left\|\boldsymbol{x}_{i}-\boldsymbol{x}_{j}\right\|_{2}=\sqrt{\sum_{u=1}^{n}\left|x_{i u}-x_{j u}\right|^{2}}$
3）p=1时，曼哈顿距离
$\operatorname{dist}_{\operatorname{man}}\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)=\left\|\boldsymbol{x}_{i}-\boldsymbol{x}_{j}\right\|_{1}=\sum_{u=1}^{n}\left|x_{i u}-x_{j u}\right|$
曼哈顿距离和欧氏距离是闵可夫斯基距离的特例。
无序属性
VDM：
$\operatorname{VDM}_{p}(a, b)=\sum_{i=1}^{k}\left|\frac{m_{u, a, i}}{m_{u, a}}-\frac{m_{u, b, i}}{m_{u, b}}\right|^{p}$
混合属性
闵可夫斯基距离与VDM结合即可处理。
$\operatorname{MinkovDM}_{p}\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)=\left(\left(\sum_{u=1}^{n_{e}}\left|x_{i u}-x_{j u}\right|^{p}\right)+\left(\sum_{u=n_{c}+1}^{n} \operatorname{VDM}_{p}\left(x_{i u}, x_{j u}\right)\right)\right)^{\frac{1}{p}}$
属性重要程度不同
可使用加权距离，以加权闵可夫斯基距离为例：
$\operatorname{dist}_{w m k}\left(x_{i}, x_{j}\right)=\left(w_{1} \cdot\left|x_{i 1}-x_{j 1}\right|^{p}+\ldots+w_{n} \cdot\left|x_{i n}-x_{j n}\right|^{p}\right)^{\frac{1}{p}}$
w为权重。