聚类算法大杂烩

最新推荐文章于 2024-08-22 11:12:52 发布

EntropyPlus

最新推荐文章于 2024-08-22 11:12:52 发布

阅读量439

点赞数 3

分类专栏：聚类分类算法

本文链接：https://blog.csdn.net/u012759262/article/details/100552716

版权

6 篇文章 2 订阅

订阅专栏

1. 思维导图

聚类算法-思维导图

聚类是一种“无监督的学习”，即不需要通过标记训练样本，算法自身样本划分为若干个不相交的子集，每个子集称为一个“簇”。
试想一个这样的场景，A在整理书柜，他按照一定准则（使用频率、颜色、种类）划分归类书籍的过程，就是一个聚类的过程。

正式一点说：
西瓜书-聚类

最完美的情况下，簇内的数据相似度尽可能的高，簇间的数据相似度尽可能的低。

评价一个聚类结果的好坏，有一下两种方法：

首先将样本两两组合配对，记为 $x_i, x_j$ ，那么总共有 $\binom{m}{2}$ 种取法。在对答案的过程中，无非会出现以下四种情况：

上述四种情况分别对应于：
在这里插入图片描述
所以，有 $a+b+c+d=\binom{m}{2}$ 成立。

Jaccard系数(Jaccard Coefficient, JC)
$\frac{a}{a+b+c} \tag{2.1}$
FM指数(Fowlkes and Mallows Index, FMI)
$\sqrt{\frac{a}{a+b}\frac{a}{a+c}} \tag{2.2}$
Rand指数(Rand Index, RI)
$\frac{2(a+d)}{m(m-1)} \tag{2.3}$
上述判定方法越大越好，且取值在 $[0, 1]$ 之间。

簇内样本间的平均距离：将该簇内的样本两两组合，所构成的样本对的数量。
$\begin{aligned} Avg(|C_p|) &=\frac{\sum_{1 \leq i \leq j \leq |C_u|} dist(\boldsymbol{x_i}, \boldsymbol{x_j})}{\binom{|C_u|}{2}}\\ &=\frac{2}{|C_u|(|C_u|-1)}{\sum_{1 \leq i \leq j \leq |C_u|} dist(\boldsymbol{x_i}, \boldsymbol{x_j})} \tag{2.4} \end{aligned}$

簇内样本之间最远距离
$\begin{aligned} diam(|C_u|)= \max_{1 \leq i \leq j \leq|C_u|}dist(\boldsymbol{x_i}, \boldsymbol{x_j}) \tag{2.5} \end{aligned}$
两个簇之间最近样本间的距离
$\begin{aligned} d_{min}(|C_u|, |C_v|)= \min_{\boldsymbol{x_u} \in |C_u|, \boldsymbol{x_v} \in |C_v|}dist(\boldsymbol{x_u}, \boldsymbol{x_v}) \tag{2.6} \end{aligned}$
两个簇中心点间的距离
$\begin{aligned} d_{cen}(|C_u|, |C_v|)=dist(\mu_u, \mu_v) \tag{2.7} \end{aligned}$
其中：
$\mu_u = \frac{1}{|C_u|}\sum_{1\leq u \leq |C_u|}\boldsymbol{x_u}\\ \mu_v = \frac{1}{|C_v|}\sum_{1\leq v \leq |C_v|}\boldsymbol{x_v}$

DB指数(Davies-Bouldin Index, DBI) ：值越小越好。
$\frac{1}{k}\sum_{i=1}^{k} \max_{i \neq j} (\frac{Acg(|C_i|) + Avg(|C_j|)}{d_{cen}(|C_i|, |C_j|)}) \tag{2.8}$
- $k$ ：聚类的种类数目。
Dunn指数(Dunn Index, DI)：值越大越好。
$DI=\min_{1 \leq i \leq k} \{\min_{j \neq i}\frac{d_{min}(C_i, C_j)}{\max_{1 \leq l \leq k}diam(C_l)}\} \tag{2.9}$

非负性： $dist(\boldsymbol{x_i}, \boldsymbol{x_j})>0$
同一性： $dist(\boldsymbol{x_i}, \boldsymbol{x_j})=0, \boldsymbol{x_i}=\boldsymbol{x_j}$
对称性： $dist(\boldsymbol{x_i}, \boldsymbol{x_j})=dist(\boldsymbol{x_j}, \boldsymbol{x_i})$
直递性： $dist(\boldsymbol{x_i}, \boldsymbol{x_j}) \leq dist(\boldsymbol{x_i}, \boldsymbol{x_k})+dist(\boldsymbol{x_k}, \boldsymbol{x_j})$ （不一定要满足，人、马、人马关系图）

有序数据： 能够通过数字表达远近关系的属性。
- 计算方法：
无序数据： 不能够通过数字表达远近关系的属性。 $X=\{white, blue, red\}$ 。
- 计算方法： VDM(Value Difference Metric)
有序+无序数据：
- 计算方法：