机器学习Chapter3-(聚类分析)聚类简介

最新推荐文章于 2024-08-20 22:43:27 发布

DFann

最新推荐文章于 2024-08-20 22:43:27 发布

阅读量4.3k

点赞数

分类专栏：机器学习文章标签：机器学习聚类距离计算聚类算法比较性能度量

本文链接：https://blog.csdn.net/u011974639/article/details/78302493

版权

机器学习专栏收录该内容

5 篇文章 2 订阅

订阅专栏

聚类简介

聚类任务

在实际问题中，样本大多数是无标记的，而机器学习的目的是通过对无标记训练样本的学习来揭示数据的内在性质和规律。此类方法应用最广的是“聚类”(clustering)。

形式化的来说，在“无监督学习”中，聚类试图将样本划分为若干个通常是不相交的子集，每个子集称为一个“簇”(cluster)。聚类的作用:
- 作为一种探索性的方法，用于寻找数据内在特点和分布规律
- 作为分类等其他学习任务的前驱过程。作为分类的预处理，不直接解决数据分析。

mark

我们要做的事情，无外乎就是把相似的样本归为一类，把不同的类别区分开。如上图所示。

但是问题来了：怎么划分样本，怎么评价划分的好坏？ 回答这个问题，需要先讨论聚类算法涉及的两个基本问题–性能度量和距离计算。

性能度量

聚类的性能度量和“监督学习”的性能度量作用类似，对于聚类结果，我们需要一个评价标准来评估好坏；同时，给定的性能度量如同损失函数一样，给了聚类过程优化目标，这样聚类能得到更好的结果。

聚类是将样本划分为若干个簇，从直观的上来看，我们希望同一簇的样本尽可能相似，不同簇的样本尽可能不同，这类似线性模型-线性判别分析的度量定义。形式化的来说，聚类结果的“簇内相似度”(intra-cluster similarity)高且“簇间相似度”(inter-cluster similarity)低。如下图:

mark

聚类性能度量大概分为两类：

一类是将聚类结果与某个“参考模型”进行比较，称为“外部指标”(external index)
另一类是直接考察聚类结果而不利用任何参考模型，称为“内部指标”(internal index)

对于有参考模型的

下面引入一些定义：
对数据集 $D=\{ x_1,x_2,...,x_m\}$ ，假定通过聚类给出的簇划分为 $C=\{C_1,C_2,...,C_k\}$ ，参考模型给出的簇划分为 $C^*=\{C_1^*,C_2^*,...,C_s^*\}$ ,相应地，令 $\lambda$ 与 $\lambda^*$ 分别表示 $C$ 和 $C^*$ 对于的簇标记向量，我们将样本两两配对，定义如下：

a = | S S |, S S = {(x i, x j) | λ i = λ j, λ * i = λ * j, i < j}

$a=|SS|,SS=\{ (x_i,x_j) | \lambda_i=\lambda_j,\lambda_i^*=\lambda_j^*,i<j\}$

b = | S D |, S D = {(x i, x j) | λ i = λ j, λ * i \neq λ * j, i < j}

$b=|SD|,SD=\{ (x_i,x_j) | \lambda_i=\lambda_j,\lambda_i^*≠\lambda_j^*,i<j\}$

c = | D S |, D S = {(x i, x j) | λ i \neq λ j, λ * i = λ * j, i < j}

$c=|DS|,DS=\{ (x_i,x_j) | \lambda_i≠\lambda_j,\lambda_i^*=\lambda_j^*,i<j\}$

d = | D D |, D D = {(x i, x j) | λ i \neq λ j, λ * i \neq λ * j, i < j}

$d=|DD|,DD=\{ (x_i,x_j) | \lambda_i≠\lambda_j,\lambda_i^*≠\lambda_j^*,i<j\}$
集合

SS $SS$ 包含了在

C $C$ 中隶属于相同簇且在

C∗ $C^*$ 也是隶属于相同簇的样本对；集合

SD $SD$ 包含了在

C $C$ 中隶属于相同簇但是在

C∗ $C^*$ 不属于相同簇的样本；…每个样本对

(xi,xj)(i<j) $(x_i,x_j)(i<j)$ 仅能出现在一个集合中：
因此有

a+b+c+d=C2m=m(m−1)2 $a+b+c+d=C_m^2=\frac{m(m-1)}{2}$ 成立.

基于上面的定义，有下面常用的聚类性能度量外部指标：

Jaccard系数(Jaccard Coefficient，简称JC)

$J C = a a + b + c$ $JC=\frac{a}{a+b+c}$ 所有属于同一类的样本对，同时在 $C,C^*$ 中隶属于同一类的样本对的比例。
FM指数(Fowlkes and Mallows Index,简称FMI)

$F M I = a a + b \cdot a a + c - - - - - - - - - - - \sqrt$ $FMI=\sqrt{\frac{a}{a+b}·\frac{a}{a+c}}$ 在 $C$ 中属于同一类的样本对中，同时属于 $C^*$ 的样本对的比例为 $p_1$ ；在 $C^*$ 中属于同一类的样本对中，同时属于 $C$ 的样本对的比例为 $p_2$ ，FMI就是 $p_1$ 和 $p_2$ 的几何平均。
Rand指数(Rand Index,简称RI)

$R I = 2 ( a + d ) m ( m - 1 )$ $RI=\frac{2(a+d)}{m(m-1)}$
ARI指数(Adjusted Rand Index,ARI):

$A R I = R I - E [ R I ] m a x ( R I ) - E [ R I ]$ $ARI=\frac{RI-E[RI]}{max(RI)-E[RI]}$ 使用RI有个问题，对于随机聚类，RI指数不保证接近0。而ARI指数可通过随机聚类情况下的RI(即 $E[RI]$ )来解决。

显然，上述性能度量的结果值均在 $[0,1]$ 区间，值越大越好。

直接考察聚类结果的

考虑聚类结果的簇划分为 $C=\{C_1,C_2,...,C_k\}$ ，定义:

a v g (C) = 2 | C | ( | C | - 1 ) \sum 1 \leq i < j \leq | C | d i s t (x i, x j)

$avg(C)= \frac{2}{|C|(|C|-1)}\sum_{1≤i<j≤|C|}dist(x_i,x_j)$

d i a m (C) = m a x 1 \leq i < j \leq | C | d i s t (x i, x j)

$diam(C) = max_{1≤i<j≤|C|}dist(x_i,x_j)$

d m i n (C i, C j) = m i n x i \in C i, x j \in C j d i s t (x i, x j)

$d_{min}(C_i,C_j)=min_{x_i∈C_i,x_j∈C_j}dist(x_i,x_j)$

d c e n (C i, C j) = d i s t (μ i, μ j)

$d_{cen}(C_i,C_j)=dist(\mu_i,\mu_j)$

其中， $dist(·,·)$ 用于计算两个样本之间的距离； $\mu$ 代表簇 $C$ 的中心点 $\mu=\frac{1}{|C|}\sum_{1≤i≤|C|}x_i$ ,显然， $avg(C)$ 对应于簇 $C$ 内样本间的平均距离， $diam(C)$ 对应于簇 $C$ 内样本间的最远距离， $d_{min}(C_i,C_j)$ 对应于簇 $C_i$ 与簇 $C_j$ 最近样本间的距离， $d_{cen}(C_i,C_j)$ 对应于簇 $C_i$ 与簇 $C_j$ 中心点间的距离.

基于上面的定义，下面是常用的聚类性能度量内部指标:

DB指数( Davies-Bouldin Index，简称DBI)

$D B I = 1 k \sum i = 1 k max j \neq i (a v g ( C i ) + a v g ( C j ) d c e n ( C i , C j ))$ $DBI=\frac{1}{k}\sum_{i=1}^{k}\max_{j≠i}(\frac{avg(C_i)+avg(C_j)}{d_{cen}(C_i,C_j)})$ 给定两个簇，每个簇样本之间平均值之和和比上两个簇的中心点之间的距离作为度量。然后考察该度量对所有簇的平均值。显示DBI越小越好。
Dunn指数( Dunn Index，简称DI)

$D I = min 1 \leq i < k {min j \neq i (d m i n ( C i , C j ) m a x 1 \leq l \leq k d i a m C l)}$ $DI=\min_{1≤i<k}\{ \min_{j≠i}(\frac{d_{min}(C_i,C_j)}{max_{1≤l≤k}diam{C_l}}) \}$ 任意两个簇之间最近的距离的最小值，除以任意一个簇内距离最远的两个点的距离的最大值。DI越大越好。

显然，DBI的值越小越好，DI值相反，越大越好

距离计算

在上面度量性能内部指标中，我们用到了 $dist(·,·)$ 函数， $dist(·,·)$ 是一个“距离度量”，为什么需要定义这个距离度量？
在实际聚类过程中，我们会对数据做预处理，如果处理的不当，会影响聚类的结果。如下图：

mark

分别对x轴和y轴放缩0.2，会直接影响聚类结果。故我们在做聚类时，需要一个好的距离度量标准。

形式上，度量距离函数 $dist(·,·)$ 需要满足一些性质：

非负性: $dist(x_i,x_j)≥0$
同一性: $dist(x_i,x_j)=0$ 当前仅当 $x_i=x_j$
对称性: $dist(x_i,x_j)=dist(x_j,x_i)$
直递性: $dist(x_i,x_j)≤dist(x_i,x_k)+dist(x_k,x_j)$

给定样本 $x_i=\{ x_i1,x_i2,...,x_in\}$ 与 $x_j=\{ x_j1,x_j2,...,x_jn\}$ ，最常用的是Minkowski distance：

d i s t m k (x i, x j) = (\sum u = 1 n | x i u - x j u | p) 1 p

$dist_{mk}(x_i,x_j)=(\sum_{u=1}^{n}|x_{iu}-x_{ju}|^p)^{\frac{1}{p}}$ 即

xi,xj $x_i,x_j$ 的

Lp $L_p$ 范数

||xi−xj||p $||x_i-x_j||_p$ 。

$p=1$ ，即为Manhattan distance： $d i s t m a n (x i, x j) = | | x i - x j | | 1 = \sum u = 1 n | x i u - x j u |$ $dist_{man}(x_i,x_j)=||x_i-x_j||_1=\sum_{u=1}^{n}|x_{iu}-x_{ju}|$
$p=2$ ，即为Euclidean distance： $d i s t e d (x i, x j) = | | x i - x j | | 2 = \sum u = 1 n | x i u - x j u | 2 - - - - - - - - - - - - \sqrt$ $dist_{ed}(x_i,x_j)=||x_i-x_j||_2=\sqrt{\sum_{u=1}^{n}|x_{iu}-x_{ju}|^2}$

有序属性和无序属性下的距离测量

在讨论距离计算时，属性上是否定义了“序”关系更为重要。例如定义域 $\{1,2,3\}$ 能直接计算距离，这样的属性称为“有序属性”。又有定义域为 $\{飞机，火车，轮船\}$ 这样的数据不能之间计算距离，称为“无序属性”。

对于无序属性可采用VDM(Value Difference Metric)，令 $m_{u,a}$ 表示在属性 $u$ 上取值为 $a$ 的样本数， $m_{u,a,i}$ 表示第 $i$ 个样本簇中在属性 $u$ 上取值为 $a$ 的样本数， $k$ 为样本簇数，则属性 $u$ 上两个离散值 $a$ 与 $b$ 之间的VDM距离为

C D M p (a, b) = \sum i = 1 k | m u , a , i m u , a - m u , b , i m u , b | p

$CDM_{p}(a,b)=\sum_{i=1}^k|\frac{m_{u,a,i}}{m_{u,a}}-\frac{m_{u,b,i}}{m_{u,b}}|^p$

将Minkowski distance和VDM结合即可处理混合属性。假定有 $n_c$ 个有序属性、 $n-n_c$ 个无序属性，则：

M i n k o v D M p (x i, x j) = (\sum u = 1 n c | | x i u - x j u | p + \sum u = n c + 1 n V D M p (x i u, x j u)) 1 p

$MinkovDM_{p}(x_i,x_j)=(\sum_{u=1}^{n_c}||x_{iu}-x_{ju}|^p+\sum_{u=n_c+1}^nVDM_p(x_{iu},x_{ju}))^{\frac{1}{p}}$
当样本空间中不同属性的重要性不同，可使用“加权距离”.例如：

d i s t w m k (x i, x j) = (w 1 | x i 1 - x j 1 | p + . . . + w n | x i n - x j n | p) 1 p

$dist_{wmk}(x_i,x_j)=(w_1|x_{i1}-x_{j1}|^p+...+w_n|x_{in}-x_{jn}|^p)^{\frac{1}{p}}$ 权重

wi≥0 $w_i≥0$ 表征不同属性的重要性，且

∑ni=1wi=1 $\sum_{i=1}^nw_i=1$

k均值算法

见我的Blog 机器学习Chapter3-(聚类分析)Python实现K-Means算法

高斯混合模型与EM算法

见我的Blog机器学习Chapter3-(聚类分析)详解高斯混合模型与EM算法(Python实现)

密度聚类

密度聚类即“基于密度的聚类”(density-based clustering)，此类算法假设聚类结构能通过样本分布的紧密程度确定。通常情况下，密度聚类算法从样本密度的角度考察样本之间的可连接性，并基于可连接样本不断扩展聚类簇以获得最终的聚类结果。

例如下面的数据集就很适合用密度聚类：

mark

DBSCAN算法

DBSCAN是一种著名的密度聚类算法，基于一组“领域”来刻画样本分布的紧密程度。

mark
mark

一些定义的定义图

mark

DBSCAN算法流程

mark

层次聚类

mark
mark
mark

实际中的聚类要求

scikit-learn官方给出了一份各种聚类模型的参数调整和使用场景的建议表格。如下：

模型	关键参数	使用场景
K均值算法	簇的数量	通用的聚类方法，用于均匀的簇的大小，簇的数量不多的情况
GMM算法	簇数量等	用于平坦的集合结构，对密度估计很合适
DBSCAN算法	领域 $\epsilon$ $MinPts$	用于不均匀的簇大小，以及非平坦的集合结构
Agglomerative Clustering算法	簇的数量，链接类型	用于簇的数量较多，有连接约束的情况