连载｜机器学习｜聚类算法（上）

最新推荐文章于 2022-05-06 13:21:23 发布

二哥不像程序员

最新推荐文章于 2022-05-06 13:21:23 发布

阅读量1.2k

点赞数 1

分类专栏：数据挖掘机器学习文章标签：聚类算法机器学习人工智能

本文链接：https://blog.csdn.net/qq_35164554/article/details/106075088

版权

机器学习同时被 2 个专栏收录

48 篇文章 13 订阅

订阅专栏

数据挖掘

40 篇文章 18 订阅

订阅专栏

聚类（上）

聚类任务

对于训练样本的标记信息是未知的情况下，我们的目标就会变成通过对无标记训练样本的学习来揭示数据的内在性质及规律，我们把这样的学习方法称之为“无监督学习”，而在此类学习任务中，研究最多应用最广的就是“聚类”。

在聚类算法中，我们试图将数据集中的样本划分为若干个不相交的子集，每个子集称为一个“簇”。而对于样本来说，我们并不知道其内部存在的类别，所以我们分出的这些“簇”就可能对应着一些潜在的概念（类别），与分类算法的区别就在于，这些潜在的概念在之前我们是完全未知的。

一般的聚类结果展示如下图所示：
在这里插入图片描述

基于不同的学习策略，人们设计出多种类型的聚类算法，在学习算法之前，我们先来了解一下性能度量和距离运算。

性能度量

我们在之前的文章中了解过了分类算法的评估方式，对于聚类来说，我们有一些特殊的性能度量方式，让我们来了解一下。

对于聚类来说，我们把每个类别分成了相应的“簇”，直观上看我们希望“物以类聚”，而想要把很多“簇”聚的好，我们就希望“簇内的相似度”高且”簇间的相似度“低。

聚类的性能度量大致分类两类，一类是将聚类结果与某个”参考模型“进行比较，称为”外部指标“；另一类是直接考察聚类结果而不利用任何参考模型，称为”内部指标“。

对于数据集 $D={x_1,x_2,...,x_m}$ ，假定通过聚类给出的簇划分为 $C=\{C_1,C_2,...,C_k\}$ ，参考模型给出的簇划分为 $C^*=\{C_1^*,C_2^*,...,C_k^*\}$ ，相应的我们用 $\lambda$ 和 $\lambda^*$ 分别表示 $C$ 和 $C^*$ 对应的簇标记向量，我们将样本两两配对考虑，定义如下的内容：

$|SS|,SS=\{(x_i,x_j)|\lambda_i=\lambda_j,\lambda_i^*=\lambda_j^*,i<j\}$

$|SD|,SD=\{(x_i,x_j)|\lambda_i=\lambda_j,\lambda_i^*\neq\lambda_j^*,i<j\}$

$|DS|,DS=\{(x_i,x_j)|\lambda_i\neq\lambda_j,\lambda_i^*=\lambda_j^*,i<j\}$

$|DD|,DD=\{(x_i,x_j)|\lambda_i\neq\lambda_j,\lambda_i^*=\lambda_j^*,i<j\}$

其中集合SS包含了在 $C$ 中隶属于相同簇且在 $C^*$ 中也隶属于相同簇的样本对，其他集合同理，由于每个样本对仅能出现在一个集合中，因此我们有 $a+b+c+d=\frac{m(m-1)}{2}$ 成立。

根据上面的式子，我们可以得到下面这些常用的外部指标：

Jaccard系数

$JC=\frac{a}{a+b+c}$

FM指数

$FMI=\sqrt{\frac{a}{a+b}\cdot\frac{a}{a+c}}$

Rand指数

$RI=\frac{2(a+d)}{m(m-1)}$

很显然，对于上面的性能度量结果来说，结果值都在[0,1]之间，并且值越大越好。

考虑聚类结果的簇划分 $C={C_1,C_2,...C_k}$ ，定义：

$avg(C)=\frac{2}{|C|(|C|-1)}\sum_{1\leqslant i<j\leqslant|C|}dist(x_i,x_j)$

$diam(C)=max_{1\leqslant i<j\leqslant|C|}dist(x_i,x_j)$

$d_{min}(C_i,C_j)=min_{x_i\in C_i,x_j\in C_j}dist(x_i,x_j)$

$d_{cen}(C_i,C_j)=dist(\mu_i,\mu_j)$

其中，dist()用于计算两个样本之间的距离； $\mu$ 代表簇C的中心点 $\mu=\frac{1}{|C|}\sum_{1\leqslant i\leqslant|C|}x_i$ ，显然 $a v g (C)$ 对应于簇 $C$ 内样本间的平均距离， $d i a m (C)$ 对应于簇 $C$ 内样本间的最远距离， $d_{min}$ 对应于簇 $C_i$ 与簇 $C_j$ 最近样本间的距离， $d_{cen}(C_i,C_j)$ 对应于簇 $C_i$ 与簇 $C_j$ 中心点间的距离。

根据上面的式子，我们可以得到下面这些常用的内部指标：

DB指数

$DBI=\frac{1}{k}\sum_{i=1}^k\underset{j\neq i}{max}(\frac{avg(C_i)+avg(C_j)}{d_{cen}(\mu_i,\mu_j)})$

Dunn指数

$DI=\underset{1\leqslant i\leqslant k}{min}\{\underset{j\neq i}{min}(\frac{d_{min}(C_i,C_j)}{\underset{1\leqslant l \leqslant k}{max}diam(C_l)})\}$

很显然，DBI的值越小越好，DI的值越大越好。

距离度量

对于函数 $d i s t ()$ ，如果他表示一个距离的度量，我们就要满足一些基本性质：

非负性

$dist(x_i,x_j)\geqslant0$

同一性（当且仅当 $x_i=x_j$ ）

$dist(x_i,x_j)=0$

对称性

$dist(x_i,x_j)=dist(x_j,x_i)$

直递性(三角不等式)

$dist(x_i,x_j)\leqslant dist(x_i,x_k)+dist(x_k,x_j)$

给定样本 $x_i=(x_{i1};x_{i2};...;{x_{in}})$ 与 $x_j=(x_{j1};x_{j2};...;x_{jn})$ ，最常用的是“闵可夫斯基距离”：

$dist_{mk}(x_i,x_j)=(\sum_{u=1}^n|x_{iu}-x_{ju}|^p)^{\frac{1}{p}}$

当闵可夫斯基距离中的p=1时，我们称之为曼哈顿距离：

$dist_{man}(x_i,x_j)=\sum_{u=1}^{n}|x_{iu}-x_{ju}|$

当闵可夫斯基距离中的p=2时，我们称之为欧几里得距离（欧式距离）：

$dist_{ed}(x_i,x_j)=\sqrt{\sum_{u=1}^{n}|x_{iu}-x_{ju}|^2}$

很显然我们的闵可夫斯基以及相关的距离度量方式只能够对数值型属性进行度量，例如集合{1,2,3}；但是当我们遇到类别型数据的时候，就无法进行计算了，例如集合{苹果，西瓜，橘子}，对应着我们有下面的计算方法：

VDM

令 $m_{u,a}$ 表示在属性u上取值为a的样本数， $m_{u,a,i}$ 表示在第i个样本簇中在属性u上取值为a的样本数，k为样本簇数，则属性u上两个离散值a与b之间的VDM距离为：

$VDM_p(a,b)=\sum_{i=1}^{k}|\frac{m_{u,a,i}}{m_{u,a}}-\frac{m_{u,b,i}}{m_{u,b}}|^p$

有了VDM之后，我们将闵可夫斯基距离和VDM进行结合去处理混合属性：

$MinkovDM_p(x_i,x_j)=(\sum_{u=1}^{n_c}|x_{iu}-x_{ju}|^p+\sum_{u=n_c+1}^nVDM_p(x_{iu},x_{ju}))^{\frac{1}{p}}$

注：当我们遇到的不同属性的重要性不同的时候，我们也可以对特征进行加权。

K-Means聚类

聚类算法中，最典型最常用的算法就是K-Means（K均值）算法，让我们来了解一下K-Means的原理及流程。

K-Means算法最大的特点是简单，好理解，运算速度快，但是只能应用于连续型的数据，并且一定要在聚类前需要手工指定要分成几类。K-Means算法的流程如下：

输入是样本集 $D={x_1,x_2,...,x_m}$ ,聚类的簇树k,最大迭代次数N;

输出是簇划分 $C=\{C_1,C_2,...,C_k\}$

（1）给定一个k值（适当即可），意味着我们希望数据样本经过聚类后会聚成k个簇（k类）；

（2）从数据集中随机选择k课数据点作为质心（Centroid） $\{\mu_1,\mu_2,...,\mu_k\}$ ;

（3）计算数据集中每一个样本到每个质心的距离（一般适用欧式距离），离哪个质心的距离近，就把该样本分到哪个质心中，数据集此时被分为k个簇；

（4）对于这k个簇，重新计算每个簇的质心，（计算的方法会在下面说明）；

（5）如果新的质心和之前的质心之间的距离小于某一个设定的阈值，可以认为我们的聚类已经达到了期望的结果，算法终止；

（6）迭代N次如果新的质心和之前的质心差别较大，则重新进行（3）（4）（5）的过程；

（7）最终输出划分。

在流程中提到的质心的计算方法如下：

$\mu_j=\frac{1}{C_j}\sum_{x\in C_j}x$

K-Means++（初始化优化）

根据K-Means算法的原理我们不难发现，最初的质心选择对聚类的结果和运行时间有着很大的影响，因此我们需要选择合适的K个质心，K-Means++就使用了更优化的方法来初始化质心，让我们来看一下K-Means++的优化策略：

（1）从输入的数据点集合中随机选择一个点作为第一个聚类中心 $\mu_1$ ；

（2）对于数据集中的每一个点 $x_i$ ，计算它与最近聚类中心(指已选择的聚类中心)的距离D(x)；

（3）选择一个新的数据点作为新的聚类中心，选择的原则是：D(x)较大的点，被选取作为聚类中心的概率较大；

（4）重复（2）（3）步骤直到选择出k个聚类质心；

（5）利用这k个质心来作为初始化质心去运行标准的K-Means算法。

过程中提到的D(x)计算方法如下：

$D(x_i)=argmin||x_i-\mu_r||_2^2，r=1,2,...,k$

elkan K-Means（距离计算优化）

在传统的K-means算法中，我们每次迭代都需要计算所有样本到所有质心的距离，这样做会大大浪费我们的时间，elkan K-Means算法就是从距离的优化，去减少一些不必要的距离计算，来看一下它的原理。

elkan K-Means利用了两边之和大于等于第三边,以及两边之差小于第三边的三角形性质，来减少距离的计算。

（1）对于一个样本点x和两个质心 $\mu_{j1},\mu_{j2}$ 。如果我们预先计算出了这两个质心之间的距离 $D(j_1,j_2)$ ，如果计算发现 $2D(x,j_1)\leq D(j_1,j_2)$ ，我们立即就可以知道 $D(x,j_1)\leq D(x,j_2)$ ，此时我们也就不需要再去计算 $D(x,j_2)$ ，也就是说我们少算了一个距离。