《机器学习》阅读心得——九、聚类

最新推荐文章于 2022-05-26 15:49:57 发布

TaoismShi

最新推荐文章于 2022-05-26 15:49:57 发布

阅读量982

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/taoismshi/article/details/77461522

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

9.1 聚类任务

在“无监督学习”中，训练样本的标记信息是未知的，目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律，为进一步的分析提供基础。这种学习任务中应用最广的是“聚类”。
聚类试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个“簇”。通过这样的划分，每个簇可能对应于一些潜在的概念（类别）。聚类算法对这些概念是未知的，聚类仅能自动形成簇结构，簇所对应的概念需要由使用者来把握。聚类既能作为一个单独过程，用于找寻数据内在的分布结构，也可作为分类等其他学习任务的前驱过程。
下文讨论聚类的两个基本问题：性能度量和距离计算。

9.2 性能度量

聚类性能指标也称为“有效性指标”。直观上，好的聚类结果应当是同一簇的样本尽可能彼此相似，不同簇的样本尽可能不同。即，聚类结果的“簇内相似度”高且“簇间相似度”低。聚类性能指标有两类，一类是将聚类结果与某个“参考模型”进行比较，称为“外部指标”，一类是直接考察聚类结果而不利用任何参考模型，称为“内部指标”。
对数据集 $D=\{x_1,x_2,...,x_m\}$ ，假定通过聚类给出的簇划分为 $C=\{C_1,C_2,..,C_k\}$ ，参考模型给出的簇划分为 $C^*=\{C^*_1,C^*_2,...,C^*_s\}$ 。相应的，令 $\lambda$ 与 $\lambda^*$ 分别表示 $C$ 和 $C^*$ 对应的簇标记向量。我们将样本两两配对考虑，定义

a = | S S |, S S = {(x i, x j) | λ i = λ j, λ * i = λ * j, i < j} b = | S D |, S D = {(x i, x j) | λ i = λ j, λ * i \neq λ * j, i < j} c = | D S |, D S = {(x i, x j) | λ i \neq λ j, λ * i = λ * j, i < j} d = | D D |, D D = {(x i, x j) | λ i \neq λ j, λ * i \neq λ * j, i < j} (9.1) (9.2) (9.3) (9.4)

$\begin{eqnarray*} a=|SS|,\;SS=\{(x_i,x_j)|\lambda_i=\lambda_j,\lambda^*_i=\lambda^*_j,i<j\} \tag{9.1} \\ b=|SD|,\;SD=\{(x_i,x_j)|\lambda_i=\lambda_j,\lambda^*_i\neq\lambda^*_j,i<j\} \tag{9.2}\\ c=|DS|,\;DS=\{(x_i,x_j)|\lambda_i\neq\lambda_j,\lambda^*_i=\lambda^*_j,i<j\} \tag{9.3}\\ d=|DD|,\;DD=\{(x_i,x_j)|\lambda_i\neq\lambda_j,\lambda^*_i\neq\lambda^*_j,i<j\} \tag{9.4} \end{eqnarray*}$
由于每个样本对仅能出现在一个集合中，因此有

a+b+c+d=m(m−1)/2 $a+b+c+d=m(m-1)/2$ 成立。有以上各式可导出以下几个指标
1、Jaccard系数（简称JC）

J C = a a + b + c (9.5)

$JC=\frac{a}{a+b+c} \tag{9.5}$
2、FM指数（简称FMI）

F M I = a a + b \cdot a a + c - - - - - - - - - - - \sqrt (9.6)

$FMI=\sqrt{\frac{a}{a+b}\cdot \frac{a}{a+c}} \tag{9.6}$
3、Rand指数（简称RI）

R I = 2 ( a + d ) m ( m - 1 ) (9.7)

$RI=\frac{2(a+d)}{m(m-1)}\tag{9.7}$
上述性能度量的结果值均在[0,1]区间，值越大越好。
考虑聚类结果的簇划分

C={C1,C2,...,Ck} $C=\{C_1,C_2,...,C_k\}$ ，定义

a v g (C) d i a m (C) d m i n (C i, C j) d c e n (C i, C j) = = = = 2 | C | ( | C | - 1 ) \sum 1 \leq i < j \leq | C | d i s t (x i, y i) m a x 1 \leq i < j \leq | C | d i s t (x i, x j) m i n x i \in C i, x j \in C j d i s t (x i, x j) d i s t (μ i, μ j) (9.8) (9.9) (9.10) (9.11)

$\begin{eqnarray*} avg(C)&=&\frac{2}{|C|(|C|-1)}\sum_{1\leq i< j\leq|C|}dist(x_i,y_i) \tag{9.8} \\ diam(C)&=&max_{1\leq i<j\leq |C|}dist(x_i,x_j) \tag{9.9} \\ d_{min}(C_i,C_j)&=&min_{x_i\in C_i,x_j \in C_j}dist(x_i,x_j) \tag{9.10} \\ d_{cen}(C_i,C_j)&=&dist(\mu_i,\mu_j) \tag{9.11} \end{eqnarray*}$
其中，

dist(⋅,⋅) $dist(\cdot,\cdot)$ 用于计算两个样本之间的距离;

μ $\mu$ 代表簇C的中心点。显然有

avg(C) $avg(C)$ 对应于簇C内样本间的平均距离，

diam(C) $diam(C)$ 对应于簇C内样本的最远距离，

dmin(Ci,Cj) $d_{min}(C_i,C_j)$ 对应于簇

Ci $C_i$ 与簇

Cj $C_j$ 最近样本间的距离，

dcen(Ci,Cj) $d_{cen}(C_i,C_j)$ 对应于簇

Ci $C_i$ 与簇

Cj $C_j$ 中心点间的距离。基于式（9.8-9.11）可得到以下性能度量内部指数
1、DB指数（简称DBI）

D B I = 1 k \sum i = 1 k m a x j \neq 1 (a v g ( C i ) + a v g ( C j ) d c e n ( μ i , μ j ) (9.12)

$DBI=\frac{1}{k}\sum^{k}_{i=1}max_{j\neq1}(\frac{avg(C_i) + avg(C_j)}{d_{cen}(\mu_i,\mu_j)}\tag{9.12}$
2、Dunn指数（简称DI）

D I = m i n 1 \leq i \leq k {m i n j \neq i (d m i n ( C i , C j ) m a x 1 \leq l \leq k d i a m ( C l ))} (9.13)

$DI=min_{1\leq i \leq k}\{min_{j\neq i}(\frac{d_{min}(C_i,C_j)}{max_{1\leq l \leq k}diam(C_l)})\}\tag{9.13}$
显然，DBI的值越小越好，DI的值越大越好

9.3 距离计算

对函数 $dist(\cdot,\cdot)$ ，若它是一个距离度量，则应当满足非负性、对称性、同一性、直递性（三角形，两边之和大于第三边）等性质。给定样本 $x_i=(x_{i1},x_{i2},...,x_{in})$ 与样本 $x_j=(x_{j1},x_{j2},..,x_{jn})$ ，最常用的是“闵可夫斯基距离”，即

d i s t m k (x i, x j) = (\sum μ = 1 n | x i u - x j u | p) 1 p (9.14)

$dist_{mk}(x_i,x_j)=(\sum^n_{\mu=1}|x_{iu}-x_{ju}|^p)^{\frac{1}{p}}\tag{9.14}$
p=2时，闵可夫斯基距离即欧氏距离

d i s t e d (x i, x j) = | | x i - x j | | 2 = \sum μ = 1 n | x i u - x j u | 2 - - - - - - - - - - - -  ⎷   (9.15)

$dist_{ed}(x_i,x_j)=||x_i-x_j||_2=\sqrt{\sum^n_{\mu=1}|x_{iu}-x_{ju}|^2}\tag{9.15}$
p=1时，闵可夫斯基距离即曼哈顿距离

d i s t m a n (x i, x j) = | | x i - x j | | 1 = \sum u = 1 n | x i u - x j u | (9.16)

$dist_{man}(x_i,x_j)=||x_i-x_j||_1=\sum^n_{u=1}|x_{iu}-x{ju}|\tag{9.16}$
在讨论距离计算时，重要的是属性上是否定义了“序”关系。能够直接计算距离的是有序属性，不能直接计算距离的是无序属性。闵可夫斯基距离可用于计算有序属性。
对无序属性可采用VDM，令

mu,a $m_{u,a}$ 表示在属性

u $u$ 上取值为a的样本数，

mu,a,i $m_{u,a,i}$ 表示在第i个样本簇中在属性u上取值为a的样本数，k为样本簇数，则属性u上两个离散值a与b之间的VDM距离为

V D M p (a, b) = \sum i = 1 k | m u , a , i m u , a - m u , b , i m u , b | (9.17)

$VDM_p(a,b)=\sum^k_{i=1}|\frac{m_{u,a,i}}{m_{u,a}}-\frac{m_{u,b,i}}{m_{u,b}}|\tag{9.17}$
将闵可夫斯基距离和VDM距离结合可处理混合属性。假定有

nc $n_c$ 个有序属性，

n−nc $n-n_c$ 个无序属性，不失一般性，令有序属性排列在无序属性之前，则

M i n k o v D M p (x i, x j) = (\sum u = 1 n c | x i u - x j u | p + \sum u = n c + 1 n V D M p (x i u, x j u)) 1 p (9.18)

$MinkovDM_p(x_i,x_j)=(\sum^{n_c}_{u=1}|x_{iu}-x_{ju}|^p + \sum^n_{u=n_c+1}VDM_p(x_{iu},x_{ju}))^{\frac{1}{p}} \tag{9.18}$
通常我们是基于某种形式的距离来定义“相似度度量”,距离越大，相似度越小。但相似度度量的距离不一定满足距离度量的所有性质，比如直递性。这样的距离称为“非度量距离”。

9.4 原型聚类

原型聚类也被称为“基于原型的聚类”，这一类算法假设聚类结构能通过一组原型刻画，在现实聚类任务中很常用。通常，算法先对原型进行初始化，然后对原型进行迭代更新求解。下面是几种比较著名的原型聚类算法

9.4.1 k均值算法

给定样本集 $D=\{x_1,x_2,...,x_m\}$ ，“k均值”（k-means）算法针对聚类所得簇划分 $C=\{C_1,C_2,...,C_k\}$ 最小化平方误差

E = \sum i = 1 k \sum x \in C i | | x - μ i | | 22 (9.19)

$E=\sum^k_{i=1}\sum_{x\in C_i}||x-\mu_i||^2_2 \tag{9.19}$
其中

μi=1|Ci|∑x∈Cix $\mu_i = \frac{1}{|C_i|}\sum_{x\in C_i}x$ 是簇

Ci $C_i$ 的均值向量。上式在一定程度上刻画了簇内样本围绕簇均值向量的紧密程度，E值越小则簇内样本相似度越高。找到上式的最优解需要考察样本集D的所有可能的簇划分，这是一个NP难问题。因此，k均值算法采用了贪心策略，通过迭代优化来近似求解。在迭代过程中，若迭代更新后聚类结果保持不变，则返回结果。

9.4.2 学习向量量化

与k均值算法类似，“学习向量量化”（Learning Vector Quantization）也是试图找到一组原型向量来刻画聚类结构。但与一般聚类算法不同，LVQ假设数据样本带有类别标记，学习过程利用这些监督信息来辅助聚类。
给定样本集 $D=\{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\}$ ，每个样本 $x_j$ 是由n个属性描述的特征向量 $(x_{j1},x_{j2},...,x_{jn})$ .LVQ的目标是学得一组n维原型向量 $\{p_1,p_2,...,p_q\}$ ,每个原型向量代表一个聚类簇，簇标记 $t_i\in y$ 。
在学的一组原型向量 $\{p_1,p_2,..,p_q\}$ 后，即可实现对样本空间的簇划分。对任意样本x，它将被划入与其距离最近的原型向量多代表的簇中。换言之，每个原型向量 $p_i$ 定义了与之相应的一个区域 $R_i$ ，该区域中每个样本与 $p_i$ 的距离不大于它与其他原型向量 $p_{i^{'}}$ 的距离。即

R i = {x \in χ | | | x - p i | | 2 \leq | | x - p i' | | 2, i' \neq i (9.20)

$R_i=\{x\in \chi | ||x-p_i||_2 \leq ||x-p_{i^{'}}||_2, i^{'} \neq i \tag{9.20}$
由此形成了对样本空间

χ $\chi$ 的簇划分

{R1,R2,...,Rq} $\{R_1,R_2,...,R_q\}$ ，该划分通常称为“Voronoi”剖分。

9.4.3 高斯混合聚类

与K均值、LVQ用原型向量来刻画聚类结构不同，高斯混合(Mixture of Gaussian)聚类采用概率模型来表达聚类原型。多元高斯分布的定义是，对n维样本空间 $\chi$ 中的随机向量x，若x服从高斯分布，其概率分布密度函数为

p (x) = 1 ( 2 π ) n 2 | \sum | 1 2 e - 1 2 (x - μ) T \sum - 1 (x - μ) (9.21)

$p(x)=\frac{1}{(2\pi)^{\frac{n}{2}}|\sum|^{\frac{1}{2}}}e^{-\frac{1}{2}(x-\mu)^T\sum^{-1}(x-\mu)}\tag {9.21}$
其中

μ $\mu$ 是n维均值向量，

∑ $\sum$ 是

n×n $n\times n$ 的协方差矩阵。由上式可以看出，高斯分布完全由均值向量

μ $\mu$ 和协方差矩阵

∑ $\sum$ 这两个参数确定。下文中将高斯分布的概率密度函数记为

p(x|μ,∑) $p(x|\mu,\sum)$
我们可定义高斯混合分布

p m (x) = \sum i = 1 k α i \cdot p (x | μ i, \sum i) (9.22)

$p_m(x)=\sum^{k}_{i=1}\alpha_i\cdot p(x|\mu_i,\sum_i)\tag{9.22}$
该分布由k个高斯混合分布组成，每个混合成分对应一个高斯分布。从原型聚类的角度看，高斯混合聚类是采用概率模型（高斯分布）对原型进行刻画，簇划分则由原型对应后验概率确定。

9.5 密度聚类

密度聚类也被称为“基于密度的聚类”，这类算法假定聚类结构能通过样本分布的紧密程度确定。通常情况下，密度聚类算法从样本密度的角度来考察样本之间的可连接性，并基于可连接样本不断扩展聚类簇以获得最终的聚类结果。
DBSCAN是一种著名的密度聚类算法，它基于一组“领域”参数来刻画样本分布的紧密程度。给定数据集 $D=\{x_1,x_2,..,x_n\}$ ，该算法给出了以下概念：
1. $\varepsilon$ 邻域：对 $x_j \in D$ ,其 $\varepsilon$ 邻域包含样本集D中与 $x_j$ 的距离不大于 $\varepsilon$ 的样本，即 $N_\varepsilon (x_j)=\{x_i \in D| dist(x_i,x_j) \leq \varepsilon\}$ ;
2. 核心对象：若 $x_j$ 的 $\varepsilon$ 邻域至少包含MinPts个样本，即 $|N_{\varepsilon}(x_j)| \geq MinPts$ ，则 $x_j$ 是一个核心对象;
3. 密度直达：若 $x_j$ 位于 $x_i$ 的 $\varepsilon$ 邻域中，且 $x_i$ 是核心对象，则称 $x_j$ 由 $x_i$ 密度直达；
4. 密度可达：对 $x_i$ 与 $x_j$ ，若存在样本序列 $p_1,p_2,..,p_n$ ，其中 $p_1=x_i,p_n=x_j$ 且 $p_{i+1}$ 由 $p_i$ 密度直达，则称 $x_j$ 由 $x_i$ 密度可达。
5. 密度相连：对 $x_i$ 与 $x_j$ ，若存在 $x_k$ 使得 $x_i$ 与 $x_j$ 均由 $x_k$ 密度可达，则称 $x_i$ 与 $x_j$ 密度相连。

图1 DBSCAN定义的基本概念（MinPts=3）: 实线是

ε $\varepsilon$ 邻域，m和o是核心对象，p/q由m密度直达，s由o密度可达，s与r密度相连。
基于这些概念，DBSCAN将簇定义为：由密度可达关系导出的最大的密度相连样本集合。在计算时，该算法随机选取数据集中的一个核心对象，生成聚类簇后，将簇中包含的核心对象从数据集中去除，再从更新后的数据集中随机选取一个核心对象来生成聚类簇，直到没有可用的核心对象。

9.6 层次聚类

层次聚类试图在不同层次对数据集进行划分，从而形成树形的聚类结构。数据集的划分可使用“自底向上”的聚合策略，也可以采用“自顶向下”的分拆策略。
AGNES是一种采用自底向上的聚合策略的层次聚类算法。它先将数据集中的每个样本都看做一个初始聚类簇，然后再算法运行的每一步中找出距离最近的两个聚类簇进行合并，该过程不断重复，直至达到预设的聚类簇个数。当聚类簇距离由最小距离/最大距离/平均距离计算时，AGNES算法被相应的称为“单连接”、“全连接”或“均连接”。

TaoismShi

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
《机器学习》阅读心得——九、聚类

9.1 聚类任务在“无监督学习”中，训练样本的标记信息是未知的，目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律，为进一步的分析提供基础。这种学习任务中应用最广的是“聚类”。聚类试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个“簇”。通过这样的划分，每个簇可能对应于一些潜在的概念（类别）。聚类算法对这些概念是未知的，聚类仅能自动形成簇结构，簇所对应的概
复制链接

扫一扫