《机器学习》周志华-CH9（聚类）

最新推荐文章于 2024-10-19 11:04:31 发布

Next---YOLO

最新推荐文章于 2024-10-19 11:04:31 发布

阅读量1.1k

点赞数 30

分类专栏：西瓜书文章标签：机器学习聚类支持向量机

本文链接：https://blog.csdn.net/m0_51366201/article/details/142499358

版权

西瓜书专栏收录该内容

10 篇文章 0 订阅

订阅专栏

9.1聚类任务

聚类试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为"簇"。

假定样本集 $D={x_1,x_2,...x_m}$ 包含 $m$ 个无标记样本

每个样本 $x_i=(x_{i1},x_{i2},...x_{in})$ 是一个 $n$ 维向量

聚类将样本集 $D$ 划分维 $k$ 个不相交的簇 ${C_l|l=1,2,..k\}$

在这里插入图片描述

9.2性能度量

亦称聚类“有效性指标”（validity index）

聚类结果与“簇内相似度”高且“簇间相似度”低
$\begin{cases} 与“参考模型”比，“外部指标” &\\ 直接考虑结果，“内部指标” & \\ \end{cases}$

对数据集 $D=\{x_1,x_2,...x_m\}$

聚类给出的簇划分 $C=\{C_1,C_2,...,C_k\}$

参考模型给的簇划分 $C^*=\{C_1^*,C_2^*,...,C_k^*\}$

同时令 $\lambda$ 与 $\lambda^*$ 分布表示 $C$ 与 $C^*$ 对应的簇标记向量
在这里插入图片描述

其中， $a+b+c+d=C_m^2=\frac{m(m-1)}{2}$

聚类性能度量外部指标：
在这里插入图片描述

9.3距离计算

对函数 $dist(\cdot,\cdot)$ ,若它是一个“距离度量”（distance measure），则需满足一些基本性质：

非负性： $dist(x_i,x_j)\geq0;$
同一性： $dist(x_i,x_j)=0;$ 当且仅当 $x_i=x_j;$
对称性： $dist(x_i,x_j)=dist(x_j,x_i);$
直递性： $dist(x_i,x_j)\leq{dist(x_i,x_k)+dist(x_k,x_j)}$

给定样本 $x_i=(x_{i1};x_{i2};...;x_{in})$ 与 $x_j=(x_{j1};x_{j2};...;x_{jn})$ ,最常用的是“闵可夫斯基距离”（Minkoski distance）
$\begin{equation} dist_{mk}(x_i,x_j)=(\sum_{u=1}^n|x_{iu}-x_{ju}|^p)^{\frac{1}{p}} \tag{9.18} \end{equation}$
对 $p\geq1$ ,式（9.18）满足上面所有基本性质

$p = 2$ 时，“闵可夫斯基距离”是欧氏距离（Euclidean distance）
$\begin{equation} dist_{ed}(x_i,x_j)=||x_i-x_j||_2=\sqrt{\sum_{u=1}^{n}|x_{iu}-x_{ju}|^2} \tag{9.19} \end{equation}$

$p = 1$ 时,“闵可夫斯基距离”是曼哈顿距离
$\begin{equation} dist_{man}(x_i,x_j)=||x_i-x_j||_1=\sum_{u=1}^{n}|x_{iu}-x_{ju}| \tag{9.20} \end{equation}$
$\begin{cases} “连续属性” &\\ “离散属性” & \\ \end{cases}$
$\begin{cases} “有序属性” &1，2，3 &闵可夫斯基距离可用\\ “无序属性” & 飞机，火车，轮胎 &闵可夫斯基距离不可用\\ \end{cases}$
对无需属性采用VDM

令 $m_{u,a}$ 表示属性 $u$ 上取值为 $a$ 的样本数

$m_{u,a,i}$ 表示第 $i$ 个样本簇中在属性 $u$ 上取值为 $a$ 的样本数。

属性 $u$ 上两个离散值 $a$ 与 $b$ 之间的VDM距离为：
$\begin{equation} VDM_p(a,b)=\sum_{i=1}^k|\frac{m_{u,a,i}}{m_{u,a}}-\frac{m_{u,b,i}}{m_{u,b}}| \tag{9.21} \end{equation}$
将闵可夫斯基距离和VDM结合即可处理混合属性

$n_c$ 个有序属性， $n-n_c$ 个无序属性，则：
$\begin{equation} MinkovDM_p(x_i,x_j)=(\sum_{u=1}^{n_c}|x_{i,u}-x_{j,u}|^p+\sum_{u=n_c+1}^nVDM_p(x_{iu},x_ju))^{\frac{1}{p}} \tag{9.22} \end{equation}$
样本权重不同，“加权距离”

加权闵可夫斯基距离：
$\begin{equation} dist_{wmk}(x_i,x_j)=(w_i\cdot|x_{i1}-x_{j1}|^p+...+w_n\cdot|x_{in}-x_{jn}|^p)^{\frac{1}{p}} \tag{9.23} \end{equation}$
其中，权重 $w_i\geq0(i=1,2,...,n)$ 表征不同属性的重要性，通常 $\sum_{i=1}^nw_i=1$

9.4原型聚类

”基于原型的聚类“，通过一组原型刻画。

9.4.1 k均值算法

样本集 $D=\{x_1,x_2,...x_m\}$ ，k-means算法针对聚类所得簇划分 $C=\{C_1,C_2,...C_k\}$ 最小化平方误差
$\begin{equation} E=\sum_{i=1}^k\sum_{x\in{C_{i}}}||x-u_i||_2^2 \tag{9.24} \end{equation}$
其中 $E$ 越小，内部相似度越高， $u_i=\frac{1}{|C_i|}\sum_{x\in{C_i}}x$ 是簇 $C_i$ 的均值向量

这是一个NP问题，采用贪心策略，通过迭代优化近似求解

算法

加入簇数 $k = 3$ ,随机选 $3$ 个样本做为中心 $u_1,u_2,u_3$
对每一个样本，考虑与 $u_1,u_2,u_3$ 距离分出
$C_1={x_5,x_6,...}$
$C_2={x_1,x_11,...}$
$C_1={x_18,x_19,...}$
对 $C_1,C_2,C_3$ 分别求新的均值向量 $u_1^1,u_2^2,u_3^3$ ,不断重复迭代，得到最终划分

9.4.2学习向量化(Learning Vector Quantization,LVQ)

假设样本有类别标记，学习过程利用样本的监督信息来辅助聚类

给定样本集 $D=\{(x_1,y_1),(x_2,y_2),...(x_m,y_m)\}$

在这里插入图片描述

LVQ关键在于如何更新原型向量

对样本 $x_j$ ,若最近的原型向量 $P_{i^*}$ 与 $x_j$ 类别标记相同，则令 $P_{i^*}$ 向 $x_j$ 的方向靠拢，此时新原型向量为
在这里插入图片描述

类似的，若 $P_{i^*}$ 与 $x_j$ 的类别标记不同，则更新后的原型向量与 $x_j$ 之间的距离增大为 $(1+\eta)\cdot||P_{i^*}-x_j||_2$ ,从而更远离 $x_j$

学得一组原型向量 ${P_1,P_2,...P_q\}$ 后，可实现对样本空间 $\chi$ 的簇划分。任意样本 $\chi$ ,划入最近簇中；

每个 $P_{i^*}$ 定义了与之相关的区域 $R_i$ 。区域中样本与 $P_i$ 距离不大于其他原型向量 $P_{i^,}$ 的距离：
$\begin{equation} R_i=\{x\in\chi| \quad||x-p_i||_2\leq||x-p_{i^,}||_2,i^{'}\neq{i}\} \tag{9.27} \end{equation}$
形成了对样本空间 $\chi$ 的簇划分 ${R_1,R_2,...R_q\}$ 称为”Voronoi剖分“

9.4.3高斯混合聚类

高斯混合（Mixture-of-Gaussian）聚类采用概率模型来表达聚类原型

对 $n$ 维样本空间 $X$ 中的随机向量 $x$ ，若 $X$ 服从高斯分布，概率密度函数维：
在这里插入图片描述

样本生成过程：

根据 $\alpha_1,\alpha_2,...\alpha_k$ 定义的先验分布选择高斯混合成分， $\alpha_i$ 为第 $i$ 个成分概率

根据概率密度进行采样，生成相应的样本

生成训练集 $D=\{x_1,x_2,...x_m\}$

令随机变量 $z_j\in\{1,2,..k\}$ 表示生成样本 $x_j$ 的高斯混合成分，其取值未知。显然， $z_j$ 的先验概率 $P(z_j=i)$ 对应 $\alpha_i(i=1,2,...,k)$ .根据贝叶斯定理， $z_j$ 的后验分布对应于
在这里插入图片描述

在这里插入图片描述

9.5密度聚类

DBSCAN是基于一组”邻域“参数 $(\xi,MinPt_s)$ 来刻画样本分布的紧密程度。给定数据集 $D=\{x_1,x_2...x_m\}$

$\xi-$ 邻域：对 $x_j\in{D}$ ,其 $\xi$ 邻域包含样本集 $D$ 中与 $x_j$ 的距离不大于 $\xi$ 的样本，即 $N_{\xi}(x_j)=\{x_i\in{D}|dist(x_i,x_j)\leq\xi\}$
核心对象（core object） ：若 $x_j$ 的 $\xi$ 邻域至少包含 $MinPt_s$ 个样本，即 $|N_{\xi}(x_j)|\ge{MinPt_s}$ ,则 $x_j$ 是一个核心对象
密度直达（directly density-reachable） ：若 $x_j$ 位于 $x_i$ 的 $\xi$ 邻域中，且 $x_i$ 是核心对象。称 $x_j$ 由 $x_i$ 密度直达。
密度可达（density-reachable） ：对 $x_i$ 与 $x_j$ ，若存在样本序列 $p_1,p_2,...,p_n,$ 其中 $p_1=x_i,p_n=x_j$ 且 $p_{i+1}$ 由 $p_i$ 密度直达，则称 $x_j$ 由 $x_i$ 密度可达；
密度相连（density-connected） ：对 $x_i$ 与 $x_j$ ,若存在 $x_k$ 使得 $x_i$ 与 $x_j$ 均由 $x_k$ 密度可达，则称 $x_i$ 与 $x_j$ 密度相连。