【机器学习第9章——聚类】

方寸星河yu

已于 2024-08-12 00:17:03 修改

阅读量582

点赞数 2

文章标签：机器学习人工智能

于 2024-08-11 23:49:48 首次发布

本文链接：https://blog.csdn.net/m0_53694086/article/details/141113854

版权

机器学习第9章——聚类

9.聚类

9.聚类

9.1 聚类任务

在“无监督学习”任务中研究最多、应用最广.
聚类目标：将数据集中的样本划分为若干个通常不相交的子集（“簇”，cluster）
聚类既可以作为一个单独过程（用于找寻数据内在的分布结构)，也可作为分类等其他学习任务的前驱过程。
形式化描述
- 假定样本集
  $D=\{x_1,x_2,...,x_m\}$
  包含m个无标记样本，每个样本
  $x_i=(x_{i1};x_{i2};...;x_{in})$
  是一个n维的特征向量，聚类算法将样本集D划分成k个不相交的簇
  $\{C_l|l=1,2,...k\}\\ D=\bigcup_{l=1}^k C_l,且C_{l^,}\bigcap_{l^,\neq l}C_l=\emptyset$
  相应地，用
  $\lambda∈\{1,2,...,k\}$
  表示样本
  $x_j$
  的“簇标记”（cluster label），即
  $x_j\in C_{\lambda_j}$
  于是，聚类的结果可用包含m个元素的簇标记向量
  $\lambda=\{\lambda_1;\lambda_2;...;\lambda_m\}$
  表示。

9.2 性能度量

聚类性能度量，即聚类“有效性指标”
直观上，我们希望“物以类聚”，即同簇的样本尽可能彼此相似，不同簇的样本尽可能不同。换言之，聚类结果的“簇内相似度”高，且“簇间相似度”低，这样的聚类效果较好。
聚类性能度量指标
- 外部指标：将聚类结果与某个“参考模型”进行比较。
- 内部指标：直接考察聚类结果而不用任何参考模型。

数据集
$D=\{x_1,x_2,...,x_m\}$
假定通过聚类得到的簇划分为
$C=\{C_1,C_2,...,C_k\}$
参考模型给出的簇划分为
$C=\{C_1^*,C_2^*,...,C_k^*\}$
相应地
$令\lambda与\lambda^*分别表示与C和C^*对应的簇标记向量$
我们将样本两两配对考虑，定义
$a=|SS|,SS=\{(x_i,x_j)|\lambda_i=\lambda_j,\lambda_i^*=\lambda_j^*,i<j\}\\ b=|SD|,SD=\{(x_i,x_j)|\lambda_i=\lambda_j,\lambda_i^*\neq\lambda_j^*,i<j\}\\ c=|DS|,DS=\{(x_i,x_j)|\lambda_i\neq\lambda_j,\lambda_i^*=\lambda_j^*,i<j\}\\ d=|DD|,DD=\{(x_i,x_j)|\lambda_i\neq\lambda_j,\lambda_i^*\neq\lambda_j^*,i<j\}$
以下图10个样本点为例

在这里插入图片描述

符合SS的点有
$x_1,x_2),(x_1,x_6),(x_2,x_6),(x_3,x_7),\\ (x_5,x_8),(x_5,x_9),(x_5,x_{10}),(x_8,x_9),\\ (x_8,x_{10}),(x_9,x_{10})$
所以
$a = ∣ SS ∣ = 10$
符合SD的点有
$x_1,x_3),(x_1,x_7),(x_2,x_3),(x_2,x_7),(x_3,x_6),(x_6,x_7),\\ (x_4,x_5),(x_4,x_8),(x_4,x_9),(x_4,x_{10})$
所以
$b = ∣ S D ∣ = 10$
符合DS的点有
$x_1,x_4),(x_2,x_4),(x_4,x_6),\\ (x_3,x_5),(x_3,x_8),(x_3,x_9),(x_3,x_{10}),\\ (x_5,x_7),(x_7,x_8),(x_7,x_9),(x_7,x_{10}),$
所以
$c = ∣ D S ∣ = 11$
符合DD的点有
$x_1,x_5),(x_1,x_8),(x_1,x_9),(x_1,x_{10}),\\ (x_2,x_5),(x_2,x_8),(x_2,x_9),(x_2,x_{10}),\\ (x_5,x_6),(x_6,x_8),(x_6,x_9),(x_6,x_{10})\\ (x_3,x_4),(x_4,x_7)$
所以
$d = ∣ DD ∣ = 14$
总的有
$a+b+c+d=\frac{m(m-1)}{2}=\frac{10\times 9}{2}=45$
基于上述所求值可计算外部指标（需要借助数据真实的标签）
- Jaccard指数（JC）
  $JC=\frac{a}{a+b+c}$
- FM指数（FMI）
  $FMI=\sqrt{\frac{a}{a+b}\cdot\frac{a}{a+c}}$
- Rand指数（RI）
  $RI=\frac{2(a+d)}{m(m-1)}$
考虑聚类结果的簇划分
$C=\{C_1,C_2,...,C_k\}$
- 定义簇C内样本间的平均距离
  $avg(C)=\frac{2}{|C|(|C|-1)} \sum_{1\leq i\leq j \leq|C|}dist(x_i,x_j)$
- 簇C内样本间的最远距离
  $diam(C)=max_{1\leq i\leq j\leq|C|}dist(x_i,x_j)$
- 两个簇的最近样本间的距离
  $d_{min}(C_i,C_j)=min_{x_i\in C_i,x_j\in C_j}dist(x_i,x_j)$
- 两簇的中心点间的距离
  $d_{cen}(C_i,C_j)=dist(\mu_i,\mu_j)$
基于上述所求值可计算内部指标（不需要借助数据真实的标签，比较常用，毕竟真实的标签可遇不可求）
- DB指数（DBI）
  $DBI=\frac{1}{k}\sum_{i=1}^k\max_{j\neq i}\bigg(\frac{avg(C_i)+avg(C_j)}{d_{cen}(\mu_i,\mu_j)}\bigg)$
  
  $\color{red}{越小越好}$
- Dunn指数（DI）
  $DI=\min_{1\leq i\leq k}\{\max_{j\neq i}\bigg(\frac{d_{min}(C_i,C_j)}{\max_{1\leq l\leq k}diam(C_l)}\bigg)\}$
  
  $\color{red}{越大越好}$

9.3 距离计算

距离度量的性质
- 非负性
  $dist(x_i,x_j)>0$
- 同一性:
  $dist(x_i,x_j)=0当且仅当i= j$
- 对称性
  $dist(x_i,x_j)=dist(x_j,x_i)$
- 直递性
  $dist(x_i,x_j)\leq dist(x_i,x_k)+dist(x_k,x_j)$
常用距离
- 闵可夫斯基距离
  $dist(x_i,x_j)=\bigg(\sum_{u=1}^n|x_{iu}-x_{ju}|^p\bigg)^{\frac{1}{p}}$
  - 例如
    
    age height weight
    小明 14 172 50
    小红 13 164 48
    $小明记为样本x_1,小红记为样本x_2$
    
    $dist(x_1,x_2)=\big((14-13)^p+(172-164)^p+(50-48)^p\big)^{\frac{1}{p}}$
  - p=1:曼哈顿距离（街区距离）
  - p=2:欧氏距离
  - 属性介绍
    - 连续属性：在定义域上有无穷多个可能的取值
    - 离散属性：在定义域上是有限个可能的取值
    - 有序属性：例如定义域为{1,2,3}的离散属性，“1”与“2”比较接近、与“3”比较远，称为“有序属性”。
    - 无序属性：例如定义域为{飞机，火车，轮船}这样的离散属性，不能直接在属性值上进行计算，称为“无序属性”。
  - 显然闵可夫斯基距离属于有序属性
- VDM（处理无序属性）
  - 令
    $m_{u,a}$
    表示属性a上取值为u的样本数,
    $m_{u,a,i}$
    表示在第i个样本簇中在属性a上取值为u的样本数,k为样本簇数，则属性u上两个离散值a与b之间的VDM距离为
    $VDM_p(a,b)=\sum_{i=1}^k\bigg|\frac{m_{u,a,i}}{m_{u,a}}-\frac{m_{u,b,i}}{m_{u,b}}\bigg|^p$
  - 例如
    
    age height weight mode
    小明 14 172 50 飞机
    小红 13 164 48 汽车
    小白 15 170 49 火车
    …
    经过统计，班级50个人中，15个人喜欢坐飞机，15个人喜欢坐汽车，20个人喜欢坐火车
    
    记
    $坐火车为 a, 坐汽车为 b$
    所以
    $VDM_p(a,b)=|\frac{15}{20}-\frac{15}{15}|^p+|\frac{5}{20}-\frac{0}{15}|^p$
- MinkovDM（处理混合属性）
  $MinkovDM_p(x_i,x_j)=\bigg(\sum_{u=1}^{n_c}|x_{iu}-x_{ju}|^p+\sum_{u=n_c+1}^nVDM_p(x_{iu},x_{ju})\bigg)^{\frac{1}{p}}$
- 加权距离（样本中不同属性的重要性不同时）
  $dist(x_i,x_j)=\big(\omega_1\cdot|x_{i1}-x_{j1}|^p+...+\omega_n\cdot|x_{in}-x_{jn}|^p\big)^{\frac{1}{p}}$

	age	height	weight
小明	14	172	50
小红	13	164	48

	age	height	weight	mode
小明	14	172	50	飞机
小红	13	164	48	汽车
小白	15	170	49	火车
…

9.4 原型聚类

原型聚类
- 也称为“基于原型的聚类”，此类算法假设聚类结构能通过一组原型刻画。
算法过程
- 通常情况下，算法先对原型进行初始化，再对原型进行迭代更新求解。
k均值算法、学习向量量化算法、高斯混合聚类算法。

9.4.1 k均值算法

给定数据集
$D=\{x_1,x_2,...,x_m\}$
k均值算法针对聚类所得簇划分
$C=\{C_1,C_2,...,C_k\}\\ 这里的k是需要事先指定的(需要分成k类)，所以此算法中，k的选取很重要$
最小化平方误差
$E=\sum_{i=1}^k\sum_{x\in C_i}||x-\mu_i||^2_2\\ \mu_i是簇C_i的均值向量(\frac{1}{|C_i|}\sum_{x\in C_i}x)\\ \sum_{x\in C_i}||x-\mu_i||^2_2为簇中的所有点距离中心点的距离和$
E值在一定程度上刻画了簇内样本围绕簇均值向量的紧密程度，E值越小，则簇内样本相似度越高。算法的整个过程就是在不断的调整“点该属于哪一个簇”，从而使得平方误差最小

例如，我们以西瓜数据集为例，因为需要划分成3类，所以随机选取了编号6、12、27作为均值向量
$\mu_1=(0.403;0.237)、\mu_2=(0.343;0.099)、\mu_1=(0.532;0.472)$
在这里插入图片描述

接着对样本点进行划分，例如我们对编号1进行计算距离
$d_{11}=\sqrt{(0.697-0.403)^2+(0.460-0.237)^2}=0.369\quad(样本1到簇1的距离)\\ d_{12}=\sqrt{(0.697-0.343)^2+(0.460-0.099)^2}=0.506\quad(样本1到簇2的距离)\\ d_{13}=\sqrt{(0.697-0.532)^2+(0.460-0.472)^2}=0.166\quad(样本1到簇3的距离)$
所以样本1被划分到簇3中，以此类推，对所有样本进行划分，可以得到结果
$C_1=\{x_5,x_6,x_7,x_8,x_9,x_{10},x_{13},x_{14},x_{15},x_{17},x_{18},x_{19},x_{20},x_{23}\}\\ C_2=\{x_{11},x_{12},x_{16}\}\\ C_3=\{x_1,x_2,x_3,x_4,x_{21},x_{22},x_{24},x_{25},x_{26},x_{27},x_{28},x_{29},x_{30}\}$
这样三个簇里分别都有样本，可以求出新的均值向量
$\mu_1^,=(0.473;0.214)、\mu_2^,=(0.394;0.066)、\mu_3^,=(0.623;0.388)$
更新均值向量，把三个簇内的样本清空，重新再来一遍，又可以得到一次划分结果和一组新的均值向量，循环迭代，直到收敛或者规定次数后停止。下图是进行四次迭代的划分结果。

9.4.2 学习向量量化(LVQ)

与一般聚类算法不同的是，LVQ假设数据样本带有类别标记，学习过程中利用样本的这些监督信息来辅助聚类
给定样本集
$D=\{(x_1,y1),(x_2,y_2),..., (x_m,y_m)\}$
LVQ的目标是学得一组n维原型向量
${p_1,p_2,...,p_q\}$
每个原型向量代表一个聚类簇。常用于发现类别的“子类”结构。

在这里插入图片描述

如果样本标记与预设标记一致，之间的距离变为
$||p^,-x_j||_2=||p_{i^*}+\eta\cdot(x_j-p_{i^*})-x_j||_2\\ =(1-\eta)\cdot||p_{i^*}-x_j||_2$
如果样本标记与预设标记不一致，之间的距离为
$||p^,-x_j||_2=||p_{i^*}-\eta\cdot(x_j-p_{i^*})-x_j||_2\\ =(1+\eta)\cdot||p_{i^*}-x_j||_2$
例如，我们以西瓜数据集为例

在这里插入图片描述

虽然瓜可以只分为两类（好瓜和坏瓜），但是学习向量量化算法可以划分为更具体的子类，所以我们可以想让它划分为5类，所以原型向量也有5个
$p_1,p_2,p_3,p_4,p_5$
对应的类别标记为
$c_1,c_2,c_2,c_1,c_1\\ c_1:好瓜=是,c_2:好瓜=否$
所以初始化的原型向量1、4、5需要在“好瓜=是”的标记下随机选择样本；而初始化的原型向量2和3需要在“好瓜=否”的标记下随机选择样本。这里假定5个原型向量初始化为
$x_5=(0.556,0.215),x_{12}=(0.343,0.099),x_{18}=(0.359,0.188),\\ x_{23}=(0.483,0.312),x_{29}=(0.725,0.445)$
然后进入第一轮的迭代，随机选择一个样本，假定选择的是
$x_1$
这时候需要计算样本1到5个原型向量的距离，计算过程与k均值算法一样
$d_{11}=\sqrt{(0.697-0.556)^2+(0.460-0.215)^2}=0.283\quad(x_1到p_1的距离)\\ d_{12}=\sqrt{(0.697-0.343)^2+(0.460-0.099)^2}=0.506\quad(x_1到p_2的距离)\\ d_{13}=\sqrt{(0.697-0.359)^2+(0.460-0.188)^2}=0.434\quad(x_1到p_3的距离)\\ d_{14}=\sqrt{(0.697-0.483)^2+(0.460-0.312)^2}=0.260\quad(x_1到p_4的距离)\\ d_{15}=\sqrt{(0.697-0.725)^2+(0.460-0.445)^2}=0.032\quad(x_1到p_5的距离)$
发现样本1与原型向量5距离最近，且二者具有相同类别标记（都是好瓜），假设学习率为
$\eta=0.1$
则原型向量5可以得到更新
$p_5^,=p_5+\eta(x_1-p_5)\\ =(0.725,0.445)+0.1\cdot((0.697,0.460)-(0.725,0.445))\\ =(0.722,0.442)$
经过50、100、200、400轮迭代后的结果如下

在这里插入图片描述

9.4.3 高斯混合聚类

与k均值、LVQ用原型向量来刻画聚类结构不同，高斯混合聚类采用概率模型来表达聚类原型

多元高斯分布的定义
对n维样本空间中的随机向量x，若服从高斯分布，其概率密度函数为

$p(x)=\frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}e^{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)}\quad 也可记作p(x|\mu,\Sigma)\\ \mu是n维均值向量,\Sigma 是n\times n的协方差矩阵$

高斯混合分布的定义
$p(x)=\sum_{i=1}^kp(z_j=i)\cdot p(x_j|z_j=i)=\sum_{i=1}^k\alpha_i\cdot p(x|\mu_i,\Sigma_i)\quad 全概率公式展开\\ k个高斯分布共同构成一个x向量\\ 其中,\mu_i与\Sigma_i是第i个\color{red}{高斯混合成分}\color{black}{的参数。}\\ 而\alpha_i>0为相应的混合系数,且\sum_{i=1}^k\alpha_i=1$
假设样本的生成过程由高斯混合分布给出:
- 首先，根据
  $\alpha_1,\alpha_2,...,\alpha_k$
  定义的先验分布选择高斯混合成分,其中
  $\alpha_i$
  为选择第i个混合成分的概率
- 然后,根据被选择的混合成分的概率密度函数进行采样，从而生成相应的样本。

训练集
$D=\{x_1,x_2,..,x_m\}$
随机变量
$z_j\in{1,2,...,k}:表示生成样本x_j的高斯混合成分(x_j属于哪一个高斯分布)$
属于第i个高斯分布的概率
$第i个高斯分布的均值和协方差矩阵:\mu_i、\Sigma_i\\ p(z_j=i)=p(\mu_i,\Sigma_i)=\alpha_i$
给定样本的情况下，属于第i个高斯分布的概率
$p(z_j=i|x_j)\quad 简记为\gamma_{ji}\\ =\frac{p(z_j=i)\cdot p(x_j|z_j=i)}{p(x_j)} =\frac{\alpha_i\cdot p(x_j|\mu_i,\Sigma_i)}{p(x_j)}\\ =\frac{\alpha_i\cdot p(x_j|\mu_i,\Sigma_i)}{\sum_{l=1}^kp(z_j=l)p(x_j|z_j=l)} =\frac{\alpha_i\cdot p(x_j|\mu_i,\Sigma_i)}{\sum_{l=1}^k\alpha_l\cdot p(x_j|\mu_l,\Sigma_l)}\\$
这样在一个给定的样本中，可以求出它属于每一个高斯分布的概率，我们取最大的概率作为它划分进簇的标准
$\lambda_j=\arg\max_{i\in\{1,2,...,k\}}\gamma_{ji}$
所以整个过程转化为，确定参数
$\alpha_i,\mu_i,\Sigma_i$

极大似然估计求解
$LL(D)=\ln\bigg(\prod_{j=1}^kp(x_j)\bigg)\\ =\sum_{j=1}^m\ln\bigg(\sum_{i=1}^k\alpha_i\cdot p(x_j|\mu_i,\Sigma_i)\bigg)$
- 对均值求偏导，并令其等于零进行求解
  $\frac{\partial\,LL(D)}{\partial\,\mu_i}$
- 对协方差矩阵求偏导，并令其等于零进行求解
  $\frac{\partial\,LL(D)}{\partial\,\Sigma_i}$
- 接着需要用拉格朗日对
  $\alpha_i$
  求解，并且条件满足
  $\alpha_i\geq0,\sum_{i=1}^k\alpha_i=1$
  所以拉格朗日形式如下
  $LL(D)+\lambda\big(\sum_{i=1}^k\alpha_i-1\big)$
  对其求导，并令其等于零进行求解

算法流程如下：

在这里插入图片描述

还是以西瓜数据集为例，假设我们要划分成三类，也就是高斯混合成分的个数
$k = 3$
对模型参数进行初始化

属于类1、类2、类3的概率
$\alpha_1=\frac{1}{3}、\alpha_2=\frac{1}{3}、\alpha_3=\frac{1}{3}$
类1、类2、类3的均值(随机初始化)
$\mu_1=x_6=(0.403;0.237)、\mu_2=x_{22}=(0.714;0.346)、\mu_3=x_{27}=(0.532;0.472)$
类1、类2、类3的协方差矩阵（方阵且是对称阵）
维数为特征的个数，因为有密度和含糖率两个特征，所以矩阵为2×2
$\Sigma_1=\Sigma_2=\Sigma_3=\begin{pmatrix} 0.1 & 0 \\ 0 & 0.1 \\ \end{pmatrix}$

在这里插入图片描述

以样本编号1为例，计算后验概率
$\gamma_{11}=\frac{\alpha_1\cdot p(x_1|\mu_1,\Sigma_1)}{\sum_{l=1}^3\alpha_l\cdot p(x_1|\mu_l,\Sigma_l)}\\$

$分子:\\ \alpha_1\cdot p(x_1|\mu_1,\Sigma_1)=\frac{1}{3}\frac{1}{(2\pi)^{\frac{2}{2}}\begin{vmatrix} 0.1 & 0 \\ 0 & 0.1 \\ \end{vmatrix}^{\frac{1}{2}}}e^{-\frac{1}{2}\big((0.697;0.460)-(0.403;0.237)\big)^T\begin{pmatrix} 0.1 & 0 \\ 0 & 0.1 \\ \end{pmatrix}^{-1}\big((0.697;0.460)-(0.403;0.237)\big)}\\ =\frac{1}{3}\frac{1}{2\pi \cdot 0.1}e^{-\frac{1}{2}\begin{pmatrix} 0.294 & 0.223 \end{pmatrix}\begin{pmatrix} 10 & 0 \\ 0 & 10 \\ \end{pmatrix}\begin{pmatrix} 0.294\\0.223\end{pmatrix}}\\ =\frac{1}{0.6\pi}e^{-0.680825}$

$分母:\\ \sum_{l=1}^3\alpha_l\cdot p(x_1|\mu_l,\Sigma_l)=\alpha_1\cdot p(x_1|\mu_1,\Sigma_1)+\alpha_2\cdot p(x_1|\mu_2,\Sigma_2)+\alpha_3\cdot p(x_1|\mu_3,\Sigma_3)\\ =\frac{1}{3}\frac{1}{(2\pi)^{\frac{2}{2}}\begin{vmatrix} 0.1 & 0 \\ 0 & 0.1 \\ \end{vmatrix}^{\frac{1}{2}}}e^{-\frac{1}{2}\big((0.697;0.460)-(0.403;0.237)\big)^T\begin{pmatrix} 0.1 & 0 \\ 0 & 0.1 \\ \end{pmatrix}^{-1}\big((0.697;0.460)-(0.403;0.237)\big)}\\ +\frac{1}{3}\frac{1}{(2\pi)^{\frac{2}{2}}\begin{vmatrix} 0.1 & 0 \\ 0 & 0.1 \\ \end{vmatrix}^{\frac{1}{2}}}e^{-\frac{1}{2}\big((0.697;0.460)-(0.714;0.346)\big)^T\begin{pmatrix} 0.1 & 0 \\ 0 & 0.1 \\ \end{pmatrix}^{-1}\big((0.697;0.460)-(0.714;0.346)\big)}\\ +\frac{1}{3}\frac{1}{(2\pi)^{\frac{2}{2}}\begin{vmatrix} 0.1 & 0 \\ 0 & 0.1 \\ \end{vmatrix}^{\frac{1}{2}}}e^{-\frac{1}{2}\big((0.697;0.460)-(0.532;0.472)\big)^T\begin{pmatrix} 0.1 & 0 \\ 0 & 0.1 \\ \end{pmatrix}^{-1}\big((0.697;0.460)-(0.532;0.472)\big)}\\ =\frac{1}{3}\frac{1}{2\pi \cdot 0.1}e^{-\frac{1}{2}\begin{pmatrix} 0.294 & 0.223 \end{pmatrix}\begin{pmatrix} 10 & 0 \\ 0 & 10 \\ \end{pmatrix}\begin{pmatrix} 0.294\\0.223\end{pmatrix}}+\\ \frac{1}{3}\frac{1}{2\pi \cdot 0.1}e^{-\frac{1}{2}\begin{pmatrix} -0.017 & 0.114 \end{pmatrix}\begin{pmatrix} 10 & 0 \\ 0 & 10 \\ \end{pmatrix}\begin{pmatrix} -0.017\\ 0.114\end{pmatrix}}+\\ \frac{1}{3}\frac{1}{2\pi \cdot 0.1}e^{-\frac{1}{2}\begin{pmatrix} 0.165 & -0.012 \end{pmatrix}\begin{pmatrix} 10 & 0 \\ 0 & 10 \\ \end{pmatrix}\begin{pmatrix} 0.165\\-0.012 \end{pmatrix}}\\ =\frac{1}{0.6\pi}(e^{-0.680825}+e^{-0.066425}+e^{-0.136845})$

$\gamma_{11}=\frac{\frac{1}{0.6\pi}e^{-0.680825}}{\frac{1}{0.6\pi}(e^{-0.680825}+e^{-0.066425}+e^{-0.136845})}\approx0.219$

$\gamma_{12}=\frac{\alpha_1\cdot p(x_1|\mu_2,\Sigma_2)}{\sum_{l=1}^3\alpha_l\cdot p(x_1|\mu_l,\Sigma_l)}=\frac{\frac{1}{0.6\pi}e^{-0.066425}}{\frac{1}{0.6\pi}(e^{-0.680825}+e^{-0.066425}+e^{-0.136845})}\approx0.404\\$

$\gamma_{13}=\frac{\alpha_1\cdot p(x_1|\mu_2,\Sigma_2)}{\sum_{l=1}^3\alpha_l\cdot p(x_1|\mu_l,\Sigma_l)}=\frac{\frac{1}{0.6\pi}e^{-0.136845}}{\frac{1}{0.6\pi}(e^{-0.680825}+e^{-0.066425}+e^{-0.136845})}\approx0.377\\$

得到后验概率后，计算新均值向量
$\mu_1^,=\frac{\sum_{j=1}^m\gamma_{j1}x_j}{\sum_{j=1}^m\gamma_{j1}}=(0.491;0.251)\\ \mu_2^,=\frac{\sum_{j=1}^m\gamma_{j2}x_j}{\sum_{j=1}^m\gamma_{j2}}=(0.571;0.281)\\ \mu_3^,=\frac{\sum_{j=1}^m\gamma_{j3}x_j}{\sum_{j=1}^m\gamma_{j3}}=(0.534;0.295)\\$
计算新协方差矩阵
$\Sigma_1^,=\frac{\sum_{j=1}^m\gamma_{j1}(x_j-\mu_1)(x_j-\mu_1)^T}{\sum_{j=1}^m\gamma_{j1}}=\begin{pmatrix} 0.025 & 0.004 \\ 0.004 & 0.016 \\ \end{pmatrix}$

$\Sigma_2^,=\frac{\sum_{j=1}^m\gamma_{j2}(x_j-\mu_2)(x_j-\mu_2)^T}{\sum_{j=1}^m\gamma_{j2}}=\begin{pmatrix} 0.023 & 0.004 \\ 0.004 & 0.017 \\ \end{pmatrix}$

$\Sigma_3^,=\frac{\sum_{j=1}^m\gamma_{j3}(x_j-\mu_3)(x_j-\mu_3)^T}{\sum_{j=1}^m\gamma_{j3}}=\begin{pmatrix} 0.024 & 0.005 \\ 0.005 & 0.016 \\ \end{pmatrix}$

计算新混合系数（此例中m=30，因为有30个样本）
$\alpha_1^,=\frac{\sum_{j=1}^m\gamma_{j1}}{m}=0.361$

$\alpha_2^,=\frac{\sum_{j=1}^m\gamma_{j2}}{m}=0.323$

$\alpha_3^,=\frac{\sum_{j=1}^m\gamma_{j3}}{m}=0.316$

之后进行不断循环迭代，直到收敛或者规定次数后停止。下图是进行5轮、10轮、20轮、50轮迭代的划分结果。

在这里插入图片描述

9.5 密度聚类

密度聚类的定义
- 密度聚类也称为“基于密度的聚类”。
- 此类算法假设聚类结构能通过样本分布的紧密程度来确定。
- 通常情况下，密度聚类算法从样本密度的角度来考察样本之间的可连接性，并基于可连接样本不断扩展聚类簇来获得最终的聚类结果。

DBSCAN算法

是基于一组“邻域”参数
$(\epsilon,MinPts)$
来刻画样本分布的紧密程度。

$D=\{x_1,x_2,..,x_n\}$

基本概念:
- $\epsilon领域:对样本x_j\in D，其\epsilon邻域包含样本集D中与x_j的距离不大于\epsilon的样本$
- 核心对象：若
  $样本x_j的\epsilon邻域$
  至少包含MinPts个样本，则该样本点为一个核心对象
- 密度直达：
  $若样本x_j位于样本x_i的\epsilon邻域中，且x_i是一个核心对象，则称样本x_j由x_i密度直达$
- 密度可达：
  $对样本x_i与x_j,若存在样本序列p_1,p_2,...,p_n,其中p_1=x_i,p_n=x_j,且p_{i+1}由p_i密度直达，则该x_j由x_i密度可达;$
- 密度相连：
  $对样本x_i与x_j,若存在x_k使得x_i与x_j均由x_k密度可达，则称该两样本密度相连。$

在这里插入图片描述

“簇”的定义
- 由密度可达关系导出的最大密度相连样本集合。
“簇”的形式化描述
- 给定邻域参数
  $(\epsilon,MinPts)$
  簇是满足以下性质的非空样本子集:
  - 连接性:
    $x_i\in C,x_j\in C→x_i与x_j密度相连$
  - 最大性:
    $x_i\in C,x_i与x_j密度可达→x_j\in C$
- 实际上，若x为核心对象，由x密度可达的所有样本组成的集合记为
  $X=\{x'\in D|x'由x密度可达\}$
  则X为满足连接性与最大性的簇。

在这里插入图片描述

下图是西瓜数据集通过DBSCAN算法的聚类结果

优点
- 这种算法能够发现并排除噪声点的干扰
- 也比较稳定，多次的执行，结果大概率是一样的，就像图的广度优先遍历一样，最后形成的簇是固定的
- 算法执行速度快，因为属于一次性遍历结点。
缺点
- 需要不断调节参数
  $(\epsilon,MinPts)$
- 不适用样本不均匀的情况
- 样本较多的情况下，收敛时间会延长

在这里插入图片描述

9.6 层次聚类

层次聚类在不同层次对数据集进行划分，从而形成树形的聚类结构。数据集划分既可采用“自底向上”的聚合策略，也可采用“自顶向下”的分拆策略。
AGNES算法（自底向上的层次聚类算法)
- 首先，将样本中的每一个样本看做一个初始聚类簇，然后在算法运行的每一步中找出距离最近的两个聚类簇进行合并，该过程不断重复，直到达到预设的聚类簇的个数。
两个聚类簇
$C_i和C_j$
的距离，可以有3种度量方式
- 最小距离（单链接）:
  $d_{min}(C_i,C_j)=\min_{x\in C_i,z\in C_j}dist(x, z$
- 最大距离（全链接）:
  $d_{max}(C_i,C_j)=\max_{x\in C_i,z\in C_j}dist(x,z)$
- 平均距离（均链接）：
  $d_{avg}(C_i,C_j)=\frac{1}{|C_i||C_j|}\sum_{x\in C_i}\sum_{z\in C_j}dist(x,z)$

AGNES算法如下：

在这里插入图片描述

现以一个具体例子为例，模拟AGNES算法流程

在这里插入图片描述

把5个样本分为5个簇
$C_1=\{x_1\}、C_2=\{x_2\}、C_3=\{x_3\}、C_4=\{x_4\}、C_5=\{x_5\}$
计算M距离矩阵（注意：是簇之间的距离）

1 2 3 4 5
1 0 1 √10 √20 3
2 1 0 √5 √17 2
3 √10 √5 0 √10 1
4 √20 √17 √10 0 √17
5 3 2 1 √17 0
设置当前聚类簇个数
$q = 5$
假设我们指定k=1（合并成一个簇），则接下来将开始合并
- 簇1和簇2距离最近（从编号小的开始扫描），则合并簇1和簇2，并将编号重新调整
  $C_1=\{x_1,x_2\}、C_2=\{x_3\}、C_3=\{x_4\}、C_4=\{x_5\}$
- 矩阵M中需要将原先簇2的信息删除，并且需要将新的簇1信息进行更改
  
  重新计算距离得到新的M矩阵
  
  1 2 3 4
  1 0 √5 √17 2
  2 √5 0 √10 1
  3 √17 √10 0 √17
  4 2 1 √17 0
  此时
  $q = 4$
- 完成第一次的聚类，接着继续找到距离最近的两个簇，分别是簇2和簇4，进行合并，并对编号进行调整
  $C_1=\{x_1,x_2\}、C_2=\{x_3,x_5\}、C_3=\{x_4\}$
- 矩阵M中需要将原先簇4的信息删除，并且需要将新的簇2信息进行更改
  
  重新计算距离得到新的M矩阵
  
  1 2 3
  1 0 2 √17
  2 2 0 √10
  3 √17 √10 0
  此时
  $q = 3$
- 完成第二次的聚类，接着继续找到距离最近的两个簇，分别是簇1和簇2，进行合并，并对编号进行调整
  $C_1=\{x_1,x_2,x_3,x_5\}、C_2=\{x_4\}$
- 矩阵M中需要将原先簇2的信息删除，并且需要将新的簇1信息进行更改
  
  重新计算距离得到新的M矩阵
  
  1 2
  1 0 √10
  2 √10 0
  此时
  $q = 2$
- 完成第三次的聚类，接着继续找到距离最近的两个簇，此时只剩簇1和簇2，进行最后一次合并
  $C_1=\{x_1,x_2,x_3,x_5,x_4\}$
- 完成第四次的聚类，结束
可以得到如下图所示的树状图

	1	2	3	4	5
1	0	1	√10	√20	3
2	1	0	√5	√17	2
3	√10	√5	0	√10	1
4	√20	√17	√10	0	√17
5	3	2	1	√17	0

	1	2	3	4
1	0	√5	√17	2
2	√5	0	√10	1
3	√17	√10	0	√17
4	2	1	√17	0

	1	2	3
1	0	2	√17
2	2	0	√10
3	√17	√10	0

	1	2
1	0	√10
2	√10	0

在这里插入图片描述

9.7 kmeans手动算法实现

导包

from numpy import *
import matplotlib. pyplot as plt
import pandas as pd
from matplotlib import pyplot as plt

导入数据

#鸢尾花卉数据集，是一类多重变量分析的数据集。数据集包含150个数据集，分为3类，每类5个数据，每个数据包含4个属性。
#可通过花萼的长度、花萼的宽度、花瓣的长度、花瓣的宽度4个属性预测鸢尾花卉属于(Setosa，Versicolour，Vixginica)三个种类中的哪一类。
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
names = ['sepal-length','sepal-width','petal-length','petal-width','class']#花萼的长度、花萼的宽度、花瓣的长度、花瓣的宽度、类别
dataset = pd.read_csv(url,names=names)
dataset['class'][dataset['class']=='Iris-setosa']=0
dataset['class'][dataset['class']=='Iris-versicolor']=1
dataset['class'][dataset['class']=='Iris-virginica']=2
#对类别进行编码，3个类别分别赋值0，1，2

计算距离

def distEclud(vecA,vecB):
    #两个向量间欧式距离
    return sqrt(sum(power(vecA-vecB,2)))

初始化整类中心

def randChosenCent(dataset,k):
    #样本数
    m=shape(dataset)[0]
    #初始化列表
    centroidsIndex=[]
    #生成类似子样本索引的列表
    dataIndex=list(range(m))
    for i in range(k):
        #生成随机数
        randIndex=random.randint(0,len(dataIndex))
        #将随机产生的样本的索引放入centroidsIndex
        centroidsIndex.append(dataIndex[randIndex])
        #删除已经被抽中的样本
        del dataIndex[randIndex]
    #根据索引获取样本
    centroids = dataset.iloc[centroidsIndex]
    return mat(centroids)

kMeans算法实现

def kMeans(dataset,k):
    #料本总数
    m=shape (dataset)[0]   #150*2
    #分配样本到最近的簇:存[簇序号,距离的平方]
    # m行2列
    c1usterAssment = mat(zeros((m,2)))
    
    #step1:
    #通过随机产生的祥本点初始化聚类中心
    centroids = randChosenCent(dataset,k)
    print('最初的中心=', centroids)

    #标志位，如聚迭代前后样本分类发生变化值为True，否则为False
    c1usterChanged = True
    #查看迭代次数
    iterTime=0
    #所有样本分配结果不再改变，迭代终止
    while c1usterChanged:
        c1usterChanged = False
        #step2:分配到最近的聚类中心对应的簇中
        for i in range(m):
            #初始定义距离为无穷大
            minDist = inf
            #初始化索引值
            minIndex = -1
            #计算每个样本与k个中心点距离
            for j in range(k):
                #计笄第i个样本到第j个中心点的距离
                distJI = distEclud(centroids[j,:],dataset.values[i,:])
                #判断距离是否为最小
                if distJI < minDist:
                    #更新获取到最小距离
                    minDist = distJI
                    #获耽对应的簇序号
                    minIndex = j
            #样本上次分配结果跟本次不一样，标志位clusterChanged置True
            if c1usterAssment[i,0]!=minIndex:
                clusterChanged = True
            c1usterAssment[i,:] = minIndex, minDist**2#分配样本到最近的簇
        iterTime+=1
        sse=sum(c1usterAssment[:,1])
        print('the SSE of %d'%iterTime+'th iteration is %f'%sse)
        #step3:更新聚类中心
        for cent in range(k):#样本分配结束后，重新计算聚类中心
            #获取该簇所有的样本点
            #nonzero函数是numpy中用于得到数组array中非零元素的位置
            #它的返回值是一个长度为
            ptsInClust=dataset.iloc[nonzero(c1usterAssment[:,0].A==cent)[0]]
            #更新聚类中心，axis=0沿列方向求均值
            centroids[cent,:]=mean(ptsInClust,axis=0)
    return centroids,c1usterAssment

二维空间聚类效果显示

def datashow(dataSet, k, centroids,clusterAssment):
    num,dim=shape (dataSet) #样本数num,维数dim
    
    if dim!=2:
        print ('sorry,the dimension of your dataset is not 2!')
        return 1
    marksamples=['or', 'ob', 'og', 'ok','"r','b', '<g']#样本图形标记
    if k>len(marksamples):
        print('sorry, your k is too large, please add length of the marksample!')
        return 1
    #绘所有样本
    for i in range(num):
        markindex=int(clusterAssment[i, 0])#矩阵形式转为int值，簇序号
        #特征维对应坐标轴x,y;样本图形标记及大小
        #区分iat,at, iloc, ioc ;
        #iat,iloc按照索引的位置来进行选取
        #at,loc是按照索引(index）的值来选取
        plt.plot(dataSet.iat[i,0],dataSet.iat[i,1],marksamples[markindex],markersize=6)

    #绘中心点
    markcentroids=['o','w','^']#聚类中心图形标记
    label=['0','i','2']
    c=['yellow','pink','red']
    for i in range(k):
        plt.plot(centroids[i,0],centroids[i, 1], markcentroids[i], markersize=15,label=label[i],c=c[i])
        plt.legend(loc = 'upper left')
    plt.xlabel('sepal 1ength')
    plt.ylabel('sepal width')
    plt.title('k-means cluster result')#标题
    plt.show()

实际图像

def trgartshow (dataset,k,labels):
    from matplotlib import pyplot as plt
    
    num,dim=shape (dataset)
    label=['0','1','2']
    marksamples=['ob','or','og','ok','r','b','<g']
    #通过循环的方武，完成分组散点图的绘制
    for i in range (num) :
        plt.plot(datamat. iat[i,0],datamat.iat[i,1],marksamples[int(labels.iat[i,0])],markersize=6)
    for i in range(0, num,50) :
        plt.plot(datamat.iat[i,0],datamat.iat[i,1],marksamples[int(labels.iat[i,0])],markersize=6,label=label)
    plt.legend(loc = 'upper left')
    #添加轴标签和标题
    plt.xlabel('sepal length')
    plt.ylabel('sepal width')
                 
    plt.title(' iris true result')
    plt.show()
    #label=labels.iatli,03

聚类前原始样本点的绘制

def originalDatashow(dataset):
    #样本的个数和特征维数
    num,dim=shape(dataset)
    marksamples=['ob'] #样本图形标记
    for i in range(num):
        plt.plot(datamat.iat[i,0],datamat.iat [i,1],marksamples[0],markersize=5)
    plt.title('original dataset')
    plt.xlabel('sepal length')
    plt.ylabel('sepal width')#标题
    plt.show()

if __name__=='__main__':
    datamat=dataset.loc[:,['sepal-length','sepal-width']]
    #真实的标签
    labels=dataset.loc[:,['class']]
    ##原始数据显示
    originalDatashow(datamat)
    
    ##kmeans聚类
    k=3#用户定义聚类数
    mycentroids,clusterAssment=kMeans(datamat,k)
    #mycentroids,clustcrAssment=kMeansSSE(datamat,k)
    #绘图显示
    datashow(datamat,k,mycentroids,clusterAssment)
    trgartshow(datamat,3,labels)

在这里插入图片描述

在这里插入图片描述
因为我们只取两个属性进行聚类分析，所以可以看到结果出现了一些偏差，可以看到聚类结果中第3类跟真实样本的结果差不多；因为第1类和第2类在真实的分类中，确实分隔得不太明显，所以对于聚类结果来说，第1类和第2类有点儿混在了一起，如果增加属性的维度，聚类的正确率可能会进一步提高

9.8 kmeans算法运用

导包

import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs

kmeans算法运用

plt.figure(figsize=(12,12))

n_samples=1500
random_state=170
X,y=make_blobs(n_samples=n_samples,random_state=random_state)
#sklearn.datasets.make_blobs(n_samples=100,n_features=2,center=3,cluster_std=1.0,center_box=(-10.0,10.0),shuffle=True,random_state=None)
#center=3:生成3个类

#Incorrect number if clusters
y_pred=KMeans(n_clusters=2,random_state=random_state).fit_predict(X)

plt.subplot(221)
plt.scatter(X[:,0],X[:,1],c=y_pred)
plt.title("Incorrect Number of Bolbs")

#Anisotropicly distributed data
transformation=[[0.60834549,-0.63667341],[-0.40887718,0.85253229]]
# transformation=[[0.6,-0.6],[-0.4,0.8]]
X_aniso=np.dot(X,transformation)#矩阵相乘
y_pred=KMeans(n_clusters=3,random_state=random_state).fit_predict(X_aniso)

plt.subplot(222)
plt.scatter(X_aniso[:,0],X_aniso[:,1],c=y_pred)
plt.title("Anisotropicly Distributed Blobs")

#Different variance
X_varied,y_varied=make_blobs(n_samples=n_samples,
                            cluster_std=[1.0,2.5,0.5],#三类数据的标准差
                            random_state=random_state)
y_pred=KMeans(n_clusters=3,random_state=random_state).fit_predict(X_varied)

plt.subplot(223)
plt.scatter(X_varied[:,0],X_varied[:,1],c=y_pred)
plt.title("Unequal Variance")

#Unevenly sized blobs
X_filtered=np.vstack((X[y==0][:500],X[y==1][:100],X[y==2][:10]))
y_pred=KMeans(n_clusters=3,random_state=random_state).fit_predict(X_filtered)

plt.subplot(224)
plt.scatter(X_filtered[:,0],X_filtered[:,1],c=y_pred)
plt.title("Unevenly Sized Blobs")

plt.show()

在这里插入图片描述

第一张图，我们错误设置了k的值，可以看到，k的值一旦设置错误，就算我们能够明显的看出这可以分成3类，但也无济于事
第二张图，我们将数据进行了一个拉伸，拉伸后的数据使得kmeans算法并不能很好的分辨出各自的类别
第三张图，我们设置了三组不同方差的数据，三撮数据的边缘并不能很好的进行归类，方差越大，该组的数据很容易就归为其他类
第4张图，我们取了不同大小的数据集，对kmeans算法的实现也产生了一定的影响

方寸星河yu

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【机器学习第9章——聚类】

机器学习第9章——聚类9.聚类9.1 聚类任务9.2 性能度量9.3 距离计算9.4 原型聚类9.4.1 k均值算法9.4.2 学习向量量化(LVQ)9.4.3 高斯混合聚类9.5 密度聚类DBSCAN算法9.6 层次聚类9.7 kmeans手动算法实现9.8 kmeans算法运用9.聚类9.1 聚类任务在“无监督学习”任务中研究最多、应用最广.聚类目标：将数据集中的样本划分为若干个通常不相交的子集（“簇”，cluster）聚类既可以作为一个单独过程（用于找寻数据内在的分布结构)，也可
复制链接

扫一扫