机器学习 —— 3 聚类（K均值和高斯混合模型）

最新推荐文章于 2023-09-06 10:21:01 发布

ashome123

最新推荐文章于 2023-09-06 10:21:01 发布

阅读量987

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/ashome123/article/details/112943433

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

本文详细介绍了两种无监督学习的聚类算法：K均值(K-means)和高斯混合模型(GMM)。K-means通过迭代更新聚类中心实现样本分类，而GMM利用多个高斯分布拟合数据，每个样本可同时属于多个类别。两种算法都使用EM算法进行参数更新，GMM更灵活地考虑了样本属于各类别的概率。

摘要由CSDN通过智能技术生成

前言

聚类是一种无监督学习方法，把相似的对象通过静态分类的方法分成不同的组别或子集合，使得同一类别或子集中的对象具有相似的属性，在数据挖掘、模式识别、图像分析、数据分析中具有广泛的应用。

一、K均值算法(K-means)

目标：将所有数据样本聚类成 $K$ 个类别。即找到 $k$ 个聚类中心 $\mu_1,\mu_2,...,\mu_K$ ，则每个样本点的聚类类别为与之最近的聚类中心所对应类别。

1.模型定义

数据集中有 $N$ 个样本： ${x_1, x_2, ...,x_N\}$ ，对于每个样本 $x_n$ ，定义其聚类类别 $r_n, r_n\in \mathbb{R}^K$ .
$r_n$ 相当于类别的one-hot表示，是一个 $K$ 维的向量，即如果 $x_n$ 属于第 $k$ 个聚类类别，则其第 $k$ 个维度 $r_{nk}=1$ ，其余维度为 $0$ 。例如 $r_n=[0,0,1,0]^{\mathrm{T}}$ 表示聚类类别一共4类，且样本 $x_n$ 属于第3类。
模型的目标函数定义如下：
$J=\sum^N_{n=1}\sum^K_{k=1}r_{nk}\parallel \textbf{x}_n - \mu_k \parallel^2$

2.模型算法

目标函数中包含有类别中心 $\mu$ 和样本所属类别 $r_n$ 这两类可更新的参数，可以利用EM算法对其进行更新：
首先随机初始化 $K$ 个聚类中心 $\mu_1$ 到 $\mu_K$ ，然后使用EM算法循环更新参数：

Expectation Step：在当前给定的聚类中心的条件下，计算并更新每个样本的期望类别：
$r_{nk}=\left\{ \begin{aligned} 1 & , & k=\argmin_j \parallel \textbf{x}_n-\mu_j \parallel \\ 0 & , & else \end{aligned} \right.$
Maximization Step:在当前给定的样本聚类类别条件下，按照最优化准则生成 $\mu_1$ 到 $\mu_k$ ：
将目标函数对参数 $\mu_k$ 求偏导并置零：
$\frac{\partial J}{\partial \mu_k} = 2\sum^N_{n=1}r_{nk}(\textbf{x}_n-\mu_k)=0$ 得到：
$\mu_k=\frac{\sum_nr_{nk}\textbf{x}_n}{\sum_nr_{nk}}$ 用该公式更新 $\mu_1$ 到 $\mu_k$

可通过观察目标函数 $J$ 的值判断是否收敛
在这里插入图片描述

二、高斯混合模型(GMM - Gaussian Mixture Model)

高斯混合模型的基本原理是将 $K$ 不同的高斯分布赋予不同的权重，相加在一起组成一个复杂的分布。理论上如果 $K$ 值以及权重的的选取得当，高斯混合模型可以拟合任何分布。

1.与K-means的异同

GMM与K-means的思想大致相同，即都需要寻找 $K$ 聚类中心，将所有样本进行分类。但K-means中每个聚类中心仅仅对应一个固定的点（只有均值 $\mu$ 这一个参数），每个样本只属于一个聚类类别，即距离它最近的聚类中心所对应的类别；而GMM中每个聚类中心对应的是一个高斯分布（拥有均值 $\mu$ 和方差 $\sigma^2$ 这两个参数），因为高斯分布的定义域是全体实数，因此每个样本将同时属于 $K$ 个聚类类别，但对应的概率不同，分类时选择概率最高的分布对应的聚类类别即可。

2.模型定义

对于 $N$ 个样本： ${x_1,x_2,...,x_N\}$ ，定义样本服从的分布为
$\sum_{k=1}^Kp(z_k)p(x|z_k)$ 上式相当于一个全概率公式，其中

$z_k$ ：表示第 $k$ 个聚类类别
$p(z_k)$ ：表示第 $k$ 个聚类类别的概率，在高斯分布中记为 $\pi_k$ ，并且满足所有类别的概率之和等于1，即 $\sum^K_{k=1}p(z_k)=\sum^K_{k=1}\pi_k=1$
$p(x|z_k)$ ：第 $k$ 个类别的高斯分布，定义为 $\mathcal{N}(x|\mu_k,\Sigma_k)$

因此可以将上述样本分布改写为：
$p(x|\pi,\mu,\Sigma)=\sum^K_{k=1}\pi_k\mathcal{N}(x|\mu_k,\Sigma_k) ,\quad s.t.\sum^K_{k=1}\pi_k=1$ 从这个式子中可以更好的看出，高斯混合模型实际上就是用 $K$ 个不同的加权和形成的分布来拟合真实的样本分布。那么模型中一共有三类参数需要学习：每个类别的权重 $\pi_k$ ，每个类别的均值 $\mu_k$ ，每个类别的方差 $\Sigma_k$

3.模型算法

(1) 几个定义

定义聚类类别 $z_k$ 的后验分布 $\gamma(z_k)$ ：
$\begin{aligned} \gamma(z_k) & = p(z_k|x) \\ & = \frac{p(z_k)p(x|z_k)}{\sum^K_{i=1}p(z_i)p(x|z_i)} \\ & = \frac{\pi_k \mathcal{N}(x|\mu_k,\Sigma_k)}{\sum^K_{i=1}\pi_i \mathcal{N}(x|\mu_i,\Sigma_i)} \end{aligned}$ 这样就可以通过后验分布计算样本 $x_i$ 属于聚类类别 $k$ 的概率 $\gamma(z_{ik})$ ，可以将其看做是样本 $x_i$ 的类别标签：
$\gamma(z_{ik}) = \frac{\pi_k \mathcal{N}(x_i|\mu_k,\Sigma_k)}{\sum^K_{i=1}\pi_i \mathcal{N}(x_i|\mu_i,\Sigma_i)}$
定义 $N_k$ 为属于第 $k$ 个聚类类别的样本数量（或期望）：
$N_k=\sum^N_{i=1}\gamma(z_{ik})$ 总样本数量 $N$ 可以改写为：
$N=\sum^K_{k=1}\sum^N_{i=1}\gamma(z_{ik})$

(2) 求解推导

对于类别权重 $\pi_k$ ，类别均值 $\mu_k$ ，以及类别方差 $\Sigma_k,$ 这三类参数，依旧采用EM算法进行更新学习：
首先写出对数似然函数：
$\begin{aligned} \ln L(x| \pi,\mu,\Sigma) & = \ln \prod^N_{i=1}p(x_i|\pi,\mu,\Sigma) \\ & = \ln \prod^N_{i=1}\sum^K_{k=1}\pi_k\mathcal{N}(x_i|\mu_k,\Sigma_k) \\ & = \sum^N_{i=1} \ln \sum^K_{k=1}\pi_k\mathcal{N}(x_i|\mu_k,\Sigma_k) \\ & = \sum^N_{i=1} \ln \sum^K_{k=1}\pi_k(2\pi)^{-\frac{D}{2}}\Sigma_k^{-\frac{1}{2}} \exp \left\{-\frac{1}{2}(x_i-\mu_k)^{\mathrm{T}}\Sigma^{-1}_k(x_i-\mu_k)\right\} \end{aligned}$

对 $\mu_k$ 求偏导：
$\begin{aligned} \frac{\partial}{\partial \mu_k}\ln L(x| \pi,\mu,\Sigma) & = -\sum^N_{i=1}\frac{\partial}{\partial \mu_k} \ln \sum^K_{k=1}\pi_k\mathcal{N}(x_i|\mu_k,\Sigma_k) \\ & = -\sum^N_{i=1} \frac{\pi_k\mathcal{N}(x_i|\mu_k,\Sigma_k)}{\sum^K_{k=1}\pi_k\mathcal{N}(x_i|\mu_k,\Sigma_k)} \cdot \Sigma^{-1}(x_i-\mu_k) \\ & = -\sum^N_{i=1}\gamma(z_{ik})\cdot \Sigma^{-1}(x_i-\mu_k) \end{aligned}$ 导数置零得：
$\mu_k=\frac{\sum^N_{i=1}\gamma(z_{ik})x_i}{\sum^N_{i=1}\gamma(z_{ik})} = \frac{1}{N_k}\sum^N_{i=1}\gamma(z_{ik})x_i$

对 $\Sigma_k$ 求偏导：
$\begin{aligned} \frac{\partial}{\partial \Sigma_k}\ln L(x| \pi,\mu,\Sigma) & = -\sum^N_{i=1}\frac{\partial}{\partial \Sigma_k} \ln \sum^K_{k=1}\pi_k\mathcal{N}(x_i|\mu_k,\Sigma_k) \\ & = \sum^N_{i=1} \frac{-\frac{1}{2}\Sigma^{-1}_k \cdot \pi_k\mathcal{N}(x_i|\mu_k,\Sigma_k) + \frac{1}{2}\Sigma^{-1}_k(x_i-\mu_k)(x_i-\mu_k)^{\mathrm{T}}\Sigma^{-1}_k\cdot\pi_k\mathcal{N}(x_i|\mu_k,\Sigma_k)}{\sum^K_{k=1}\pi_k\mathcal{N}(x_i|\mu_k,\Sigma_k)} \\ & = -\frac{1}{2}\sum^N_{i=1}\{\gamma(z_{ik})[\Sigma^{-1}_k - \Sigma^{-1}_k(x_i-\mu_k)(x_i-\mu_k)^{\mathrm{T}}\Sigma^{-1}_k]\} \end{aligned}$ 导数置零得：
$\begin{aligned} \Sigma_k & = \frac{1}{\sum^N_{i=1}\gamma(z_{ik})}\sum^N_{i=1}\gamma(z_{ik})(x_i-\mu_k)(x_i-\mu_k)^{\mathrm{T}} \\ & = \frac{1}{N_k}\sum^N_{i=1}\gamma(z_{ik})(x_i-\mu_k)(x_i-\mu_k)^{\mathrm{T}} \end{aligned}$

对 $\pi_k$ 求偏导：
由于模型对 $\pi$ 具有限制条件： $\sum^K_{k=1}\pi_k=1$ ，因此需要引入拉格朗日乘子 $\lambda(\sum^K_{k=1}\pi_k-1)$ ，再进行求导：
$\begin{aligned} \frac{\partial}{\partial \Sigma_k}[\ln L(x| \pi,\mu,\Sigma) - \lambda(\sum^K_{k=1}\pi_k-1)] & = \sum^N_{i=1}\frac{\mathcal{N}(x_i|\mu_k,\Sigma_k)}{\sum^K_{k=1}\pi_k\mathcal{N}(x_i|\mu_k,\Sigma_k)} - \lambda \\ & = \frac{1}{\pi_k}\left( \sum^N_{i=1} \frac{\mathcal{N}(x_i|\mu_k,\Sigma_k) \cdot \pi_k}{\sum^K_{k=1}\pi_k\mathcal{N}(x_i|\mu_k,\Sigma_k)} - \lambda \cdot \pi_k \right) \\ & = \frac{1}{\pi_k} \left( \sum^N_{i=1} \gamma(z_{ik}) - \lambda \cdot \pi_k \right) \\ \end{aligned}$ 导数置零，求得 $\lambda$ ：
$\sum^N_{i=1} \gamma(z_{ik}) - \lambda \cdot \pi_k = 0 \\ \sum^K_{k=1}\lambda \cdot \pi_k = \sum^K_{k=1}\sum^N_{i=1} \gamma(z_{ik}) \\ \lambda = \sum^K_{k=1}\sum^N_{i=1} \gamma(z_{ik})$ 所以最终得到：
$\pi_k=\frac{\sum^K_{k=1}\lambda \cdot \pi_k}{ \sum^K_{k=1}\sum^N_{i=1} \gamma(z_{ik})} = \frac{N_k}{N}$

(3) EM算法更新

首先随机初始化所有参数： $\pi_k,\mu_k,\Sigma_k$ ，其中 $k = 1, 2, . . ., K$ ，之后利用EM算法进行迭代更新。

Expectation Step：根据当前给定的参数 $\pi_k,\mu_k,\Sigma_k$ 计算所有样本的后验概率 $\gamma(z_{ik})$
$\gamma(z_{ik}) = \frac{\pi_k \mathcal{N}(x_i|\mu_k,\Sigma_k)}{\sum^K_{i=1}\pi_i \mathcal{N}(x_i|\mu_i,\Sigma_i)}$
Maximization Step:在当前给定的样本聚类类别条件下，按照最优化准则生成 $\mu_1$ 到 $\mu_k$ ：
$\left\{ \begin{aligned} \mu_k & = \frac{1}{N_k}\sum^N_{i=1}\gamma(z_{ik})x_i \\ \Sigma_k & = \frac{1}{N_k}\sum^N_{i=1}\gamma(z_{ik})(x_i-\mu_k)(x_i-\mu_k)^{\mathrm{T}} \\ \pi_k & = \frac{N_k}{N} \end{aligned} \right.$

ashome123

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
机器学习 —— 3 聚类（K均值和高斯混合模型）

文章目录前言一、K均值算法(K-means)1.模型定义2.模型算法二、使用步骤1.引入库2.读入数据总结前言聚类是一种无监督学习方法，把相似的对象通过静态分类的方法分成不同的组别或子集合，使得同一类别或子集中的对象具有相似的属性，在数据挖掘、模式识别、图像分析、数据分析中具有广泛的应用。一、K均值算法(K-means)目标：将所有数据样本聚类成KKK个类别。即找到kkk个聚类中心μ1,μ2,...,μK\mu_1,\mu_2,...,\mu_Kμ1,μ2,...,μK，则每个样本
复制链接

扫一扫

专栏目录