其他算法-高斯混合模型

最新推荐文章于 2024-07-20 23:39:37 发布

tzc_fly

最新推荐文章于 2024-07-20 23:39:37 发布

阅读量498

点赞数 1

分类专栏：白景屹-算法栈文章标签：算法人工智能数据分析

本文链接：https://blog.csdn.net/qq_40943760/article/details/114538858

版权

白景屹-算法栈专栏收录该内容

29 篇文章 4 订阅

订阅专栏

高斯模型

单高斯模型

当样本数据 $x\in\mathbb{R}$ 是一维时，高斯分布服从以下概率密度函数：
$P(x|\theta)=\frac{1}{\sqrt{2\pi\sigma^{2}}}exp(-\frac{(x-\mu)^{2}}{2\sigma^{2}})$
其中， $\mu$ 为数据均值（期望）， $\sigma$ 为数据标准差；

当样本数据 $x\in\mathbb{R}^{D}$ 是多维时，高斯分布服从以下概率密度函数：
$P(x|\theta)=\frac{1}{(2\pi)^{\frac{D}{2}}|\sum|^{\frac{1}{2}}}exp(-\frac{(x-\mu)^{T}\sum^{-1}(x-\mu)}{2})$
其中， $\mu\in\mathbb{R}^{D}$ 为数据均值（期望）， $\sum\in\mathbb{R}^{D\times D}$ 为数据的协方差矩阵（协方差矩阵回顾其他算法-卡尔曼滤波器）， $D$ 为数据维度；

高斯混合模型GMM

高斯混合模型（Gaussian Mixture Model）可以看作是由多个单高斯模型集成的模型，理论上，混合模型可以使用任何的概率分布作为子模型，使用高斯模型是因为高斯分布具有更广泛的物理意义。

比如对以下二维数据：
fig1
如果仅通过单高斯模型，是不能很好拟合其分布的，但通过（多峰的）高斯混合模型，可以较容易拟合该数据的分布。

定义以下信息：

$x_{j}$ 表示第 $j$ 个观测数据， $j = 1, 2, . . ., N$
$K$ 是混合模型中子高斯模型的数量， $k = 1, 2, . . ., K$
$\alpha_{k}$ 是观测数据的混合系数，反映了第 $k$ 个子模型在决定数据分布时占有的权重，满足：
$\sum_{k=1}^{K}\alpha_{k}=1$
$\phi(x|\theta_{k})$ 是第 $k$ 个子模型的高斯分布密度函数（单高斯模型）， $\theta_{k}=(\mu_{k},\sum_{k})$

因此，高斯混合模型的概率分布为：
$P(x|\theta)=\sum_{k=1}^{K}\alpha_{k}\phi(x|\theta_{k})$

参数估计

单高斯模型参数估计-极大似然

对于单高斯模型，可以用极大似然法估计参数 $\theta$ 的值：
$\theta=argmax_{\theta}L(\theta)$
假设每个数据点相互独立，似然函数（Likelihood）可以通过各个数据点的概率密度连乘得到，为了便于计算，可以在似然函数上取对数（Log-Likelihood）：
$L(\theta)=\prod_{j=1}^{N}P(x_{j}|\theta)\rightarrow log(L(\theta))=\sum_{j=1}^{N}log(P(x_{j}|\theta))$

极大似然估计参数的推导过程回顾非线性规划-三种常见参数估计算法及联系

极大似然包括两个步骤：

1.找到似然函数
2.对似然函数求导，令导数为零，直接得到解

对于高斯混合模型，可以发现，其对数似然函数为：
$log(L(\theta))=\sum_{j=1}^{N}log(P(x_{j}|\theta))=\sum_{j=1}^{N}log(\sum_{k=1}^{K}\alpha_{k}\phi(x_{j}|\theta_{k}))$
这里不能像单高斯模型一样使用极大似然法求导，以获得似然函数的最大参数，因为对一个数据点而言，存在 $K$ 组未知的参数[ $\alpha_{k},\theta_{k}$ ]，考虑通过迭代的方法求解；

高斯混合模型参数估计-EM算法

EM算法回顾 非线性规划-三种常见参数估计算法及联系，对于GMM，隐变量来自 $K$ 个子模型；假设样本数据为{ $x_{1},x_{2},...,x_{N}$ }，EM算法过程如下：

1.根据jensen不等式定义对数似然函数的下界
$\sum_{j=1}^{N}log(\sum_{k=1}^{K}\alpha_{k}\phi(x_{j}|\theta_{k}))\Rightarrow \sum_{j=1}^{N}\sum_{k=1}^{K}\gamma_{jk}log(\frac{\alpha_{k}\phi(x_{j}|\theta_{k})}{\gamma_{jk}})$
2.E步：根据当前参数，计算期望
$\gamma_{jk}=\frac{\alpha_{k}\phi(x_{j}|\theta_{k})}{\sum_{k=1}^{K}\alpha_{k}\phi(x_{j}|\theta_{k})}$
代入下界函数作为新的似然函数：
$L(\theta)=\sum_{j=1}^{N}\sum_{k=1}^{K}\gamma_{jk}log(\frac{\alpha_{k}\phi(x_{j}|\theta_{k})}{\gamma_{jk}})$
3.M步：极大似然
$\theta=argmax_{\theta}(L(\theta))$
通过解导数为零的根，可以更新参数 $\theta=\alpha_{k},\mu_{k},\sum_{k},k=\left\{1,2,...,K\right\}$ ：
$\mu_{k}=\frac{\sum_{j=1}^{N}\gamma_{jk}x_{j}}{\sum_{j=1}^{N}\gamma_{jk}},\sum_{k}=\frac{\sum_{j=1}^{N}\gamma_{jk}(x_{j}-\mu_{k})(x_{j}-\mu_{k})^{T}}{\sum_{j=1}^{N}\gamma_{jk}},\alpha_{k}=\frac{\sum_{j=1}^{N}\gamma_{jk}}{N},k=1,2,..,K$
4.检验模型是否收敛，如果不收敛，则回到第2步

使用EM算法迭代多次后，可以得到高斯混合模型的参数，注意：EM 算法具备收敛性，但并不保证找到全局最大值，有可能找到局部最大值。解决方法是初始化几次不同的参数进行迭代，取结果最好的那次；

GMM与k-means

k-means回顾 机器学习笔记本-K均值算法，GMM与k-means都常用作聚类算法，两者都使用EM算法进行参数估计（学习），两者的比较如下：

相同点：

都是迭代执行的算法，且迭代的策略也相同：算法开始执行时先对需要计算的参数赋初值，然后交替执行两个步骤，一个步骤是对数据的估计（k-means是估计每个点所属簇；GMM是计算隐含变量的期望）；第二步是用上一步算出的估计值重新计算参数值，更新目标参数（k-means是计算簇心位置；GMM是计算各个高斯分布的均值和协方差矩阵以及混合系数）；
k-means可以看成是一种特殊的GMM

不同点：