基础学习：高斯混合模型GMM

最新推荐文章于 2024-07-16 17:56:45 发布

BarbaraChow

最新推荐文章于 2024-07-16 17:56:45 发布

阅读量2k

点赞数 1

分类专栏：信号处理

原文链接：https://blog.csdn.net/lin_limin/article/details/81048411

版权

信号处理专栏收录该内容

46 篇文章 41 订阅

订阅专栏

高斯混合模型（Gaussian Mixture Model）

首先看一个图直观理解：

包含三个高斯分量的一个维度的GMM是如何由其高斯分量叠加而成

在这里插入图片描述
基本原理：

在这里插入图片描述
＝＝》混合模型＋高斯模型　组成

１.混合模型（MIxture　Model）
混合模型是一个可以用来表示在总体分布（distribution）中含有 K 个子分布的概率模型，换句话说，混合模型表示了观测数据在总体中的概率分布，它是一个由 K 个子分布组成的混合分布。混合模型不要求观测数据提供关于子分布的信息，来计算观测数据在总体分布中的概率。

２.高斯模型（Gauss　Model）
分为　单高斯模型（样本数据一维；适合两分类）和高斯混合模型（多维；多分类）

－单高斯混合模型
当样本数据 X 是一维数据（Univariate）时，高斯分布遵从下方概率密度函数（Probability Density Function）：
在这里插入图片描述
其中μ为数据均值（期望），σ ＾2为数据标准差（Standard deviation）
当样本数据 X＝（x１，ｘ２，）是多维数据（Multivariate）时，高斯分布为联合概率密度函数：

其中， μ为数据均值（期望），σ ＾2为数据协方差（Covariance），D 为数据维度。
注意与一维高斯分布不同，其中x是维数为d的样本向量（列向量），表明样本ｘ属于类别的概率大小。

２．高斯混合模型
高斯混合模型可以看作是由 K 个单高斯模型组合而成的模型，这 K 个子模型是混合模型的隐变量（Hidden variable）。一般来说，一个混合模型可以使用任何概率分布，这里使用高斯混合模型是因为高斯分布具备很好的数学性质以及良好的计算性能。
GMM的概率密度函数如下：
K:类别；πk:权重（或第K类被选中的概率）；

在这里插入图片描述

本质：融合几个单高斯模型来使得模型更加复杂，从而产生更复杂的样本。理论上，如果某个混合高斯模型融合的高斯模型个数足够多，它们之间的权重设定得足够合理，这个混合模型可以拟合任意分布的样本。

二维混合高斯：曲面；三维混合高斯：三维曲面。
通过调整混合高斯分布的系数(π,μ,Σ)，可以使得概率密度曲面去拟合任意的三维曲面，从而采样生成所需要的数据样本。

总结：
①均值μ：决定各维变量的中心位置，（０，０）则表示在坐标轴中间。
②对于协方差矩阵，正对角线上的两个元素，即δ11和δ22表征的是x维和y维变量的方差，决定了整个高斯曲面在某一维度上的“跨度”，方差越大，“跨度”越大；
③协方差矩阵的负对角线上面的两个元素，即δ12和δ21（δ12=δ21）表征的是各维变量之间的相关性：δ12>0说明x与y呈正相关（x越大，y越大），其值越大，正相关程度越大；δ12<0呈负相关；否则不相关。等于０说明相互独立。

求解参数：(π,μ,Σ)
１.极大似然估计(Maximum Likehood Estimate, MLE)（最大化对数似然函数）
目的：找到一个合适的高斯分布（也就是确定高斯分布的参数μ , Σ），使得这个高斯分布能产生这组样本的可能性尽可能大。
在这里插入图片描述
怎么找到这个合适的高斯分布呢（在图8中的表示就是1~4哪个分布较为合适）？
这时候就用到　似然函数　了。
似然函数：
样本集Y＝ｙ１，ｙ２．．．假设样本的抽样是独立的，那么同时抽到这N个样本的概率，就是抽到每个样本概率的乘积，也就是样本集Y的联合概率。此联合概率即为似然函数：
在这里插入图片描述
对上式进行求导并令导数为0（即最大化似然函数，一般还会先转化为对数似然函数再最大化），所求出的参数就是最佳的高斯分布对应的参数。（最终可以得到序号1对应的高斯分布模型是最佳的模型。）
最大化似然函数的意义：通过使得样本集的联合概率最大来对参数进行估计，从而选择最佳的分布模型。

但是：
对于GMM，求解其参数（μ,Σ,π），使得由这组参数确定的GMM模型最有可能产生采样的样本。
要利用极大似然估计求解模型最重要的一步就是求出似然函数，即样本集出现的联合概率。而对于混合高斯模型，如何求解某个样本yt 的概率？显然我们得先知道这个样本来源于哪一类高斯模型，然后求这个高斯模型生成这个样本的概率p(yt )。
但是，我们只有样本，不知道样本到底来源于哪一类的高斯模型。

总结：
如果我们已经清楚了某个变量服从的高斯分布，而且通过采样得到了这个变量的样本数据，想求高斯分布的参数，这时候极大似然估计可以胜任这个任务；而如果我们要求解的是一个混合模型，只知道混合模型中各个类的分布模型（譬如都是高斯分布）和对应的采样数据，而不知道这些采样数据分别来源于哪一类（隐变量），那这时候就可以借鉴EM算法。EM算法可以用于解决数据缺失的参数估计问题（隐变量的存在实际上就是数据缺失问题，缺失了各个样本来源于哪一类的记录）。

２.EM算法
是一种迭代算法，1977 年由 Dempster 等人总结提出，用于含有隐变量（Hidden variable）的概率模型参数的最大似然估计。
每次迭代包含两个步骤：

E-step：求期望
M-step：求极大，计算新一轮迭代的模型参数
在这里插入图片描述

EM算法

最大期望算法（Expectation-maximization algorithm，又译为期望最大化算法）。

在概率模型中寻找参数最大似然估计或者最大后验估计的算法，其中概率模型依赖于无法观测的隐性变量。最大期望算法经过两个步骤交替进行计算，
（1）计算期望 E，利用对隐藏变量的现有估计值，计算其最大似然估计值；
（2）最大化 M，最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中，这个过程不断交替进行。

它与极大似然估计MLE算法的区别：

比如两枚硬币A和B，5轮循环每轮循环10次，共计50次投币：