【机器学习】EM算法在高斯混合模型学习中的应用

最新推荐文章于 2020-03-04 23:25:13 发布

Day-yong

最新推荐文章于 2020-03-04 23:25:13 发布

阅读量1.4k

点赞数 5

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/Daycym/article/details/82716070

版权

机器学习专栏收录该内容

50 篇文章

订阅专栏

本文深入探讨了EM算法在高斯混合模型参数估计中的应用，从单个高斯分布出发，逐步推导至多个高斯混合模型，详细解析了EM算法的E步和M步，最终给出了高斯混合模型参数求解的完整流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

EM算法，此博客介绍了 $EM$ 算法相关理论知识，看本篇博客前先熟悉 $EM$ 算法。

本篇博客打算先从单个高斯分布说起，然后推广到多个高斯混合起来，最后给出高斯混合模型参数求解过程。

单个高斯分布

假如我们有一些数据，这些数据来自同一个高斯分布（独立同分布），那个我们如何根据这些数据估计出这个高斯分布的参数呢？我们知道只要知道高斯分布的参数 $\theta=\{\mu,\sigma^2\}$ 就能确定此高斯分布。

从上图中，我们要想知道数据是来自哪个高斯分布，我们就要知道高斯分布的参数，直观上可以认定数据来自参数为

θ1 θ 1 $\theta_1$ 的高斯分布，然而这毕竟是我们直观上的，那么我们应该如何根据数据估计高斯分布的参数呢？

假设数据为 $X = \{x_1,x_2,...,x_N\}，x_i$ 独立同分布 $p(X|\theta)$ ，其中 $\theta=\{\mu,\sigma^2\}$ ;

由贝叶斯公式知：

p (θ | X) \propto p (X | θ) p (θ)

$p(\theta|X) \propto p(X|\theta)p(\theta)$

p(θ|X) p ( θ | X ) $p(\theta|X)$ 为后验概率，

p(X|θ) p ( X | θ ) $p(X|\theta)$ 为似然度，

p(θ) p ( θ ) $p(\theta)$ 为先验概率。

关于贝叶斯公式的，可参考我之前的博客，里面有提到：链接

不加上先验概率，就是极大似然估计；
加上先验概率，就是极大后验概率估计
这里我们只介绍极大似然估计，极大后验概率估计类似

（1）写出对数似然函数

L (θ | X) = l o g [p (X | θ)] = \sum i = 1 N l o g p (x i | θ) = \sum i = 1 N l o g [1 2 π - - \sqrt σ e x p (- ( x i - μ ) 2 2 σ 2)]

$\mathcal{L}(\theta|X) = log\ [p(X|\theta)] \\ = \sum_{i=1}^N log\ p(x_i|\theta)\\ = \sum_{i=1}^N log\ [\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x_i - \mu)^2}{2\sigma^2})]$

（2）求极大似然估计

分别对 $\mu,\sigma$ 求偏导，并令为0：

\partial L ( θ | X ) \partial μ = \partial ( \sum N i = 1 l o g [ 1 2 π \sqrt σ e x p ( - ( x i - μ ) 2 2 σ 2 ) ] ) \partial μ = \partial ( \sum N i = 1 l o g [ e x p ( - ( x i - μ ) 2 2 σ 2 ) ] ) \partial μ = \partial ( \sum N i = 1 - ( x i - μ ) 2 2 σ 2 ) \partial μ = - \sum i = 1 N ( x i - μ ) σ 2 = 0

$\frac{\partial\mathcal{L}(\theta|X)}{\partial\mu} = \frac{\partial(\sum_{i=1}^N log\ [\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x_i - \mu)^2}{2\sigma^2})])}{\partial\mu} \\ =\frac{\partial(\sum_{i=1}^Nlog[exp(-\frac{(x_i - \mu)^2}{2\sigma^2})])}{\partial \mu} \\ =\frac{\partial(\sum_{i=1}^N-\frac{(x_i - \mu)^2}{2\sigma^2})}{\partial \mu} = - \sum_{i=1}^N\frac{(x_i - \mu)}{\sigma^2} = 0$
由此得到

μ μ $\mu$ 的似然估计为：

μ M L E = 1 N \sum i = 1 N x i

$\mu_{MLE} = \frac{1}{N} \sum_{i=1}^Nx_i$

\partial L ( θ | X ) \partial σ = \partial ( \sum N i = 1 l o g [ 1 2 π \sqrt σ e x p ( - ( x i - μ M L E ) 2 2 σ 2 ) ] ) \partial σ = \partial \sum N i = 1 l o g 1 2 π \sqrt σ \partial σ + \partial ( \sum N i = 1 l o g [ e x p ( - ( x i - μ M L E ) 2 2 σ 2 ) ] ) \partial σ = \sum i = 1 N - (1 2 π - - \sqrt σ) 2 π - - \sqrt + \partial ( \sum N i = 1 - ( x i - μ M L E ) 2 2 σ 2 ) \partial σ = - N + \sum N i = 1 ( x i - μ M L E ) 2 σ 2 = 0

$\frac{\partial\mathcal{L}(\theta|X)}{\partial\sigma} = \frac{\partial(\sum_{i=1}^N log\ [\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x_i - \mu_{MLE})^2}{2\sigma^2})])}{\partial\sigma}\\ = \frac{\partial\sum_{i=1}^Nlog\frac{1}{\sqrt{2\pi}\sigma}}{\partial\sigma}+\frac{\partial(\sum_{i=1}^Nlog[exp(-\frac{(x_i - \mu_{MLE})^2}{2\sigma^2})])}{\partial\sigma} \\ =\sum_{i=1}^N-(\frac{1}{\sqrt{2\pi}\sigma})\sqrt{2\pi} + \frac{\partial(\sum_{i=1}^N-\frac{(x_i - \mu_{MLE})^2}{2\sigma^2})}{\partial \sigma} \\ =-N+\frac{\sum_{i=1}^N(x_i - \mu_{MLE})^2}{\sigma^2} = 0$
其中用到

d log(1x)dx=−1x d l o g ( 1 x ) d x = − 1 x $\frac{d \ log(\frac{1}{x})}{dx} = -\frac{1}{x}$
得到

σ2 σ 2 $\sigma^2$ 的似然估计为：

σ 2 = \sum N i = 1 ( x i - μ M L E ) 2 N

$\sigma^2 = \frac{\sum_{i=1}^N(x_i - \mu_{MLE})^2}{N}$

综上我们可以表述为：

θ = a r g max θ [\sum i = 1 N l o g N (x i | μ, σ 2)]

$\theta = arg \max_{\theta} [\sum_{i=1}^{N}log \ \mathcal{N}(x_i|\mu,\sigma^2)]$

μ \to \partial L ( μ , σ 2 | X ) \partial μ σ 2 \to \partial L ( μ , σ 2 | X ) \partial σ

$\mu \rightarrow \frac{\partial \mathcal{L}(\mu, \sigma^2|X)}{\partial \mu} \\ \sigma^2 \rightarrow \frac{\partial \mathcal{L}(\mu, \sigma^2|X)}{\partial \sigma}$