机器学习之高斯混合模型

最新推荐文章于 2024-04-19 10:23:42 发布

_bigPo

最新推荐文章于 2024-04-19 10:23:42 发布

阅读量1k

点赞数

分类专栏：机器学习文章标签：机器学习 GMM

本文链接：https://blog.csdn.net/firethelife/article/details/51283803

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

高斯混合模型可以看做是EM算法的应用之一，下面尝试对迭代公式进行推导。

假设我们有一批观测到的样本，这些样本可能来自于k个不同参数的高斯分布，我们如何根据观测到的样本来估计这k个高斯模型的参数呢？

下面我们尝试直接带入EM算法
E-step：

Q i (z (i) = j) = p (z (i) = j ∣ x (i); ϕ, μ, Σ)

$Q_i(z^{(i)} = j) = p(z^{(i)} = j\mid x^{(i)}; \phi, \mu, \Sigma)$
上式表征的是样本

x(i) $x^{(i)}$ 来自于第

j $j$ 个高斯分布的概率，为简单起见，记为

w(i)j=Qi(z(i)=j) $w_j^{(i)} = Q_i(z^{(i)} = j)$

M-step：我们需要最大化下式：

\sum i \sum z (i) Q i (z (i)) l o g p ( x ( i ) , z ( i ) ; θ ) Q i ( z ( i ) ) = \sum i = 1 m \sum z (i) Q i (z (i)) l o g p ( x ( i ) , z ( i ) ; ϕ , μ , Σ ) Q i ( z ( i ) ) = \sum i = 1 m \sum j = 1 k Q i (z (i) = j) l o g p ( x ( i ) ∣ z ( i ) = j ; ϕ , μ , Σ ) p ( z ( i ) = j ; ϕ ) Q i ( z ( i ) = j ) = \sum i = 1 m \sum j = 1 k w (i) j l o g 1 ( 2 π ) n / 2 | Σ j | 1 / 2 e x p ( - 1 2 ( x ( i ) - μ j ) T Σ - 1 j ( x ( i ) - μ j ) ) ϕ j w ( i ) j

$\begin{align} &\sum_i\sum_{z^{(i)}} Q_i(z^{(i)})\mathrm{log}\frac{p(x^{(i)}, z^{(i)}; \theta)}{Q_i(z^{(i)})} \\ &= \sum_{i=1}^{m}\sum_{z^{(i)}}Q_i(z^{(i)})\mathrm{log}\frac{p(x^{(i)}, z^{(i)}; \phi, \mu, \Sigma)}{Q_i(z^{(i)})} \\ &= \sum_{i=1}^{m}\sum_{j=1}^k Q_i(z^{(i)} = j)\mathrm{log}\frac{p(x^{(i)}\mid z^{(i)} = j; \phi, \mu, \Sigma)p(z^{(i)} = j; \phi)}{Q_i(z^{(i)} = j)} \\ &= \sum_{i=1}^{m}\sum_{j=1}^k w_j^{(i)} \mathrm{log}\frac{\frac{1}{(2\pi)^{n/2}|\Sigma_j|^{1/2}}\mathrm{exp}\left(-\frac12(x^{(i)}-\mu_j)^T\Sigma_j^{-1}(x^{(i)}-\mu_j)\right)\phi_j}{w_j^{(i)}} \end{align}$

为后续简单起见，我们将上式的最终结果成为 M 式

我们依次对参数 $\phi, \mu, \Sigma$ 求极大值
1. 参数 $\phi_j$ 表征的是第j个高斯分布在所有分布中所占的分量。因此这里隐含着一个限制条件 $\sum_{j=1}^{k}\phi_j = 1$

求带有条件的极值问题，我们使用拉格朗日乘子法，另外由于最后要对 $\phi_j$ 求微分，去除无关变量（微分后为0）后，M式可化简为：

\sum i = 1 m \sum j = 1 k w (i) j l o g ϕ j

$\sum_{i=1}^{m}\sum_{j=1}^k w_j^{(i)} \mathrm{log}\phi_j$
因此拉格朗日式子可以写作如下：

L (ϕ) = \sum i = 1 m \sum j = 1 k w (i) j l o g ϕ j + β (\sum j = 1 k ϕ j - 1)

$\mathcal{L}(\phi) = \sum_{i=1}^{m}\sum_{j=1}^k w_j^{(i)} \mathrm{log}\phi_j + \beta(\sum_{j=1}^k \phi_j - 1)$
对

ϕj $\phi_j$ 求微分：

\partial \partial ϕ j L (ϕ) = \sum i = 1 m w ( i ) j ϕ j + β

$\frac{\partial}{\partial \phi_j}\mathcal{L}(\phi) = \sum_{i=1}^{m}\frac{w_j^{(i)}}{\phi_j } + \beta$
令上式为 0 可得：

ϕ j = \sum m i = 1 w ( i ) j - β

$\phi_j = \frac{\sum_{i=1}^{m}w_j^{(i)}}{-\beta}$

这里的 $-\beta$ 等于什么呢？应用限制条件： $\sum_{j=1}^{k}\phi_j = 1$ 可知：

- β = \sum i = 1 m \sum j = 1 k w (i) j = \sum i = 1 m 1 = m

$\begin{align} -\beta &= \sum_{i=1}^{m}\sum_{j=1}^k w_j^{(i)} \\ &= \sum_{i=1}^{m} 1\\ &= m \end{align}$
从而得到

ϕj $\phi_j$ 的更新公式：

ϕ j : = 1 m \sum j = 1 k w (i) j

$\phi_j := \frac{1}{m}\sum_{j=1}^k w_j^{(i)}$
2. 参数

μj $\mu_j$ 表征的是第j个高斯分布的均值
同样的，去除M式中与

μj $\mu_j$ 不相关的变量，然后对

μj $\mu_j$ 求导：

\nabla μ j \sum i = 1 m \sum j = 1 k w (i) j (- 1 2 (x (i) - μ j) T Σ - 1 j (x (i) - μ j)) = 1 2 \sum i = 1 m w (i) j (Σ - 1 j (x (i) - μ j) - w (i) j (x (i) - μ j) T Σ - 1 j) = \sum i = 1 m w (i) j (Σ - 1 j x (i) - Σ - 1 j μ j)

$\begin{align} &\nabla_{\mu_j}\sum_{i=1}^{m}\sum_{j=1}^k w_j^{(i)}\left(-\frac12(x^{(i)}-\mu_j)^T\Sigma_j^{-1}(x^{(i)}-\mu_j)\right) \\ &= \frac12\sum_{i=1}^{m}w_j^{(i)}(\Sigma_j^{-1}(x^{(i)}-\mu_j) - w_j^{(i)}(x^{(i)}-\mu_j)^T\Sigma_j^{-1}) \\ &= \sum_{i=1}^{m}w_j^{(i)}(\Sigma_j^{-1}x^{(i)}-\Sigma_j^{-1}\mu_j) \end{align}$
令上式为0可以得到关于参数

μj $\mu_j$ 的更新式子：

μ j : = \sum m i = 1 w ( i ) j x ( i ) \sum m i = 1 w ( i ) j

$\mu_j := \frac{\sum_{i=1}^{m}w_j^{(i)}x^{(i)}}{\sum_{i=1}^{m}w_j^{(i)}}$
3. 参数

Σj $\Sigma_j$ 表征的是第j个高斯分布的协方差矩阵
类似的我们先简化M式，并对

Σj $\Sigma_j$ 求导可得：

\nabla Σ j \sum i = 1 m \sum j = 1 k w (i) j (- 1 2 l o g | Σ j | - 1 2 (x (i) - μ j) T Σ - 1 j (x (i) - μ j)) = - 1 2 \sum i = 1 m w (i) j (Σ - 1 j - (x (i) - μ j) T Σ - 2 j (x (i) - μ j))

$\begin{align} &\nabla_{\Sigma_j}\sum_{i=1}^{m}\sum_{j=1}^k w_j^{(i)}\left(-\frac12\mathrm{log}|\Sigma_j|-\frac12(x^{(i)}-\mu_j)^T\Sigma_j^{-1}(x^{(i)}-\mu_j)\right) \\ &= -\frac12\sum_{i=1}^{m}w_j^{(i)}\left(\Sigma_j^{-1}-(x^{(i)}-\mu_j)^T\Sigma_j^{-2}(x^{(i)}-\mu_j)\right) \end{align}$
令上式为0可以得到关于参数

Σj $\Sigma_j$ 的更新式子：