【ML】高斯混合模型GMM（生成模型）

最新推荐文章于 2024-07-13 08:13:16 发布

一只干巴巴的海绵

最新推荐文章于 2024-07-13 08:13:16 发布

阅读量2.5k

点赞数 5

分类专栏：机器学习

本文链接：https://blog.csdn.net/Hanx09/article/details/105218450

版权

机器学习专栏收录该内容

26 篇文章 2 订阅

订阅专栏

高斯混合模型（Gaussian Mixture Model）是一种业界广泛使用的聚类算法，该方法使用了高斯分布作为参数模型，并使用了EM算法进行训练。

高斯分布

高斯分布是一种常用的连续变量分布的模型。若单个随机变量 $x$ 服从均值为 $\mu$ ，方差为 $\sigma^2$ 的高斯分布，记为 $x~\mathcal{N}(\mu,\sigma^2)$ ，则其概率密度函数为：
$p\left(x | \mu, \sigma^{2}\right)=\frac{1}{\left(2 \pi \sigma^{2}\right)^{1 / 2}} \exp \left\{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right\}$

对于一个 $d$ 维向量 $x$ ，若其各元素服从均值为向量 $\mu$ ，协方差矩阵为 $\Sigma$ 的多元高斯分布，记为 $x~\mathcal{N}(\mu,\Sigma)$ ，则其概率密度函数为：
$p(\mathbf{x} | \mu, \Sigma)=\frac{1}{(2 \pi)^{D / 2}} \frac{1}{|\Sigma|^{1 / 2}} \exp \left\{-\frac{1}{2}(\mathbf{x}-\mu)^{\mathbf{T}} \Sigma^{-1}(\mathbf{x}-\mu)\right\}$

高斯分布函数求导

知识准备：
$\frac{\partial}{\partial x}(x^Ta)=\frac{\partial}{\partial x}(a^Tx)=a$

$\frac{\partial}{\partial x}(AB)=\frac{\partial A}{\partial x}B+A\frac{\partial B}{\partial x}$

$\frac{\partial}{\partial x}(A^{-1})=-A^{-1}\frac{\partial A}{\partial x}A^{-1}$

$\frac{\partial}{\partial x}\ln |A|=(A^{-1})^T$

高斯分布的对数似然函数为：
$\ln p(\mathbf{x} | \mu, \Sigma)=-\frac{D}{2}\ln(2\pi)-\frac{1}{2}\ln |\Sigma|-\frac{1}{2}(\mathbf{x}-\mu)^{\mathbf{T}} \Sigma^{-1}(\mathbf{x}-\mu)$
关于均值及协方差矩阵求导：
$\frac{\partial}{\partial \mu}\ln p(\mathbf{x} | \mu, \Sigma)=\Sigma^{-1}(\mathbf{x}-\mu)$

$\frac{\partial}{\partial \Sigma}\ln p(\mathbf{x} | \mu, \Sigma)=-\frac{1}{2}\Sigma^{-1}+\frac{1}{2}\Sigma^{-1}(\mathbf{x}-\mu)(\mathbf{x}-\mu)^T\Sigma^{-1}$
则，
$\frac{\partial}{\partial \mu}p(\mathbf{x} | \mu, \Sigma)=p(\mathbf{x} | \mu, \Sigma)\Sigma^{-1}(\mathbf{x}-\mu)$

$\frac{\partial}{\partial \Sigma} p(\mathbf{x} | \mu, \Sigma)=p(\mathbf{x} | \mu, \Sigma)\left[ -\frac{1}{2}\Sigma^{-1}+\frac{1}{2}\Sigma^{-1}(\mathbf{x}-\mu)(\mathbf{x}-\mu)^T\Sigma^{-1}\right]$

$\frac{\partial}{\partial \Sigma}\ln |\Sigma|=(\Sigma^{-1})^T=\Sigma^{-1}$

$\begin{aligned}\frac{\partial}{\partial \Sigma_{ij}}(\mathbf{x}-\mu)^{\mathbf{T}} \Sigma^{-1}(\mathbf{x}-\mu)&=(\mathbf{x}-\mu)^{\mathbf{T}} \frac{\partial \Sigma^{-1}}{\partial \Sigma_{ij}}(\mathbf{x}-\mu)\\ &=-(\mathbf{x}-\mu)^{\mathbf{T}} \Sigma^{-1}\frac{\partial \Sigma}{\partial \Sigma_{ij}}\Sigma^{-1}(\mathbf{x}-\mu)\\ &=-B^T\frac{\partial \Sigma}{\partial \Sigma_{ij}}B=-B_iB_j=-(BB^T)_{ij} \end{aligned}$
其中 $B=\Sigma^{-1}(\mathbf{x}-\mu)$ 为 $n\times1$ 列向量， $B_i$ 为B的第 $i$ 个元素； $\frac{\partial \Sigma}{\partial \Sigma_{ij}}$ 除了在第 $i$ 行第 $j$ 列为1外，其他位置处的值为0。
$\frac{\partial}{\partial \Sigma}(\mathbf{x}-\mu)^{\mathbf{T}} \Sigma^{-1}(\mathbf{x}-\mu)=-BB^T=-\Sigma^{-1}(\mathbf{x}-\mu)(\mathbf{x}-\mu)^T\Sigma^{-1}$

高斯混合模型

高斯混合模型（Gaussian Mixed Model）指的是多个高斯分布函数的线性组合，多个高斯分布的线性叠加能拟合非常复杂的密度函数：通过足够多的高斯分布叠加，并调节它们的均值，协方差矩阵，以及线性组合的系数，可以精确地逼近任意连续密度。

我们考虑 $K$ 个高斯分布的线性叠加，这个高斯混合分布(Gaussian mixture distiburion)的概率密度函数为：
$p(\mathbf{x})=\sum_{k=1}^{K} \pi_{k} p\left(\mathbf{x} | \mu_{\mathbf{k}}, \Sigma_{\mathbf{k}}\right)$
其中 $p\left(\mathbf{x} | \mu_{\mathbf{k}}, \Sigma_{\mathbf{k}}\right)$ 表示参数为 $\mu_{\mathbf{k}}$ ， $\Sigma_{\mathbf{k}}$ 的高斯分布的概率密度。每个高斯密度函数称为混合模型的一个分模型(component)，有自己的均值 $\mu_{\mathbf{k}}$ 和协方差矩阵 $\Sigma_{\mathbf{k}}$ 。式中的参数 $\pi_{k}$ 是模型的混合系数(mixing coefficients)，满足：
$\sum_{k=1}^{K}\pi_{k}=1,0\leq\pi_{k}\leq0$

高斯混合模型可以等价的写成：
$p(x)=\sum_{k=1}^{K}p(k)p(x|k)$
其中， $p(k)=\pi_{k}$ 代表选择第 $k$ 个分模型的先验概率； $p(x|k)=p\left(\mathbf{x} | \mu_{\mathbf{k}}, \Sigma_{\mathbf{k}}\right)$ 是 $x$ 对 $k$ 的条件概率密度； $p (k ∣ x)$ 是指在观测到 $x$ 后，其来自第 $k$ 个分模型的后验概率，称为第k个分模型的响应度。

设样本 $x$ 由一个高斯混合模型产生，即其是从 $K$ 个高斯分布中的某一个采样得到的，但具体是哪一个高斯分布不知道。引入一个 $K$ 维的二值型随机变量 $z=[z_{1},...,z_{K}]$ ，来表示样本 $x$ 由哪一分模型产生， $z$ 满足条件： $z_{k}\in\{0,1\}$ ，且 $\sum_{k=1}^{K}z_{k}=1$ ， $z_{k}=1$ 表示样本 $x$ 由分模型 $k$ 抽样得到，和为1表示样本 $x$ 只可能从一个高斯分布产生。 $z$ 一共有 $K$ 种可能的状态，其边缘分布由混合系数给出： $p(z_{k}=1)=\pi_k$ ，于是 $z$ 的分布可写作：
$p(z)=\prod_{k=1}^{K}\pi_{k}^{z_{k}},\quad \sum_{k=1}^{K}z_{k}=1$
来自高斯混合模型的样本 $x$ 可以看作由以下方式产生：

先以离散分布 $p (z)$ 抽样得到变量 $z$ ；
设根据 $z$ 的取值选择了第 $k$ 个分模型，则以高斯分布 $p(x|\mu_k, \Sigma_k)$ 抽样得到 $x$ 。

这个过程可由如下的概率图模型表示：
GMM
给定 $z$ 后 $x$ 的条件概率密度为：
$p(x|z_{k}=1)=p(x_|\mu_k, \Sigma_k)$
或者写成：
$p(x|z)=\prod_{k=1}^{K}p(x|\mu_k, \Sigma_k)^{z_{k}}$
$x$ 的边缘分布为联合概率分布 $p (x, z)$ 对 $z$ 的所有可能状态求和：
$\begin{aligned} p(x) &=\sum_{z} p(x, z)=\sum_{z} p(z) p(x | z) \\ &=\sum_{z}\left(\prod_{k=1}^{K} \pi_{k}^{z_{k}} \prod_{k=1}^{K} p\left(x | \mu_{k}, \Sigma_{k}\right)^{z_{k}}\right) \\ &=\sum_{z}\left(\prod_{k=1}^{K}\left[\pi_{k} p\left(x | \mu_{k}, \Sigma_{k}\right)\right]^{z_{k}}\right) \\ &=\sum_{k=1}^{K} \pi_{k} p\left(x | \mu_{k}, \Sigma_{k}\right) \end{aligned}$

观测到 $x$ 后，其来自第 $k$ 个分模型的后验概率(posterior responsibility)为：
$\begin{aligned} p\left(z_{k}=1 | x\right) &=\frac{p\left(z_{k}=1\right) p\left(x | z_{k}=1\right)}{p(x)} \\ &=\frac{\pi_{k} p\left(x | \mu_{k}, \Sigma_{k}\right)}{\sum_{j=1}^{K} \pi_{j} p\left(x | \mu_{j}, \Sigma_{j}\right)} \end{aligned}$

将上式定义为： $\gamma(z_{k})=p(z_{k}=1|x)$ ，称为第 $k$ 个分模型对 $x$ 的响应度(responsibility)。

高斯混合模型的参数估计

假设我们有数据集 $\mathbf{X}=\{x_1,...,x_N\}$ , 数据集 $\mathbf{X}$ 由一个高斯混合模型产生。要估计这个模型的参数： $\pi=\{\pi_1,...,\pi_K\}$ ， $\mu=\{\mu_1,...,\mu_K\}$ ， $\Sigma=\{\Sigma_1,...,\Sigma_K\}$ 。记 $x_n$ 对应的隐变量为 $z_n=[z_{n1},...,z_{nK}]$ ，则：
$p(z_n)=\prod_{k=1}^{K}\pi_{k}^{z_{nk}}$

$p(x_n|z_n)=\prod_{k=1}^{K}p(x_n|\mu_k, \Sigma_k)^{z_{nk}}$

$p(x_n)=\sum_{k=1}^{K} \pi_{k} p\left(x_n | \mu_{k}, \Sigma_{k}\right)$

$\gamma(z_{nk})=p\left(z_{nk}=1 | x_n\right)=\frac{\pi_{k} p\left(x_n | \mu_{k}, \Sigma_{k}\right)}{\sum_{j=1}^{K} \pi_{j} p\left(x_n|\mu_{j}, \Sigma_{j}\right)}$

最大似然估计

样本集 $X$ 的似然函数为：
$p(X|\pi,\mu,\Sigma)=\prod_{n=1}^{N}[\sum_{k=1}^{K}\pi_kp(x_n|\mu_k,\Sigma_k)]$
似然函数中的连乘求导比较麻烦，取自然对数将其转换成对数的和，得到对数似然函数:
$lnp(X|\pi,\mu\Sigma)=\sum_{n=1}^{N}ln[\sum_{k=1}^{K}\pi_kp(x_n|\mu_k,\Sigma_k)]$
其中，
$p(x_n|\mu_k,\Sigma_k)=\frac{1}{(2 \pi)^{d / 2}} \frac{1}{|\Sigma_k|^{1 / 2}} \exp \left\{-\frac{1}{2}(x_n-\mu_k)^{\mathbf{T}} \Sigma^{-1}(x_n-\mu_k)\right\}$
用最大似然估计来计算高斯混合模型的参数，即求解如下的优化问题：
$\begin{cases} \max_{\pi,\mu,\Sigma} ln p(X|\pi,\mu,\Sigma)\\ \\ s.t. \quad\sum_{k=1}^{K}\pi_k=1\end{cases}$

采用拉格朗日乘子法来求极值，拉格朗日函数为：
$L(\pi, \mu, \Sigma)=\ln p(X | \pi, \mu, \Sigma)+\lambda\left(\sum_{k=1}^{K} \pi_{k}-1\right)$

$L(\pi,\mu,\Sigma)$ 对 $\mu_k$ 求梯度：
$\begin{aligned} \frac{\partial L}{\partial \mu_{k}} &=\frac{\partial}{\partial \mu_{k}} \ln p(X | \pi, \mu, \Sigma) \\ &=\frac{\partial}{\partial \mu_{k}} \left(\sum_{n=1}^{N} \ln \left[\sum_{k=1}^{K} \pi_{k} p\left(x_{n} | \mu_{k}, \Sigma_{k}\right)\right]\right)\\ &=\sum_{n=1}^{N} \frac{\partial}{\partial \mu_{k}} \ln \left[\sum_{k=1}^{K} \pi_{k} p\left(x_{n} | \mu_{k}, \Sigma_{k}\right)\right] \\ &=\sum_{n=1}^{N}\left[\frac{\pi_{k} p\left(x_{n} | \mu_{k}, \Sigma_{k}\right)}{\sum_{j=1}^{K} \pi_{j} p\left(x_{n} | \mu_{j}, \Sigma_{j}\right)}\left[\Sigma_{k}^{-1}\left(x_{n}-\mu_{k}\right)\right]\right]\\&=\sum_{n=1}^{N}[\gamma(z_{nk})\Sigma_k^{-1}(x_n-\mu_k)] \end{aligned}$
令 $\frac{\partial L}{\partial \mu_{k}}=0$ ，即 $\sum_{n=1}^{N}[\gamma(z_{nk})\Sigma_k^{-1}(x_n-\mu_k)]=0$ ，左乘 $\Sigma_k$ ，得：
$\sum_{n=1}^{N}\left[\gamma\left(z_{n k}\right) x_{n}\right]=\sum_{n=1}^{N}\left[\gamma\left(z_{n k}\right) \mu_{k}\right]=\mu_{k} \sum_{n=1}^{N} \gamma\left(z_{n k}\right)$
定义 $N_k=\sum_{n=1}^{N}\gamma(z_{nk})$ ，可理解为被分配到第 $k$ 个分模型(聚类)的“有效“的样本数。则：

$\mu_k=\frac{1}{N_k} \sum_{n=1}^{N}[\gamma(z_{nk})x_n]$

对 $\Sigma_k$ 中各元素求偏导：
$\begin{aligned} \frac{\partial L}{\partial \Sigma_{k}} &=\frac{\partial }{\partial \Sigma_{k}}\ln p(X| \pi, \mu, \Sigma) \\ &=\frac{\partial}{\partial \Sigma_{k}}\left(\sum_{n=1}^{N} \ln \left[\sum_{k=1}^{K} \pi_{k} p\left(x_{n} | \mu_{k}, \Sigma_{k}\right)\right]\right) \\ &=\sum_{n=1}^{N} \frac{\partial}{\partial \Sigma_{k}} \ln \left[\sum_{k=1}^{K} \pi_{k} p\left(x_{n} | \mu_{k}, \Sigma_{k}\right)\right]\\ &=\sum_{n=1}^{N}\left[\frac{\pi_{k}}{\sum_{j=1}^{K} \pi_{j} p\left(x_{n} | \mu_{j}, \Sigma_{j}\right)} \frac{\partial }{\partial \Sigma_{k}}p\left(x_{n} | \mu_{k}, \Sigma_{k}\right)\right] \end{aligned}$
令 $\frac{\partial L}{\partial \Sigma_{k}}=0$ ，

$\Sigma_{\mathrm{k}}=\frac{1}{N_{k}} \sum_{n=1}^{N} \gamma\left(z_{n k}\right)\left(x_{\mathrm{n}}-\mu_{\mathrm{k}}\right)\left(x_{\mathrm{n}}-\mu_{\mathrm{k}}\right)^{T}$

对 $\pi_k$ 求偏导并令其为0，
$\begin{aligned} \frac{\partial L}{\partial \pi_{k}} &=\frac{\partial }{\partial \pi_{k}} \ln p(X | \pi, \mu, \Sigma)\\ &=\frac{\partial}{\partial \pi_{k}} \left[\sum_{n=1}^{N} \ln \left[\sum_{k=1}^{K} \pi_{k} p\left(x_{\mathrm{n}} | \mu_{\mathrm{k}}, \Sigma_{\mathrm{k}}\right)\right]+\lambda\left(\sum_{k=1}^{K} \pi_{k}-1\right)\right]\\ &=\sum_{n=1}^{N} \frac{p\left(x_{\mathrm{n}} | \mu_{\mathrm{k}}, \Sigma_{\mathrm{k}}\right)}{\sum_{j=1}^{K} \pi_{j} p\left(x_{\mathrm{n}} | \mu_{\mathrm{j}}, \Sigma_{\mathrm{j}}\right)}+\lambda=0 \end{aligned}$
左右两边乘以 $\pi_k$ ，
$\begin{aligned} \sum_{n=1}^{N} \frac{\pi_{k} p\left(x_{n} | \mu_{k}, \Sigma_{k}\right)}{\sum_{j=1}^{K} \pi_{j} p\left(x_{n} | \mu_{j}, \Sigma_{j}\right)}+\lambda \pi_{k} &=\sum_{n=1}^{N} \gamma\left(z_{n k}\right)+\lambda \pi_{k} \\ &=N_{k}+\lambda \pi_{k}=0 \end{aligned}$
上式对 $k$ 求和得，
$\sum_{k=1}^{K}\left(N_{k}+\lambda \pi_{k}\right)=\sum_{k=1}^{K} N_{k}+\lambda \sum_{k=1}^{K} \pi_{k}=\sum_{k=1}^{K} N_{k}+\lambda=0$
又
$\begin{aligned} \sum_{k=1}^{K} N_{k} &=\sum_{k=1}^{K} \sum_{n=1}^{N} \gamma\left(z_{n k}\right)=\sum_{n=1}^{N} \sum_{k=1}^{K} \gamma\left(z_{n k}\right) \\ &=\sum_{n=1}^{N} \sum_{k=1}^{K} \frac{\pi_{k} p\left(x | \mu_{\mathrm{k}}, \Sigma_{\mathrm{k}}\right)}{\sum_{j=1}^{K} \pi_{j} p\left(x | \mu_{\mathrm{j}}, \Sigma_{\mathrm{j}}\right)} \\ &=\sum_{n=1}^{N} 1=N \end{aligned}$

所以 $\lambda=-N$ ，进而

$\pi_k=-\frac{N_k}{\lambda}=\frac{N_k}{N}$

综上，对数似然函数 $lnp(X|\pi,\mu\Sigma)$ 的极值点满足的条件为：
$\left\{\begin{array}{l}{\mu_{\mathrm{k}}=\frac{1}{N_{k}} \sum_{n=1}^{N}\left[\gamma\left(z_{n k}\right) \mathbf{x}_{\mathrm{n}}\right]} \\ \\ {\boldsymbol{\Sigma}_{\mathrm{k}}=\frac{1}{N_{k}} \sum_{n=1}^{N} \gamma\left(z_{n k}\right)\left(\mathbf{x}_{\mathrm{n}}-\mu_{\mathrm{k}}\right)\left(\mathbf{x}_{\mathrm{n}}-\mu_{\mathrm{k}}\right)^{T}} \\ \\ {\pi_{k}=\frac{N_{k}}{N}}\end{array}\right.$

需要注意的是，上式并未给出高斯混合模型的解析解/闭式解，不过可使用迭代算法来计算模型参数。

求解高斯混合模型的EM算法

初始化：给参数均值向量 $\mu_k$ ，协方差矩阵 $\Sigma_k$ 和混合系数 $\pi_k$ 赋初值；并计算对数似然函数的初值；(可以用K均值聚类(K-means clustering)算法来得到初始参数。)
E步(Expectation step)：用当前参数值 $\mu_k$ ， $\Sigma_k$ ， $\pi_k$ 计算后验概率(响应度) $\gamma(z_{nk})$ ：
$\gamma\left(z_{n k}\right) \leftarrow \frac{\pi_{k} p\left(x_{n} | \mu_{k}, \Sigma_{k}\right)}{\sum_{j=1}^{K} \pi_{j} p\left(x_{n} | \mu_{j}, \Sigma_{j}\right)}$
M步(Maximization step)：用当前响应度 $\gamma(z_{nk})$ ，重新估计参数：
$\begin{aligned} \mu_{k}^{\text {new }} & \leftarrow \frac{1}{N_{k}} \sum_{n=1}^{N}\left[\gamma\left(z_{n k}\right) x_{n}\right] \\ \Sigma_{k}^{\text {new }} & \leftarrow \frac{1}{N_{k}} \sum_{n=1}^{N} \gamma\left(z_{n k}\right)\left(x_{n}-\mu_{k}^{\text {new }}\right)\left(x_{n}-\mu_{k}^{\text {new }}\right)^{T} \\ \pi_{k}^{\text {new }} & \leftarrow \frac{N_{k}}{N} \end{aligned}$
其中， $N_k=\sum_{n=1}^{N}\gamma(z_{nk})$ 。
在M步中，先计算 $\mu_{k}^{\text {new }}$ 的值，然后用 $\mu_{k}^{\text {new }}$ 来计算新的协方差矩阵 $\Sigma_{k}^{\text {new }}$ 。
用新的参数 $\mu_{k}^{\text {new }}$ 、 $\Sigma_{k}^{\text {new }}$ 、 $\pi_{k}^{\text {new }}$ 计算对数似然函数：
$lnp(X|\pi,\mu\Sigma) =\sum_{n=1}^{N}ln[\sum_{k=1}^{K}\pi_kp(x_n|\mu_k,\Sigma_k)]$
然后检查是否收敛。(当然，也可直接检查参数是否收敛。)
如果收敛，则得到了模型参数；如果还没收敛，则返回第2步继续迭代。

EM算法：换个角度看高斯混合模型的极大似然估计

在前面的极大似然估计中，我们的目标函数是不完全数据集 $\mathbf{X}=\{x_1,...,x_N\}$ 的对数似然函数 $lnp(X|\pi,\mu\Sigma)$ 。现在我们换个角度来看：假如我们也有隐变量的观测值 $\mathbf{Z}=\{z_1,...,z_N\}$ ，即知道 $x_n$ 来自高斯混合中的哪一个分模型，换句话说，我们有完全数据集 $\{\mathbf{X,Z}\}$ ，那么我们可以计算完全数据的对数似然函数 $lnp(X,Z|\pi,\mu\Sigma)$ 。
首先，一组完全数据 ${x_n,z_n\}$ 的似然函数为：
$p\left(x_{n}, z_{n} | \pi, \mu, \Sigma\right)=\prod_{k=1}^{K} \pi_{k}^{z_{n k}} p\left(x_{n} | \mu_{k}, \Sigma_{k}\right)^{z_{n k}}$

所以，整个完全数据集 $\{\mathbf{X,Z}\}$ 的似然函数（假设每组数据独立）为：
$p\left(\mathbf{X,Z} | \pi, \mu, \Sigma\right)=\prod_{n=1}^{N}\prod_{k=1}^{K} \pi_{k}^{z_{n k}} p\left(x_{n} | \mu_{k}, \Sigma_{k}\right)^{z_{n k}}$

取对数得，
$p\left(\mathbf{X,Z} | \pi, \mu, \Sigma\right)=\sum_{n=1}^{N}\sum_{k=1}^{K} z_{n k}[ln \pi_{k}+lnp\left(x_{n} | \mu_{k}, \Sigma_{k}\right)]$

可以看出，和不完全数据的对数似然函数 $p(X|\pi,\mu\Sigma)=\prod_{n=1}^{N}[\sum_{k=1}^{K}\pi_kp(x_n|\mu_k,\Sigma_k)]$ 相比， $\sum_{k=1}^{K}$ 和 $l n$ 换了顺序。

然而实际情况是，我们并不知道隐变量的观测值，所以我们无法直接计算 $p\left(\mathbf{X,Z} | \pi, \mu, \Sigma\right)$ ，因此，我们考虑对 $p\left(\mathbf{X,Z} | \pi, \mu, \Sigma\right)$ 在隐变量 $z_{nk}$ 的后验分布下求期望，利用求期望的过程，将 $z_{nk}$ 消掉。

$p\left(\mathbf{X,Z} | \pi, \mu, \Sigma\right)$ 在隐变量 $z_{nk}$ 的后验分布下的期望：
$\begin{aligned} E_{Z} \ln p(X, Z | \pi, \mu, \Sigma) &=E \sum_{n=1}^{N} \sum_{k=1}^{K}\left\{z_{n k}\left[\ln \pi_{k}+\ln p\left(x_{n} | \mu_{k}, \Sigma_{k}\right)\right]\right\} \\ &=\sum_{n=1}^{N} \sum_{k=1}^{K}\left\{E\left(z_{n k}\right)\left[\ln \pi_{k}+\ln p\left(x_{n} | \mu_{k}, \Sigma_{k}\right)\right]\right\} \end{aligned}$
其中， $E\left(z_{n k}\right)$ 表示 $z_{n k}$ 在后验分布下的期望 $E\left(z_{n k}|X,\theta\right)$ 。因 $z_{n k}\in\{0,1\}$ ，所以
$\begin{aligned} E\left(z_{n k} | X, \theta\right) &=0 \times p\left(z_{n k}=0 | X, \theta\right)+1 \times p\left(z_{n k}=1 | X, \theta\right) \\ &=p\left(z_{n k}=1 | X, \theta\right) \\ &=\gamma\left(z_{n k}\right) \end{aligned}$
进而，
$E_{Z} \ln p(X, Z | \pi, \mu, \Sigma)=\sum_{n=1}^{N} \sum_{k=1}^{K}\left\{\gamma\left(z_{n k}\right)\left[\ln \pi_{k}+\ln p\left(x_{n} | \mu_{k}, \Sigma_{k}\right)\right]\right\}$
现在将 $\gamma\left(z_{n k}\right)$ 当作常数，求参数 $\pi$ ， $\mu$ ， $\Sigma$ ，使 $E_{Z} \ln p(X, Z | \pi, \mu, \Sigma)$ 最大化，即
$\begin{cases} \max_{\pi,\mu,\Sigma}\quad E_{Z} \ln p(X, Z | \pi, \mu, \Sigma)\\ s. t.\quad\quad\quad\quad \sum_{k=1}^{K}\pi_k=1 \end{cases}$
采用拉格朗日乘子法，拉格朗日函数为：
$L_E=E_{Z} \ln p(X, Z | \pi, \mu, \Sigma)+\lambda(\sum_{k=1}^{K}\pi_k-1)$
先对 $\mu_k$ 求梯度，
$\begin{aligned} \frac{\partial L_{E}}{\partial \mu_{k}}=0 & \Rightarrow \sum_{n=1}^{N} \gamma\left(z_{n k}\right)\left[\Sigma_{k}^{-1}\left(x_{n}-\mu_{k}\right)\right]=0 \\ & \Rightarrow \sum_{n=1}^{N} \gamma\left(z_{n k}\right)\left(x_{n}-\mu_{k}\right)=0 \\ & \Rightarrow \sum_{n=1}^{N} \gamma\left(z_{n k}\right) x_{n}=\sum_{n=1}^{N} \gamma\left(z_{n k}\right) \mu_{k} \end{aligned}$
同之前极大化 $lnp(X|\pi,\mu,\Sigma)$ 一样，可推得
$\mu_k=\frac{1}{N_k}\sum_{n=1}^{N}[\gamma(z_{nk})x_n]$
对 $\Sigma_k$ 求梯度，
$\begin{aligned} \frac{\partial L_{E}}{\partial \Sigma_{\mathrm{k}}} &=\sum_{n=1}^{N}\left[\frac{\partial \sum_{k=1}^{K} \gamma\left(z_{n k}\right) \ln p\left(x_{n} | \mu_{k}, \Sigma_{k}\right)}{\partial \Sigma_{k}}\right] \\ &=\sum_{n=1}^{N}\left[\gamma\left(z_{n k}\right) \frac{\partial \ln p\left(x_{n} | \mu_{k}, \Sigma_{k}\right)}{\partial \Sigma_{k}}\right] \\ &=\sum_{n=1}^{N}\left[\frac{\gamma\left(z_{n k}\right)}{p\left(x_{n} | \mu_{k}, \Sigma_{k}\right)} \frac{\partial p\left(x_{n} | \mu_{k}, \Sigma_{k}\right)}{\partial \Sigma_{k}}\right] \end{aligned}$
求 $lnp(X|\pi,\mu,\Sigma)$ 的极值点时，有
$\frac{\partial L}{\partial \Sigma_{\mathrm{k}}}=\sum_{n=1}^{N}\left[\frac{\pi_{k}}{\sum_{j=1}^{K} \pi_{j} p\left(x_{n} | \mu_{j}, \Sigma_{j}\right)} \frac{\partial p\left(x_{n} | \mu_{k}, \Sigma_{k}\right)}{\partial \Sigma_{k}}\right]$
结合响应度 $\gamma(z_{nk})$ 的公式，可发现两式是一致的，这意味着两种方法计算出的 $\Sigma_k$ 也相同。
再来看 $\pi_k$ ，
$\begin{aligned} \frac{\partial L_{E}}{\partial \pi_{k}} &=\sum_{n=1}^{N}\left[\frac{\partial \sum_{k=1}^{K} \gamma\left(z_{n k}\right) \ln \pi_{k}}{\partial \pi_{k}}\right]+\lambda \\ &=\sum_{n=1}^{N}\left[\gamma\left(z_{n k}\right) \frac{\partial \ln \pi_{k}}{\partial \pi_{k}}\right]+\lambda \\ &=\sum_{n=1}^{N}\left[\gamma\left(z_{n k}\right) \frac{1}{\pi_{k}}\right]+\lambda=\frac{1}{\pi_{k}} \sum_{n=1}^{N} \gamma\left(z_{n k}\right)+\lambda \\ &=\frac{1}{\pi_{k}} N_{k}+\lambda \end{aligned}$
可以发现 $\pi_k$ 也和 $lnp(X|\pi,\mu,\Sigma)$ 极值点的参数一致。

综上，通过极大化 $E_{Z} \ln p(X, Z | \pi, \mu, \Sigma)$ 得到的模型参数，和 $lnp(X|\pi,\mu,\Sigma)$ 的极大似然估计结果是一致的。在EM算法的每一次迭代中，我们都在对 $E_{Z} \ln p(X, Z | \pi, \mu, \Sigma)$ 求极大值。