【EM算法】通俗理解+数学推导

JHollon

已于 2023-04-18 17:16:48 修改

阅读量134

点赞数 1

文章标签：机器学习概率论算法几何学

于 2023-04-18 16:54:07 首次发布

本文链接：https://blog.csdn.net/BTOhollon/article/details/130224949

版权

Expectation Maximization Algorithm

单一高斯模型拟合数据

当数据的分布情况如下图所示时，可以采用单个的高斯模型来对数据进行拟合：

似然函数：
$\begin{aligned}{} \mathcal{L}\,(\theta|\bar{X}) &=\log\,[P(\bar{X}|\theta)] \nonumber\\ &=\sum_{i=1}^k\log\,P(x_i|\theta)\nonumber\\ &=\sum_{i=1}^N\log\,\mathcal{N}(x_i|\mu,\sigma)\nonumber \end{aligned}\nonumber$
求解 $\arg\underset {\theta}{\max}=\mathcal{L}(\theta|\bar{X})$

先求：
$\mu_{MLE}=\frac{\partial \mathcal{L}(\mu,\sigma|\bar{X})}{\partial \mu}=0\nonumber$
再求：
$\sigma_{MLE}^2=\frac{\partial \mathcal{L}(\mu_{MLE},\sigma|\bar{X})}{\partial \sigma}=0\nonumber$

解得：
$\begin{aligned}\mu_{MLE}&=\frac{1}{N}\sum_{i=1}^Nx_i\\\sigma^2_{MLE}&=\frac{\sum_{i=1}^N(x_i-\mu_{MLE})}{N}\end{aligned}\nonumber$
但是在现实情况下，数据可能是这样分布的：

此时不能用一个高斯模型拟合求解，需要用到两个或多个高斯模型混合求解。

高斯混合模型

高斯混合模型的定义：

$\begin{aligned} p(X|\theta)=\sum_{l=1}^k\alpha_l\mathcal{N}(X|\mu_l,\sigma_l)\qquad s.t.\quad\sum_{l=1}^k\alpha_l=1\nonumber \end{aligned}$

其中, $\alpha_l$ 为第 $l$ 个高斯模型的归一化权重， $\mathcal{N}(X|\mu_l,\sigma_l)$ 是高斯分布密度
$\theta=\{\theta_1=[\alpha_1,\mu_1,\sigma_1]\,...\,\theta_k=[\alpha_k,\mu_k,\sigma_k]\}\nonumber$
接着，对高斯混合模型中的 $\theta$ 参数进行极大似然估计：

$\begin{aligned} \theta_{MLE} &=\arg\underset\theta{\max}\,\cal{L}(\theta|X)\\ &=\arg\underset\theta{\max}\,(\sum_{i=1}^n\log\sum_{l=1}^k\alpha_l\mathcal{N}(X|\mu_l,\sigma_l)) \end{aligned}\nonumber$

此时，对 $\mu_1,\mu_2\ ...\ \mu_k$ 、 $\sigma_1,\sigma_2\ ...\ \sigma_k$ 都求偏导，然后再求解很困难，所以需要借助EM算法根据迭代的方式来求解。

EM算法迭代公式

定义EM算法的参数更新公式为：

$\theta^{(g+1)}=\arg\underset\theta{\max}\int _Z\,\log\,[p(X,Z|\theta)]·p(Z|X,\theta^{(g)})\,\mathrm{d}Z\tag1$

其中， $Z$ 为隐变量（辅助变量）。

引入隐变量的前提

1、简化求解；

2、不改变数据的边缘分布（在此，对第2条进行证明）

证明满足边缘分布也就是要证明加入隐变量 $Z$ 后式 $(2)$ 成立：

$p(x_i)=\int _{z_i}p_\theta(x_i|z_i)·p_\theta(z_i)\mathrm{d}z_i\quad z_i\in{1,2,\ ...\ k}\tag2$
该如何理解高斯混合模型中的隐变量 $Z$ 呢？

其实， $Z$ 就代表着数据属于哪儿一个高斯分布，如下图所示：

此时，高斯混合模型在一定程度上已经退化为了单个高斯模型，这样也就大大简化了求解。
那在没有观测到数据之前， $z_i$ 到底属于 $\theta_1$ 还是属于 $\theta_2$ 呢？即： $p(z_i)=?$

其实 $p(z_i)$ 这个概率就是从高斯混合模型中的权重参数得来的，即：

$p(z_i)=\alpha_{z_i}\nonumber$
此时，

$p_\theta(x_i|z_i)=\mathcal{N}(x_i|\mu_{z_i},\sigma_{z_i})\nonumber$
将 $p(z_i)$ 、 $p_\theta(x_i|z_i)$ 代入到上式中，得：

$\begin{aligned}p(x_i)&=\int _{z_i}p_\theta(x_i|z_i)·p_\theta(z_i)\mathrm{d}z_i\\&=\sum_{z_i}^k\alpha_{z_i}\mathcal{N}(x_i|\mu_{z_i},\alpha_{z_i})\end{aligned}\nonumber$
所以不会改变 $x_i$ 的边缘分布，条件2得证！

收敛性证明（局部收敛）

如果EM算法收敛，则随着迭代更新，似然函数始终都在增加，即对于任意更新步骤，都有当前更新的似然比上一次更新的似然要大。则需要证明：

$\log\,P(X|\theta^{(g+1)})=\mathcal{L}(\theta^{(g+1)})\geqslant\mathcal{L}(\theta^{(g)})=\log\,P(X|\theta^{(g)}) \tag3$

证明：

由联合概率公式

$P(X)=\frac{P(X,Z)}{P(Z|X)}\nonumber$

得

$\log\,P(X|\theta)=\log\,P(X,Z|\theta)-\log\,P(Z|X,\theta)\tag4$

对等式两边同时求期望得：

$\underset{p(z|x,\theta^{(g)})}{E}[\log\,P(X|\theta)] =\underset{p(z|x,\theta^{(g)})}{E}[\log\,P(X,Z|\theta)-\log\,P(Z|X,\theta)]\nonumber$

等式左边:

$\begin{aligned} \underset{p(z|x,\theta^{(g)})}{E}[\log\,P(X|\theta] &=\int_Z\,\log\,[P(X|\theta)]·P(Z|X,\theta^{(g)})\,\,\rm{dZ}\\ &=\log\,P(X|\theta) \end{aligned}\nonumber$

等式右边：

$\underset{p(z|x,\theta^{(g)})}{E}[\log\,P(X,Z|\theta)-\log\,P(Z|X,\theta)]\\ =\int_Z\,\log\,[P(X,Z|\theta)]·P(X,Z|\theta^{(g)})\,\rm{dZ}-\int_Z\,\log\,[P(Z|X,\theta)]·P(Z|X,\theta^{(g)})\,\rm{dZ}\nonumber$

令：

$\begin{aligned} Q(\theta,\theta^{(g)})&=\int_Z\log\,[P(X,Z|\theta]·P(X,Z|\theta^{(g)})\,\rm{dZ}\\ H(\theta,\theta^{(g)})&=\int_Z\log\,[P(Z|X,\theta]·P(Z|X,\theta^{(g)})\,\rm{dZ} \end{aligned}\nonumber$

则公式 $(4)$ 可以写成
$\log\,P(X|\theta^{(g)})=Q(\theta,\theta^{(g)})-H(\theta,\theta^{(g)})\tag{4}$
其中 $\,\theta^{(g)}$ 为常数， $\,\theta\,$ 为变量。并且，不难发现 $Q(\theta,\theta^{(g)})$ 为EM算法中的迭代公式。

分别取 $\,\theta\,$ 为 $\,\theta^{(g)}\,$ 和 $\,\theta^{(g+1)}\,$ 并相减，有
$\log\,P(X|\theta^{(g+1)})-\log\,P(X|\theta^{(g)})\\ =[Q(\theta^{(g+1)},\theta^{(g)})-Q(\theta^{(g)},\theta^{(g)}] -[H(\theta^{(g+1)},\theta^{(g)})-H(\theta^{(g)},\theta^{(g)}] \tag5$
因为当用EM算法求解 $\theta^{(g)}$ 迭代到 $\theta^{(g+1)}$ 时，有:

$Q(\theta^{(g+1)},\theta^{(g)})- Q(\theta^{(g)},\theta^{(g)}\ge 0)\nonumber$

所以式 $(5)$ 右端第一项大于等于0。

因为， $f(x)=\log\ x\,$ 为凸函数，所以，由Jensen’s不等式得：
$\begin{aligned} H(\theta^{(g+1)},\theta^{(g)})- H(\theta^{(g)},\theta^{(g)}) &=\int_Z\,\log\,[P(Z|X,\theta^{(g+1)})]· P(Z|X,\theta^{(g)})-\log\,[P(Z|X,\theta^{(g)})]·P(Z|X,\theta^{(g)})\,\rm{dZ}\\ &=\int_Z\,\log[\frac{P(Z|X,\theta^{(g+1)})}{P(Z|Z,\theta^{(g)})}]·P(Z|X,\theta^{(g)})\,\rm{dZ}\\ &\le\log\,[\int_Z\,\frac{P(Z|X,\theta^{(g+1)})}{P(Z|X,\theta^{(g)})}·P(Z|X,\theta^{(g)})\,\rm{dZ}]\\ &=\log\,[\int_Z\,P(Z|X,\theta^{(g+1)})\,\rm{dZ}]\\ &=\log\,1\\ &=0 \end{aligned}\tag6$

由式 $(5)$ 和式 $(6)$ 得式 $(7)$
$\log\,P(X|\theta^{(g+1)})-\log\,P(X|\theta^{(g)})\ge0 \tag{7}$
即得式 $(3)$ 成立！

所以EM算法收敛性得证!

EM算法在高斯混合模型中的应用

高斯混合模型：

$\begin{aligned} P(X|\theta)=\sum_{l=1}^k\alpha_l\mathcal{N}(X|\mu_l,\sigma_l)\qquad s.t.\quad\sum_{l=1}^k\alpha_l=1\nonumber \end{aligned}$

对于数据集 $X=\{x_1,x_2,...,x_n\}$ 引入隐变量 $Z=\{z_1,z_2,...,z_n\}$ ，每个 $z_i$ 表示数据 $x_i$ 属于第几个高斯分布

EM算法更新过程：
$\begin{aligned} \theta^{(g+1)}&=\arg\underset\theta{\max}\int _Z\,\log\,[p(X,Z|\theta)]·p(Z|X,\theta^{(g)})\,\mathrm{d}Z\\ &=\arg\underset\theta{\max}\,Q(\theta,\theta^{(g)}) \end{aligned} \tag1$

E过程，即计算 $Q(\theta,\theta^{(g)})$

计算 $p(X,Z|\theta)$ 和 $p(Z|X,\theta)$

计算 $p(X,Z|\theta)$ ：
$\begin{aligned} p(X,Z|\theta) &=\prod_{i=1}^np(x_i,z_i|\theta)\\ &=\prod_{i=1}^np(x_i|z_i,\theta)p(z_i|\theta) \end{aligned}\nonumber$
$p(z_i|\theta)$ 表示在没有任何数据 $X$ 的情况下，是第 $z_i$ 个高斯分布的概率，即为高斯混合分布的混合系数 $\alpha_{z_i}$ ， $p(x_i|z_i,\theta)$ 表示数据 $x_i$ 在第 $z_i$ 个高斯分布中的概率，即为 $\mathcal{N}(\mu_{z_i},\Sigma_{z_i})$ ，所以：
$p(X,Z|\theta)=\prod_{i=1}^n\alpha_{z_i}\mathcal{N}(\mu_{z_i},\sigma_{z_i})\tag8$
计算 $p(Z|X,\theta)$ :
$\begin{aligned} p(Z|X,\theta) &=\prod_{i=1}^np(z_i|x_i,\theta)\\ \end{aligned}\nonumber$
其中， $p(z_i|x_i,\theta)$ 的直观解释见下图：

对于红色数据来说，其 $p(z_i|x_i,\theta)$ 为：
$p(z_i=\theta_1|x_i,\theta)=\dfrac a {a+b}\\ p(z_i=\theta_2|x_i,\theta)=\dfrac b {a+b}\nonumber$
所以有
$\begin{aligned} p(z_i|x_i,\theta) &=\frac{p(x_i,z_i|\theta)}{p(x_i|\theta)}\\ &=\frac{\alpha_{z_i}\mathcal{N}(\mu_{z_i},\sigma_{z_i})}{\sum_{l=1}^k\alpha_l\mathcal{N}(\mu_l,\sigma_l)} \end{aligned}\nonumber$

所以有
$\begin{aligned} p(Z|X,\theta) &=\prod_{i=1}^np(z_i|x_i,\theta)\\ &=\prod_{i=1}^n\frac{p(x_i,z_i|\theta)}{p(x_i|\theta)}\\ &=\prod_{i=1}^n\frac{\alpha_{z_i}\mathcal{N}(\mu_{z_i},\sigma_{z_i})}{\sum_{l=1}^k\alpha_l\mathcal{N}(\mu_l,\sigma_l)}\tag9 \end{aligned}$
将式 $(8)$ 和 $(9)$ 代入得：
$\begin{aligned} Q(\theta,\theta^{(g)}) &=\int_Z\ln[p(X,Z|\theta)]·p(Z|X,\theta^{(g)})\mathrm{d}Z\\ &=\int_{z_1}...\int_{z_n}\bigg(\sum_{i=1}^n\ln p(z_i,x_i|\theta)\prod_{i=1}^np(z_i|x_i,\theta^{(g)})\bigg)\mathrm{d}z_1...\mathrm{d}z_n \end{aligned}\nonumber$

简化 $Q(\theta,\theta^{(g)})$ 所用公式推导

因为有如下公式：
$\int_{y_1}...\int_{y_n}\bigg(\sum_{i=1}^nf_i(y_i)\bigg)P(Y)\mathrm{d}Y=\sum_{i=1}^n\bigg(\int_{y_i}f_i(y_i)P_i(y_i)\mathrm{d}y_i\bigg) \nonumber$

其中 $P (Y)$ 是 $y_1,...,y_n$ 的联合概率分布 $P(y_1,...,y_n)$ ，

该公式推导过程：

令 $F(Y)=f_1(x_1)+...+f_n(x_n)=\sum_{i=1}^nf_i(y_i)$ ：
$\int_Y(F(Y))P(Y)\mathrm{d}Y=\int_{y_1}...\int_{y_n}\bigg(\sum_{i=1}^nf_i(y_i)\bigg)P(Y)\mathrm{d}y_1...\mathrm{d}y_n \nonumber$

将上式中 $\sum_{i=1}^nf_i(y_i)$ 展开，则为：
$\begin{aligned} \int_{y_1}...\int_{y_n}&\bigg(\sum_{i=1}^nf_i(y_i)\bigg)P(Y)\mathrm{d}y_1...\mathrm{d}y_n\\ &=\int_{y_1}...\int_{y_n}[f_1(y_1)+f_2(y_2)+...+f_n(y_n)]P(y_1,...,y_n)\mathrm{d}y_1...\mathrm{d}y_n\\ &=\int_{y_1}...\int_{y_n}f_1(y_1)P(y_1,...,y_n)\mathrm{d}y_1...\mathrm{d}y_n\\ &\quad+\int_{y_1}...\int_{y_n}f_2(y_2)P(y_1,...,y_n)\mathrm{d}y_1...\mathrm{d}y_n\\&\quad+...+\int_{y_1}...\int_{y_n}f_n(y_n)P(y_1,...,y_n)\mathrm{d}y_1...\mathrm{d}y_n \end{aligned}\nonumber$

先重点关注第一项：
$\int_{y_1}...\int_{y_n}f_1(y_1)P(y_1,...,y_n)\mathrm{d}y_1...\mathrm{d}y_n \nonumber$

因为 $f_1(y_1)$ 与 $y_2,...,y_n$ 均无关，对于 $y_2,...,y_n$ 来说 $f_1(y_1)$ 可看作是常数，所以 $f_1(y_1)$ 可以移到与之无关变量的积分号的外面，即
$\int_{y_1}...\int_{y_n}f_1(y_1)P(y_1,...,y_n)\mathrm{d}y_1...\mathrm{d}y_n\\=\int_{y_1}f_1(y_1)\bigg(\int_{y_2}...\int_{y_n}P(y_1,...,y_n)\mathrm{d}y_2...\mathrm{d}y_n\bigg)\mathrm{d}y_1 \nonumber$

根据边缘概率公式：
$P(x)=\int_{y}P(x,y)\mathrm{d}y \nonumber$

因此有：
$\begin{aligned} P(y_1,y_2,...,y_{n-1})&=\int_{y_n}P(y_1,y_2,...,y_{n-1},y_n)\mathrm{d}y_n\\ P(y_1,y_2,...,y_{n-2})&=\int_{y_{n-1}}P(y_1,y_2,...,y_{n-2},y_{n-1})\mathrm{d}y_{n-1}\\&\ \ \vdots\\P(y_1)&=\int_{y_2}P(y_1,y_2)\mathrm{d}y_2 \end{aligned} \nonumber$

因此套用一次边缘概率公式，可以去除掉一层积分，所以公式第一项最后变为：
$\int_{y_1}f_1(y_1)\bigg(\int_{y_2}...\int_{y_n}P(y_1,...,y_n)\mathrm{d}y_2...\mathrm{d}y_n\bigg)\mathrm{d}y_1=\int_{y_1}f_1(y_1)P(y_1)\mathrm{d}y_1 \nonumber$

整个公式即为：
$\begin{aligned} \int_{y_1}...\int_{y_n}&\bigg(\sum_{i=1}^nf_i(y_i)\bigg)P(Y)\mathrm{d}y_1...\mathrm{d}y_n\\ &=\int_{y_1}...\int_{y_n}f_1(y_1)P(y_1,...,y_n)\mathrm{d}y_1...\mathrm{d}y_n\\&\quad +\int_{y_1}...\int_{y_n}f_2(y_2)P(y_1,...,y_n)\mathrm{d}y_1...\mathrm{d}y_n\\&\quad +...+\int_{y_1}...\int_{y_n}f_n(y_n)P(y_1,...,y_n)\mathrm{d}y_1...\mathrm{d}y_n\\ &=\int_{y_1}f_1(y_1)P(y_1)\mathrm{d}y_1\\&\quad +\int_{y_2}f_2(y_2)P(y_2)\mathrm{d}y_2\\&\quad +...+\int_{y_n}f_n(y_n)P(y_n)\mathrm{d}y_n\\ &=\sum_{i=1}^n\bigg(\int_{y_i}f_i(y_i)P(y_i)\mathrm{d}y_i\bigg) \end{aligned} \nonumber$

简化 $Q(\theta,\theta^{(g)})$

因此，把 $f_i(y_i)$ 看作 $\log p(z_i,x_i|\theta)$ ，把 $P_i(y_i)$ 看作 $p(z_i|x_i,\theta^{(g)})$ ，可得：
$\begin{aligned} Q(\theta,\theta^{(g)}) &=\int_{z_1}...\int_{z_n}\bigg(\sum_{i=1}^n\ln p(z_i,x_i|\theta)\prod_{i=1}^np(z_i|x_i,\theta^{(g)})\bigg)\mathrm{d}z_1...\mathrm{d}z_n\\ &=\sum_{i=1}^n\bigg(\int_{z_i}\ln p(z_i,x_i|\theta)p(z_i|x_i,\theta^{(g)})\mathrm{d}z_i\bigg) \end{aligned}\nonumber$
因为是 $z_i$ 离散随机变量， $z_i\in\{1,...,k\}$ ，所以积分符号应写为累加符号，可得：
$\begin{aligned} Q(\theta,\theta^{(g)}) &=\sum_{i=1}^n\bigg(\int_{z_i}\ln p(z_i,x_i|\theta)p(z_i|x_i,\theta^{(g)})\mathrm{d}z_i\bigg)\\&=\sum_{i=1}^n\bigg(\sum_{z_i=1}^k\ln p(z_i,x_i|\Theta)p(z_i|x_i,\theta^{(g)})\bigg) \end{aligned}\nonumber$
用 $l$ 替换 $z_i$ ，最终可得：
$\begin{aligned} Q(\theta,\theta^{(g)}) &=\sum_{l=1}^k\sum_{i=1}^n\ln p(l,x_i|\theta)p(l|x_i,\theta^{(g)})\\ &=\sum_{l=1}^k\sum_{i=1}^n\ln[\alpha_l\mathcal{N}(x_i|\mu_l,\sigma_l)]p(l|x_i,\theta^{(g)})\\&=\sum_{l=1}^k\sum_{i=1}^n\ln(\alpha_l)p(l|x_i,\theta^{(g)})\\&\quad+\sum_{l=1}^k\sum_{i=1}^n\ln[\mathcal{N}(x_i|\mu_l,\sigma_l)]p(l|x_i,\theta^{(g)}) \end{aligned}\nonumber$

M过程，即最大化 $Q(\theta,\theta^{(g)})$

每次更新即为求使 $Q(\theta,\theta^{(g)})$ 最大的 $\{\alpha_1,...,\alpha_k,\mu_1,...,\mu_k,\sigma_1,...,\sigma_k\}$ 。而由于式中加号左边只包含 $\alpha$ ，而加号右边只包含 $\mu$ , $\sigma$ 。所以可以每一项分别最大化

最大化 $\alpha$

计算公式：
$\alpha_l=\frac{1}n\sum_{i=1}^np(l|x_i,\theta^{(g)}) \nonumber$
计算过程：

优化目标：
$\frac{\partial\sum_{l=1}^k\sum_{i=1}^n\ln(\alpha_l)p(l|x_i,\theta^{(g)})}{\partial\alpha_1,...,\partial\alpha_k}=[0...0]\qquad s.t\,\sum_{l=1}^k\alpha_l=1 \nonumber$
因为 $\sum_{i=1}^np(l|x_i,\theta^{(g)})$ 这部分当中不包含 $\alpha$ ，所以:
$\frac{\partial\mathbb{LM}}{\partial\alpha_l}=\frac{1}{\alpha_l}\bigg(\sum_{i=1}^np(l|x_i,\theta^{(g)})\bigg)+\lambda=0 \nonumber$
所以：
$\alpha_l=-\frac{1}{\lambda}\bigg(\sum_{i=1}^np(l|x_i,\theta^{(g)})\bigg)\nonumber$
因为：
$\sum_{l=1}^k\alpha_l=1\nonumber$

即：
$-\sum_{l=1}^k\frac{1}{\lambda}\bigg(\sum_{i=1}^np(l|x_i,\theta^{(g)})\bigg)=1 \nonumber$
接着：
$\begin{aligned} \lambda &=-\sum_{l=1}^k\bigg(\sum_{i=1}^np(l|x_i,\theta^{(g)})\bigg)\\ &=-\sum_{i=1}^n\bigg(\sum_{l=1}^kp(l|x_i,\theta^{(g)})\bigg)\\ &=-\sum_{i=1}^n1\\ &=-n \end{aligned}\nonumber$
所以：
$\alpha_l=\frac{1}{n}\sum_{i=1}^np(l|x_i,\theta^{(g)})\nonumber$

最大化 $\mu$

$\mu_l$ 计算公式：
$\mu_l=\dfrac{\sum_{i=1}^nx_ip(l|x_i,\theta^{(g)})}{\sum_{i=1}^np(l|x_i,\theta^{(g)})}\nonumber$
$\mu$ 计算过程

优化目标：
$\frac{\partial\sum_{l=1}^k\sum_{i=1}^n\ln[\mathcal{N}(x_i|\mu_l,\Sigma_l)]p(l|x_i,\theta^{(g)})}{\partial\mu_1,...,\partial\mu_k,\partial\sigma_1,...,\partial\sigma_k}=[0...0]\nonumber$
因为：
$\begin{aligned} \sum_{l=1}^k&\sum_{i=1}^n\ln[\mathcal{N}(x_i|\mu_l,\sigma_l)]p(l|x_i,\theta^{(g)})\\ &=\sum_{l=1}^k\sum_{i=1}^n\ln\bigg(\dfrac{1}{\sqrt{(2\pi)^d|\sigma_l|}}e^{-\frac{1}{2}(x_i-\mu_l)^\top\sigma_l^{-1}(x_i-\mu_l)}\bigg)p(l|x_i,\theta^{(g)})\\ &=\sum_{l=1}^k\sum_{i=1}^n\bigg(-\frac{1}{2}\ln\Big((2\pi)^d|\sigma_l|\Big)-\frac{1}{2}(x_i-\mu_l)^\top\sigma_l^{-1}(x_i-\mu_l)\bigg)p(l|x_i,\theta^{(g)}) \end{aligned}\nonumber$
将上式对 $\mu_l$ 求导，并令其为0，可得：
$\sum_{i=1}^n\sigma_l^{-1}(x_i-\mu_l)p(l|x_i,\theta^{(g)})=0\nonumber$

所以：
$\mu_l=\dfrac{\sum_{i=1}^nx_ip(l|x_i,\theta^{(g)})}{\sum_{i=1}^np(l|x_i,\theta^{(g)})}\nonumber$

最大化 $\sigma$

$\sigma_l$ 计算公式：
$\begin{aligned} \sigma_l&=\frac{\sum_{i=1}^nM_l}{\sum_{i=1}^np(l|x_i,\theta^{(g)})}\\ &=\frac{\sum_{i=1}^n(x_i-\mu_l)(x-\mu_l)^\intercal p(l|x_i,\theta^{(g)})}{\sum_{i=1}^np(l|x_i,\theta^{(g)})} \end{aligned}\nonumber$

更新参数 $\theta^{(g)}\rightarrow\theta^{(g+1)}$

$\alpha_l^{(g+1)}=\frac{1}N\sum_{i=1}^Np(l|x_i,\theta^{(g)})\\ \mu_l^{(g+1)}=\frac{\sum_{i=1}^Nx_ip(l|x_i,\theta^{(g)})}{\sigma_{i=1}^Np(l|x_i,\theta^{(g)})}\\ \sigma_l^{(g+1)}=\dfrac{\sum_{i=1}^N[x_i-\mu_l^{(g+1)}][x-\mu_l^{(g+1)}]^\intercal p(l|x_i,\theta^{(g)})}{\sum_{i=1}^Np(l|x_i,\theta^{(g)})}\nonumber$