Expectation-Maximum-Algorithm(EM算法之一)

最新推荐文章于 2024-01-03 23:22:59 发布

EntropyPlus

最新推荐文章于 2024-01-03 23:22:59 发布

阅读量775

点赞数 5

分类专栏：优化算法文章标签： EM算法

本文链接：https://blog.csdn.net/u012759262/article/details/100557615

版权

优化算法专栏收录该内容

3 篇文章 1 订阅

订阅专栏

Expectation-Maximum-Algorithm—EM算法

1. 预备知识
2. EM算法的直观理解（此过程并不严谨）
3. 从极大后验概率看EM算法
4. EM算法在高斯混合分布中的应用
5. 流程图
后记
参考文献

1. 预备知识

1.1 凸函数的性质

假设定义在实数域上的函数，对于任意的实数，都有
$f''(x)<0\tag{1.1}$
则函数 $f (x)$ 称为凸函数，反之，为凹函数。（国内外教材对于凸凹函数的定义不同，这里采用国内教材为准）

1.2 Jensen不等式

1.2.1 数学意义

如果函数是凸函数，则有
$f(\lambda x_1+(1-\lambda)x_2) \geq \lambda f(x_1)+(1-\lambda)f(x_2)\tag{1.2}$

如果函数是凹函数，则有
$f(\lambda x_1+(1-\lambda)x_2) \leq \lambda f(x_1)+(1-\lambda)f(x_2)\tag{1.3}$

1.2.2 几何意义

以凹函数为例

当 $\lambda$ 为 $0.5$ 时，左右两边严格相等。

1.2.3 推广

若存在凸函数 $f (x)$ ，其中有
$\begin{aligned} \sum_{i=1}^{k}\lambda_i=1, \lambda_{i} \geq 0\tag{1.4} \end{aligned}$
则有
$\begin{aligned} f(\lambda_1x_1+\lambda_2x_2+...+\lambda_kx_k)\geq\lambda_{1}f(x_1)+\lambda_{2}f(x_2)+...+\lambda_{k}f(x_k)\tag{1.5} \end{aligned}$
在概率论中，我们知道对于离散变量的期望 $E$ 有
$\begin{aligned} E(X)=\sum_{i}^{k}p_iX_i \tag{1.6} \end{aligned}$
类比公式 $(1.4), (1.5)$ 则有
$\begin{aligned} f(E(X)) \geq E(f(X)) \tag{1.7} \end{aligned}$

1.3 隐变量

不能被直接观察到，但是对系统的状态和能观察到的输出存在影响的一种东西。 下文中，硬币A的结果，就是隐变量。

1.4 极大似然函数的概念

1.4.1 极大似然函数的概念

简单的说,极大似然估计就是固定住观测变量的值,确定可能性最大的一系列参数的过程.

1.4.2 极大似然函数——以高斯分布为例

若给定一组样本 $x_1，x_2…,x_N$ ，已知它们来自于高斯分布 $N~(\mu, \sigma^2)$ ，试估参数 $\mu, \sigma$ 。

1.4.3 极大似然函数——以高斯混合分布为例

1.4.3.1 多元高斯分布

多元高斯分布是对 $d$ 维样本空间 $\chi$ 中的随机向量 $\boldsymbol{X}$ ，若 $\boldsymbol{X}$ 服从高斯分布，则其概率密度为：
$\begin{aligned} f(\boldsymbol{x})=\frac{1}{{2\pi}^{n/2}{|\Sigma|^{1/2}}}e^{-\frac{1}{2}(\boldsymbol{X-\mu})^T\Sigma^{-1}(\boldsymbol{X-\mu})}\tag{1.8} \end{aligned}$

注意一点：

当随机变量 $X$ 是 $1$ 维数据时，均值 $\mu_k$ 和方差 $\sigma_k$ 均为一个标量（其中 $(k < K)$ ）
当随机变量 $X$ 是 $m$ 维数据时，均值 $\mu$ 是一个 $m$ 维的向量，和方差 $\sigma$ 是一个 $d * d$ 的协方差矩阵。为了加以区分，将 $\sigma$ 记为 $\Sigma$ 。

1.4.3.2 多元高斯混合分布

定义

通常在自然界中，随机变量 $\boldsymbol{X}$ 可能有 $K$ 个高斯分布混合组成，那么，记取自不同高斯分布的概率分别为 $\pi_1, \pi_2,... ,\pi_K$ ，第 $k$ 个高斯分布的均值为 $\mu_k$ ，方差为 $\sigma_k$ 。

此时，需要估计的参数为： $K$ 个 $\pi, \mu, \Sigma$ 。

因此，高斯混合模型是指具有如下形式的概率分布模型：
$\begin{aligned} P(\boldsymbol{X}|\theta)= \sum_{k=1}^{K} \pi_{k} \phi(\boldsymbol{X};\theta_k) \tag{1.10} \end{aligned}$
其中， $\pi_k$ 是系数， $\pi_k \geq 0, \sum_{k=1}^{K} \pi_k = 1$ ，且 $\phi(\boldsymbol{X}|\theta_k)$ 是高斯分布密度 $\phi(\boldsymbol{X}; \mu_k, \Sigma_k)$ 。

似然函数的建立

建立似然函数，分两步走：

因为取到第 $i$ 个样本来自于第 $k$ 个样本的概率为 $\pi_k\phi(\boldsymbol{x_i}; \boldsymbol{\mu_k}\boldsymbol{\Sigma_k})$ 。所以，取到第 $i$ 个样本的概率为：
$\begin{aligned} P(\boldsymbol{X}=\boldsymbol{x_i};\theta)=\sum_{k=1}^{K} \pi_k\phi(\boldsymbol{x_i}; \boldsymbol{\mu_k}, \boldsymbol{\Sigma_k})\tag{1.11} \end{aligned}$
$N$ 个样本的似然函数为
$\begin{aligned} L(\pi, \boldsymbol{\mu}, \boldsymbol{\Sigma})=&\prod_{i=1}^{N}\sum_{k=1}^{K} \pi_k\phi(\boldsymbol{x_i}; \boldsymbol{\mu_k}, \boldsymbol{\Sigma_k}) \tag{1.12} \end{aligned}$
对公式 $(1.12)$ 取对数有
$\begin{aligned} log(L_{\pi, \boldsymbol{\mu_k}, \boldsymbol{\Sigma_k}})=&log(\prod_{i=1}^{N}\sum_{k=1}^{K} \pi_k\phi(\boldsymbol{x_i}; \boldsymbol{\mu_k}, \boldsymbol{\Sigma_k})))\\ =&\sum_{i=1}^{N} log(\sum_{k=1}^{K} \pi_k\phi(\boldsymbol{x_i}; \boldsymbol{\mu_k}, \boldsymbol{\Sigma_k})))\\ \tag{1.13} \end{aligned}$
此时，我们的目标是要找到 $K$ 个高斯分布的 $\boldsymbol{\mu_k}, \boldsymbol{\Sigma_k}$ ，使得公式 $(1.13)$ 最大
$\begin{aligned} log(L_{\pi, \boldsymbol{\mu_k}, \boldsymbol{\Sigma_k}})=&\sum_{i=1}^{N} log(\sum_{k=1}^{K} \pi_k\phi(\boldsymbol{x_i}; \boldsymbol{\mu_k}, \boldsymbol{\Sigma_k})))\\ \tag{1.14} \end{aligned}$

预备知识完毕，下面开始进入EM算法预热。

2. EM算法的直观理解（此过程并不严谨）

先假设参数，根据参数计算其所属概率，反过来计算已知概率情况下该参数的后验概率，再通过最大似然估计参数，循环往复，直到收敛。

以知乎男女身高分布的例子为例。随机挑选1000个人，测量他们的身高。在这1000个人中，有男性有女性，身高分别服从 $N_{boy}(\mu_{boy}, \sigma_{boy}^2)$ 和 $N_{girl}(\mu_{girl}, \sigma_{girl}^2)$ 的分布，试着估计 $\mu_{boy}, \sigma_{boy}, \mu_{girl}, \sigma_{girl}$ 。

1. 估计每个样本数据由每个分布组成的比例。

首先假设男孩服从的分布为 $N_{boy}(175, 10^2)$ ，女孩服从分布 $N_{girl}(165, 8^2)$ 。将第一个样本 $X_1=198$ 分别带入公式 $(2.1)$ 中，有：
$\begin{aligned} f_{boy}(198)=\frac{1}{\sqrt{2\pi}*10}e^{-\frac{(198-175)^2}{2*10^2}}\tag{2.2-1} \end{aligned}$
$\begin{aligned} f_{girl}(198)=\frac{1}{\sqrt{2\pi}*8}e^{-\frac{(198-165)^2}{2*8^2}}\tag{2.2-2} \end{aligned}$

2. 其次，假设选择男生分布的概率为 $\pi_{boy}=\frac{1}{2}$ ，女性分布的概率为 $\pi_{girl}=\frac{1}{2}$ ，带入公式 $(2.1)$ 可以写成

$\begin{aligned} \gamma(1,boy)=&\frac{\pi_{boy}N(X_1;\mu_{boy},\sigma_{boy})}{\sum_{k=1}^{K}\pi_kN(X_1;\mu_k,\sigma_k)}\\\\ =&\frac{\frac{1}{2}*f_{boy}(198)}{\frac{1}{2}*f_{boy}(198)+\frac{1}{2}*f_{girl}(198)}\tag{2.3-1} \end{aligned}$
$\begin{aligned} \gamma(1,girl)=&\frac{\pi_{girl}N(X_1;\mu_{girl},\sigma_{girl})}{\sum_{k=1}^{K}\pi_kN(X_1;\mu_k,\sigma_k)}\\\\ =&\frac{\frac{1}{2}*f_{girl}(198)}{\frac{1}{2}*f_{boy}(198)+\frac{1}{2}*f_{girl}(198)}\tag{2.3-2} \end{aligned}$

此时，男孩样本 $1$ 上的变化情况为 $198*\gamma(1,boy)$ ，女孩样本 $1$ 上的变化情况为 $198*\gamma(1,girl)$ 。

3. 对所有样本均重复上述操作。

可得到 $\gamma(i,boy)$ 、 $\gamma(i,girl)$ ，其中 $i = 1, 2, . . ., N$ 。第一轮参数估计的结果为：
$\begin{aligned} \mu_{boy}=&\frac{1}{\sum_{i=1}^{N}\gamma(i,boy)}\sum_{i=1}^{N}X_i*\gamma(i,boy)\tag{2.4-1}\\ \end{aligned}$
$\begin{aligned} \mu_{girl}=& \frac{1}{\sum_{i=1}^{N}\gamma(i,girl)}\sum_{i=1}^{N}X_i*\gamma(i,girl) \tag{2.4-2}\\ \end{aligned}$
$\begin{aligned} \sigma_{boy}=&\frac{1}{\sum_{i=1}^{N}\gamma(i,boy)}\sum_{i=1}^{N}\gamma(i,boy)*(X_i-\mu_{boy})^2 \tag{2.4-3}\\ \end{aligned}$
$\begin{aligned} \sigma_{girl}=&\frac{1}{\sum_{i=1}^{N}\gamma(i,girl)}\sum_{i=1}^{N}\gamma(i,girl)* (X_i-\mu_{girl})^2 \tag{2.4-4}\\ \end{aligned}$
$\begin{aligned} \pi_{boy}=&\frac{\sum_{i=1}^{N}*\gamma(i,boy)}{N}\tag{2.4-5} \\ \end{aligned}$
$\begin{aligned} \pi_{girl}=&\frac{\sum_{i=1}^{N}*\gamma(i,girl)}{N}\tag{2.4-6} \\ \end{aligned}$

4. 根据公式 (2.4-1,2.4-2,2.4-3,2.4-4, 2.4-5,2.4-6) 所得，重复上述步骤，直到迭代次数完毕为止或者误差极其小为止。

3. 从极大后验概率看EM算法

3.1 数据准备

若假设训练集由 $K$ 个混合分布组成，且观测变量为 $\boldsymbol{X}=[\boldsymbol{x_1}, \boldsymbol{x_2}, ..., \boldsymbol{x_N}]^T$ ，给定每个样本具有 $d$ 个特征值，未观测数据 $\boldsymbol{z}=[z_1, z_2, ..., z_N]^T$ ， $\theta$ 为对应的参数。

3.2 EM算法的科学推导

3.2.1 明确隐变量，写出似然函数

对于不含隐变量的数据而言，混合多元分布的似然函数可以写成
$\begin{aligned} log(L_{\theta})= \sum_{i=1}^{N} log(\sum_{k=1}^{K} \pi_kp(\boldsymbol{x_i}; \theta))\\ \tag{2.2} \end{aligned}$
实际生活中，我们却不得不考虑隐变量，因此，需要稍微变动一下。公式(1.13)就变成了：
$\begin{aligned} log(L_{\theta}) =& \sum_{i=1}^{N}log(\sum_{k=1}^{K}\pi_{k}p(\boldsymbol{x_i},z_i;\theta))\\ \tag{3.1} \end{aligned}$

在进行下一步之前，需要明确的问题：

1. 隐变量与高斯混合分布的关系是怎样的?
隐变量与高斯混合分布是一一对应的，隐变量反映了观测数据来自K个高斯混合分布中的哪一个分布。在身高例子中， $z_i=boy$ 说明，第 $i$ 个变量来自于“男”这个高斯分布。
因此，第 $i$ 个样本的隐随机变量 $z_i$ 的可能的取值为 $Z=\{1,2,...,k\},1 \leq k \leq K$ 。

在上述条件的基础下，有人找到了一个这样一个东西：第 $i$ 个样本的隐随机变量 $z_i$ 满足某个分布 $Q_i$ ， $Q_i(z_i)>0$ ，则公式(2.3)又可以写成：
$\begin{aligned} log(L_{\theta})=&\sum_{i=1}^{N} log(\sum_{z_i}^{\boldsymbol{Q_i(Z)}}\pi_{z_i}p(\boldsymbol{x_i},z_i;\theta)) \tag{3.2} \end{aligned}$
然后又变换了一下：
$\begin{aligned} log(L_{\theta})=& \sum_{i=1}^{N} log(\sum_{z_i}^{\boldsymbol{Q_i(Z)}}Q_i (z_i)\frac{\pi_{z_i}p(\boldsymbol{x_i},z_i;\theta)}{Q_i(z_i)})\\ \tag{3.3} \end{aligned}$

由于 $l o g$ 函数是凸函数，则根据Jensen不等式，公式(2.6)可以改为：
$\begin{aligned} log(L_{\theta})=&\sum_{i=1}^{N} log( \sum_{z_i}^{\boldsymbol{Q_i(Z)}}\pi_{z_i}p(\boldsymbol{x_i},z_i;\theta))\\ =&\sum_{i=1}^{N} log(\sum_{z_i}^{\boldsymbol{Q_i(Z)}}Q_i(z_i)\frac{\pi_{z_i}p(\boldsymbol{x_i},z_i;\theta)}{Q_i(z_i)})\\ \geq& \sum_{i=1}^{N} \sum_{z_i}^{\boldsymbol{Q_i(Z)}}Q_i(z_i) log(\frac{\pi_{z_i}p(\boldsymbol{x_i},z_i;\theta)}{Q_i(z_i)}) \tag{3.4} \end{aligned}$

3.2.2 构建并求解下界函数

3.2.2.1 E-step

在2.1.1节中提到，当下界函数的极大值与 $l(\theta)$ 在该点的取值相等时，则说明该点为 $l(\theta)$ 的极大值。那么，什么时候会出现这种情况呢？
如果公式(1.5)中的变量 $x$ 是常数呢，那么，此时等号也成立。此时有
$\frac{p(\boldsymbol{x_i},z_i;\theta)}{Q_i(z_i)}=C,\ C是一个常数。\tag{3.5}$
则公式(3.5)可以改写成
$p(\boldsymbol{x_i},z_i;\theta)=Q_i(z_i)*C\tag{3.6}$
两边同时累加可得
$\begin{aligned} \sum_{z_i}^{\boldsymbol{Q_i(Z)}}p(\boldsymbol{x_i},z_i;\theta) =& \sum_{z_i}^{\boldsymbol{Q_i(Z)}}Q_i(z_i)*C\\ \sum_{z_i}^{\boldsymbol{Q_i(Z)}}p(\boldsymbol{x_i},z_i;\theta) =& C \tag{3.7} \end{aligned}$
结合公式 $(3.7)$ 与公式 $(3.6)$ 可知：
$\begin{aligned} Q_i(z_i)=&\frac{p(\boldsymbol{x_i},z_i;\theta)}{ \sum_{z_i}^{\boldsymbol{Q_i(Z)}}p(\boldsymbol{x_i},z_i;\theta)} \\ =&\frac{p(\boldsymbol{x_i},z_i;\theta)}{p(\boldsymbol{x_i};\theta)}\\ =&p(z_i|\boldsymbol{x_i};\theta) \tag{3.8} \end{aligned}$
所以，若 $Q_i(z_i)$ 为给定第 $i$ 个样本 $\boldsymbol{x_i}$ 的条件下，随机变量 $\boldsymbol{Z}=z_i$ 的条件概率时，等号成立。(对于身高198的人来说，若求的是男生的参数估计时，需要计算在身高198的条件下，性别是男的概率。

3.2.2.2 M-step

$\begin{aligned} log(L_{\theta})=& \sum_{i=1}^{N} \sum_{z_i}^{\boldsymbol{Q_i(Z)}}Q_i(z_i)log(\frac{p(\boldsymbol{x_i},z_i;\theta)}{Q_i(z_i)}) \\ =& \sum_{i=1}^{N} \sum_{z_i}^{\boldsymbol{Q_i(Z)}}Q_i(z_i) log(\frac{p(\boldsymbol{x_i}|z_i;\theta)p(z_i;\theta)}{Q_i(z_i)}) \tag{3.9} \end{aligned}$
所以，第 $k$ 个分布的参数估计值为：
$\begin{aligned} log(L_{\theta_k})=&\sum_{i=1}^{N}p(z_i=k|\boldsymbol{x_i};\theta) log(\frac{p(\boldsymbol{x_i}|z_i=k;\theta)p(z_i=k;\theta)}{p(z_i=k|\boldsymbol{x_i};\theta)}) \tag{3.10} \end{aligned}$

4. EM算法在高斯混合分布中的应用

在进行下一步之前，需要明确的问题：

1. 高斯混合分布中各个概率的意义?
高斯混合分布的表达式： $P(\boldsymbol{X}|\theta)= \sum_{k=1}^{K} \pi_{k} \phi(\boldsymbol{X};\theta_k)$ ，在公式中
$\pi_{k}$ 代表：隐变量的先验概率
$\phi(\boldsymbol{X};\theta_k)$ 代表：给定隐变量后生成观测变量的条件概率
$P(\boldsymbol{X}|\theta)$ 代表：隐变量与观测变量的联合概率

4.1 代入参数

那么在高斯混合分布中则有：
$\begin{aligned} log(L_{\theta_k})=&\sum_{i=1}^{N}{p(z_i=k|\boldsymbol{x_i};\theta)} log(\frac{\frac{1}{{(2\pi)^{n/2}\boldsymbol{|\Sigma_k|^{1/2}}}}exp(-\frac{1}{2}(\boldsymbol{X_i}-\boldsymbol{\mu_k})^T\boldsymbol{\Sigma_k}^{-1}(\boldsymbol{X_i}-\boldsymbol{\mu_k})\pi_k}{{p(z_i=k|\boldsymbol{x_i};\theta)}})\tag{4.1} \end{aligned}$
公式(4.1)中:

向量 $\boldsymbol{X_i}$ 代表第 $i$ 个样本的特征数据；
向量 $\boldsymbol{\mu_k}$ 代表第 $k$ 个分布的均值；
矩阵 $\boldsymbol{\Sigma_k}$ 代表第 $k$ 个分布的协方差矩阵；
标量 $z_i=k$ 代表第 $i$ 个样本中隐随机变量所属的分布；
标量 $\pi_k$ 代表第 $k$ 个分布所对应的先验概率。

4.2 计算参数 $\mu_k$ 、 $\Sigma_k$ 、 $\pi_k$

对参数 $\mu_k$ 、 $\Sigma_k$ 分别求导，矩阵求导参考。

计算参数 $\mu_k$ 。( $\frac{\partial{\boldsymbol{X^TAX}}}{\partial{\boldsymbol{X}}}=2\boldsymbol{AX}$ ， $\boldsymbol{A}$ 为对称矩阵。)
$\begin{aligned} \bigtriangledown_{\mu_k} log(L_{\theta_k})&=\bigtriangledown_{\mu_k} \sum_{i=1}^{N} Q_i(z_i=k) log(\frac{\frac{1}{{(2\pi)^{n/2}\boldsymbol{|\Sigma_k|^{1/2}}}}exp(-\frac{1}{2}(\boldsymbol{x_i}-\boldsymbol{\mu_k})^T\boldsymbol{\Sigma_k}^{-1}(\boldsymbol{x_i}-\boldsymbol{\mu_k})\pi_k}{Q_i(z_i=k)})\\ &= \bigtriangledown_{\mu_k} \sum_{k=1}^{K}-\frac{1}{2}Q_i(z_i=k)(\boldsymbol{x_i}-\boldsymbol{\mu_k})^T\boldsymbol{\Sigma_k}^{-1}(\boldsymbol{x_i}-\boldsymbol{\mu_k})\\ &= \sum_{i=1}^{N}Q_i(z_i=k)\boldsymbol{\Sigma_k}^{-1}(\boldsymbol{\mu_k}-\boldsymbol{x_i}) \tag{4.2-1} \end{aligned}$
令公式(4.2-1)结果为 $0$ ，则有
$\boldsymbol{\mu_j}=\frac{\sum_{i=1}^{N}Q_i(z_i=k)(\boldsymbol{x_i})}{ \sum_{i=1}^{N}Q_i(z_i=k)}\\\\ 其中，Q_i(z_i=k) = p(z_i=k|\boldsymbol{x_i};\theta) \tag{4.2-2}$
计算参数 $\Sigma_k$ 。
$\begin{aligned} \bigtriangledown_{\mu_k} log(L_{\Sigma_k})&=\bigtriangledown_{\Sigma_k}\sum_{i=1}^{N} Q_i(z_i=k) log(\frac{\frac{1}{{(2\pi)^{n/2}\boldsymbol{|\Sigma_k|^{1/2}}}}exp(-\frac{1}{2}(\boldsymbol{X_i}-\boldsymbol{\mu_k})^T\boldsymbol{\Sigma_k}^{-1}(\boldsymbol{x_i}-\boldsymbol{\mu_k})\pi_k}{Q_i(z_i=k)})\\ &= \bigtriangledown_{\Sigma_k} \sum_{i=1}^{N} -\frac{1}{2}Q_i(z_i=k)(\boldsymbol{x_i}-\boldsymbol{\mu_k})^T\boldsymbol{\Sigma_k}^{-1}(\boldsymbol{x_i}-\boldsymbol{\mu_k})\\ \tag{4.3-1} \end{aligned}$
令公式(4.3-1)结果为 $0$ ，则有
${\Sigma_k}= \frac{\sum_{i=1}^{N}Q_i(z_i=k)(\boldsymbol{x_i}-\boldsymbol{\mu_k})(\boldsymbol{x_i}-\boldsymbol{\mu_k})^T}{\sum_{i=1}^{N}Q_i(z_i=k)}\\ 其中，Q_i(z_i=k) = p(z_i=k|\boldsymbol{x_i};\theta) \tag{4.3-2}$
计算参数 $\pi_k$ 。
在 $\mu_k$ 和 $\Sigma_k$ 已知的情况下，且 $\pi_k \geq 0$ ，有 $\sum _{k'=1}^{K}\pi_k'=1$ 。因此，去掉常数项后，目标函数(4.1)可化简为：
$\begin{aligned} \sum_{i=1}^{N} Q_i(z_i=k) log(\pi_k) \tag{4.4} \end{aligned}$
引入拉格朗日算子：
$\begin{aligned} l(\pi_k)= \sum_{i=1}^{N} Q_i(z_i=k) log(\pi_k)+\lambda(\sum_{k'=1}^{K}\pi_k-1) \tag{4.5} \end{aligned}$
对 $\pi_k$ 求偏导，则有：
$\begin{aligned} \frac{\partial{l(\pi_k)}}{\partial{\pi_k}}= \sum_{i=1}^{N}Q_i(z_i=k) \frac{1}{\pi_k}+\lambda \tag{4.6} \end{aligned}$
令公式(4.6)为0，则有：
$\begin{aligned} 0&= \sum_{i=1}^{N}Q_i(z_i=k) \frac{1}{\pi_k}+\lambda\\ 0&= \sum_{i=1}^{N}Q_i(z_i=k) +\lambda\pi_k\\ \pi_k&=-\frac{1}{\lambda}\sum_{i=1}^{N}Q_i(z_i=k)\tag{4.7-1}\\ \end{aligned}$
$\begin{aligned} 0&=\sum_{j=1}^{K}\sum_{i=1}^{N}Q_i(z_i=k)+\lambda\sum_{k=1}^{K}\pi_k\\ 0&=\sum_{i=1}^{N}1+\lambda\\ \lambda &= -N \tag{4.7-2} \end{aligned}$
所以
$\begin{aligned} \pi_k=\frac{1}{M} \sum_{i=1}^{N}Q_i(z_i=k)\\ \tag{4.8} \end{aligned}$
综上所述：
$\begin{aligned} \boldsymbol{\mu_k}&=\frac{ \sum_{i=1}^{N}Q_i(z_i=k)(\boldsymbol{X_i})}{\sum_{i=1}^{N}Q_i(z_i=k)}\\ {\Sigma_k} &= \frac{\sum_{i=1}^{N}Q_i(z_i=k)(\boldsymbol{X_i}-\boldsymbol{\mu_k})(\boldsymbol{X_i}-\boldsymbol{\mu_k})^T}{\sum_{i=1}^{N}Q_i(z_i=k)}\\ \pi_k&=\frac{1}{M}\sum_{i=1}^{N}Q_i(z_i=k)\\ \end{aligned}$
其中， $Q_i(z_i=k) = p(z_i=k|\boldsymbol{x_i};\theta)$ 。

4.2 EM算法的缺点

对先验的依赖性比较强
没有办法收敛到全局最值，仅能收敛到极值。

5. 流程图

后记

其实到这里EM算法基础部分就介绍完了,但是对与强迫症患者来说, $Q_i(z_i=j)$ 这种关键因子,居然是"凑"出来的,心里难免觉得有些别扭,下面一篇文章(Expectation-Maximum-Algorithm(EM算法之二))给出了另一种思考方法以及EM算法的收敛性证明.

参考文献

《西瓜书》
《统计学习方法》
《人人都懂EM算法》
What is the expectation maximization algorithm?

EntropyPlus

关注

5
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
Expectation-Maximum-Algorithm(EM算法之一)

1. 简要论述了推导EM算法所需要的基础知识.2. 以男女身高为例子简要介绍了EM算法的思想.3. 详细并且完整地推导了EM算法的优化过程4. 以高斯混合分布为例介绍了EM算法在其中的应用.
复制链接

扫一扫