【机器学习】EM算法从小白到理解，附带案例代码

最新推荐文章于 2024-04-15 21:43:55 发布

Day-yong

最新推荐文章于 2024-04-15 21:43:55 发布

阅读量1.4k

点赞数 6

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/Daycym/article/details/85246081

版权

机器学习专栏收录该内容

50 篇文章 46 订阅

订阅专栏

前言

$\quad\quad$ 本篇主要介绍 EM算法 相关内容，首先通过极大似然估计引出 EM算法 的作用，然后通过例子引出 EM算法 ，旨在尽可能的通俗易懂地让大家理解 EM算法 ，最后在介绍 EM算法 算法在高斯混合模型（GMM）中的应用，通过Python实现。

$\quad\quad$ 学习机器学习必定会碰到 EM算法，博主希望通过本篇可以帮助到大家，因为博主也在学习中，所以难免会有错误的地方，还望大家多多指教！

本篇代码可见：Github

一、最大似然估计

学习过数理统计的知道，在参数模型中，最大似然估计法（MLE）是一种参数估计方法，其思想如下：

在没有其他信息的情况下，我们只能认为在一次 随机试验 中发生的事件具有最大的概率。反过来，如果能够使事件发生的概率 最大化 ，那么该事件也就最有可能发生，因此寻找使概率最大化的参数就是很自然的想法了，最大似然估计法就是基于这样的思想。“似然”在这里就是“可能是”的意思。

1、定义似然函数

假设总体 $X$ 是离散总体，其概率分布为 $P(X=x;\theta)$ 记为 $f(x;\theta)$ ，当给定 $\theta$ 时， $f(x;\theta)$ 为 $X$ 在 $x$ 处发生的概率， $\prod_{i=1}^n f(x_i;\theta)$ 为样本 $X_1,X_2,...,X_n$ 在点 $x_1,x_2,...,x_n$ 处发生的概率（联合概率）。当固定 $x_1,x_2,...,x_n$ 时，让 $\theta$ 变化，可能存在某个 $\theta$ 使得概率 $\prod_{i=1}^n f(x_i;\theta)$ 达到最大，记为 $\hat{\theta}$ ，显然它是 $x_1,x_2,...,x_n$ 的函数，即选择的参数 $\hat{\theta}$ 是使概率 $\prod_{i=1}^n f(x_i;\theta)$ 达到最大的最值点，因此称 $\hat{\theta}(X_1,X_2,...,X_n)$ 是参数 $\theta$ 的最大似然估计值。
如果总体 $X$ 是连续型的，则样本 $X_1,X_2,...,X_n$ 在点 $x_1,x_2,...,x_n$ 处发生的概率近似为 $\prod_{i=1}^n f(x_i;\theta)\Delta x_i$ ，由于 $\Delta x_i$ 与参数 $\theta$ 无关，所以 $\prod_{i=1}^n f(x_i;\theta)\Delta x_i$ 与 $\prod_{i=1}^n f(x_i;\theta)$ 关于 $\theta$ 具有相同的最大值点。

因此，定义 似然函数 为：
$L(\theta;x_1,x_2,...x_n) = \prod_{i=1}^n f(x_i; \theta)$

其中 $L(\theta;x_1,x_2,...x_n)$ 表示当给定样本观测值 $x_1, x_2,...,x_n$ 时仅为 $\theta$ 的函数。

2、最大似然估计

$\theta$ 的 最大似然估计 定义为满足：
$L(\hat{\theta};x_1,x_2,...,x_n) = \max_{\theta \in \Theta} L(\theta;x_1,x_2,...x_n)$ 的统计量 $\hat{\theta}(X_1,X_2,...,X_n)$ 。

3、似然方程

利用极值原理，假设似然函数 $L(\theta;x_1,x_2,...x_n)$ 关于 $\theta$ 连续可微，令其偏导数为0：
$\frac{\partial}{\partial \theta} L(\theta;x_1,x_2,...x_n) = 0$
其中：
$\quad\quad \theta=(\theta_1, \theta_2, ..., \theta_k)$
上面方程通常称为似然方程。

由于似然函数是函数相乘的，为了计算方便，我们常常取对数似然函数，很容易知道： $L(\theta;x_1,x_2,...x_n)$ 和 $\ln L(\theta;x_1,x_2,...x_n)$ 在参数空间 $\Theta$ 上具有相同的最大值点，因此似然方程可改写为：

$\frac{\partial}{\partial \theta} \ln L(\theta;x_1,x_2,...x_n) = 0$

通过求解上式得到 $\theta_i(x_1, x_2,...x_n)(i = 1,2,...,k)$ ，记为 $\hat{\theta}_i(x_1, x_2, ..., x_n)$ ，并称之为参数 $\theta_1, \theta_2, .. \theta_k$ 的最大似然估计值。

4、例子解释

$\quad\quad$ 随机选择 $n$ 个男生，我们知道人的身高是满足正态分布的，假设样本 $X_1,X_2,...,X_n$ 来自正态分布 $N(\mu, \sigma^2)$ ，其中参数 $\mu, \sigma^2$ 是未知的，求参数 $\mu, \sigma^2$ 的最大似然估计量 $\mu, \sigma^2$ 。

解：因为总体满足正态分布，所以总体的密度函数为：
$f(x;\mu, \sigma^2) = \frac{1}{\sqrt {2\pi} \sigma} exp({-\frac{(x-\mu)^2}{2\sigma^2}})$
由似然函数的定义得：
$L(\mu, \sigma^2;x_1,x_2,...,x_n) = \prod_{i=1}^n f(x_i; \mu, \sigma^2)$
$=\prod_{i=1}^n \frac{1}{\sqrt {2\pi} \sigma} exp({-\frac{(x_i-\mu)^2}{2\sigma^2}})$
$=(\frac{1}{2\pi \sigma^2})^{\frac{n}{2}}exp(-\frac{\sum_{i=1}^n (x_i - \mu)^2}{2 \sigma^2})$
两边取对数，得：
$\ln L(\mu, \sigma^2;x_1,x_2,...,x_n) = -\frac{n}{2} \ln(2\pi\sigma^2)-\frac{\sum_{i=1}^n (x_i - \mu)^2}{2 \sigma^2}$
对参数 $(\mu, \sigma^2$ 分别求导，得到似然方程：
$\begin{cases} \frac{\partial}{\partial \mu} \ln L(\mu, \sigma^2;x_1,x_2,...,x_n) = \frac{1}{\sigma^2}\sum_{i=1}^n(x_i - \mu)^2 = 0 \\ \\ \frac{\partial}{\partial \sigma^2} \ln L(\mu, \sigma^2;x_1,x_2,...,x_n) =-\frac{n}{2\sigma^2} + \frac{1}{2\sigma^4}\sum_{i=1}^n(x_i - \mu)^2 = 0 \end{cases}$
解得：
$\begin{cases} \mu = \frac{1}{n}\sum_{i=1}^n x_i \\ \\ \sigma^2 = \frac{1}{n}\sum_{i=1}^n(x_i - \overline{x})^2 \end{cases}$

所以参数 $\mu, \sigma^2$ 的最大似然估计量为 $\hat{\mu} = \frac{1}{n}\sum_{i=1}^n x_i$ ， $\hat{\sigma^2} = \frac{1}{n}\sum_{i=1}^n(x_i - \overline{x})^2$ 。

5、求极大似然估计量的一般步骤

写出似然函数；
取对数似然函数，并整理；
求导数，令导数为0，得到似然方程；
求解似然方程，得到的参数即为所求；

$\quad\quad$ 通过以上分析，我们可以知道极大似然估计（MLE）就是利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值的计算过程。简单地说，就是给定了一定的数据，假定知道数据是从某种分布中随机抽取出来的，但是不知道这个分布的具体的参数值，即“模型已定，参数未知”，MLE就可以用来估计模型的参数。MLE的目标是找出一组参数（模型中的参数），使得模型产出数据的概率最大。

二、引出 `EM算法`

现在我们已经知道，极大似然估计就是：知道模型，反推参数。

$\quad\quad$ 下面我们将上面的例子进一步延伸，前面我们只随机选取了 $n$ 个男生，这次我们随机选取 100 个男生和 100 个女生，他/她们的身高组成样本集 $X = (X_1, X_2, ...,X_n) (n =200)$ ，假定男生的身高服从正态分布： $N(\mu_1, \sigma_1^2)$ ，女生的身高服从另一个正态分布： $N(\mu_2, \sigma_2^2)$ ，但是我们不知道具体的模型参数 $\mu,\sigma^2$ ，现在我们的目标就是求未知的模型参数。

1、思考

$\quad\quad$ 这个例子也是：知道模型，反推参数，但是我们发现此时有两个模型的参数需要求，而极大似然估计法中的概率分布只有一个或者我们知道上面的样本哪个是男生哪个是女生（即：知道样本是通过哪个概率分布得到的），只不过我们不知道这个概率分布的参数，此时求解只需要根据模型对应的样本求解相应模型的参数，分别进行类似的求解就可以得到两个模型的参数。

$\quad\quad$ 但是现在这100个男生和100个女生混合在一起了，我们并不知道每个样本是来自哪个概率分布，这个时候样本来自哪个概率分布就成了一个 隐变量 （本例也就是样本是男生还是女生）。

通常来说，我们只有知道了精确的男女生身高的正态分布参数，我们才能知道每一个人更有可能是男生还是女生。反过来，我们只有知道了每个人是男生还是女生，才能尽可能准确地估计男女各自身高的正态分布的参数。

EM算法 便是为了解决上面使用“极大似然估计法”存在的缺陷（含有隐变量）。

2、什么是 `EM算法` ？

EM算法（Expectation-maximization Algorithm，最大期望算法或期望最大化算法），是在概率模型中寻找参数最大似然估计或者最大后验估计的算法，其中概率模型依赖于无法观测的隐性变量：

EM算法 经过两个步骤交替进行计算，是一种迭代算法：

E：计算期望，利用对隐变量的现有估计值，计算其最大似然估计值；
M：最大化，最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中，这个过程不断交替进行。

3、隐变量

$\quad\quad$ 我们知道，EM算法 和 极大似然估计法 区别就在于 EM算法 多了隐变量，那么理解 EM算法 中的隐变量便成了关键。

通常，我们用 $Y$ 表示观测到的随机变量的数据（如上面例子中样本的身高）， $Z$ 表示隐随机变量的数据（如上面例子中观测不到样本是从哪个概率分布中得到的，所以这个叫做隐变量。

完全数据： $Y$ 和 $Z$ 连在一起
不完全数据：仅 $Y$ 一个

EM算法 面临的主要主要问题就是：有个隐变量数据 $Z$ ，如果 $Z$ 已知的话，那么问题就可以通过极大似然估计求解了。那么 EM算法 又是怎么处理这个问题的呢？我们举个例子来说明：

假定你是一个幼儿园老师，有一杯牛奶，现在需要把牛奶 平均分配 给表现优秀的小朋友。如果只有一个表现优秀小朋友那都给他就好了，但是如果有两个表现优秀的小朋友，由于我们不知道到底每个小朋友应该分多少牛奶，所以无法一次性把牛奶平均分配。

相信大家的做法都可以描述如下：

先拿两个杯子，将牛奶随意地分到两个杯子，然后看看哪个杯子中的牛奶多，就把多的杯子往少的杯子中匀一点，之后重复多次这个过程，直到两个杯子中的牛奶一样多。

上面的例子中，平均分配这个果可以看作“观测数据”，为了达到平均分配而给每个杯子分配多少牛奶可以看作“待求参数”，每次比较后匀一点的手感可以看作是“概率分布”。

如果只有一个表现优秀的小朋友，那么概率分布就确定了（就是把牛奶都倒到这个小朋友的杯子里），但是因为有两个表现优秀的小朋友，所以我们无法一次就能够平均分配，不过可以采用上面描述的方式来实现最终的目标。

4、`EM算法`的思想

给参数 $\theta$ 自主初始化个初值（如：既然我们不知道要平均分配牛奶到两个杯子，两个杯子到底要分配多少，那我们可以先估计这个值）；
根据给定观测数据和当前的参数 $\theta$ ，求未观测数据的条件概率分布的期望（如：在上一步中，已经根据初值的概率分布将牛奶分配到两个杯子，然后这一步根据“比较两个杯子各有多少牛奶”来判断此次分配的结果）
上一步中未观测数据已经求出来了，于是根据极大似然估计求最优的参数 $\hat{\theta}$ （上一步中既然分配结果已经有了，那么就根据概率分布判断下杯子里应该有多少牛奶，然后把牛奶匀一下）
因为第二步和第三步的结果可能不是最优的，所以重复第二步和第三步，直到收敛（重复多次匀一点的操作，直到两个杯子的牛奶大致一样多）

5、例子解释

有两个硬币 $A$ 和 $B$ ，假设随机抛硬币后正面朝上的概率分别为 $P_A，P_B$ ，为了顾及这两个硬币正面朝上的概率，我们轮流抛硬币 $A$ 和 $B$ ，每一轮都连续抛5次，总共5轮，观测结果如下：

硬币	结果	统计
A	正正反正反	3正-2反
B	反反正正反	2正-3反
A	正反反反反	1正-4反
B	正反反正正	3正2反
A	反正正反反	2正-3反

根据上表数据，我们知道A硬币抛了15次，B硬币抛了10次，很容易求得：
$P_A = (3+1+2) / 15 = 0.4$
$P_B = (2+3) / 10 = 0.5$
当然，这个结果并不能完全说明 $P_A，P_B$ ，但是要是试验的次数足够多，根据“大数定理”，这个值可以无限接近真实的 $P_A，P_B$ 。

问题来了，要是我们不知道每轮抛的硬币是A还是B呢？然后再轮流抛5轮，观测结果如下：

硬币	结果	统计
未知	正正反正反	3正-2反
未知	反反正正反	2正-3反
未知	正反反反反	1正-4反
未知	正反反正正	3正2反
未知	反正正反反	2正-3反

我们要求的目标没有变，还是求：硬币A和B正面朝上的概率 $P_A，P_B$ 。

此时，该问题就多了一个硬币种类的隐变量，设为 $Z=(z_1,z_2,z_3,z_4,z_5)$ ，代表每轮抛硬币所使用的硬币是A还是B

其中这个隐变量 $Z$ 我们是不知道，就无法估计 $P_A，P_B$ ，所以我们必须先估计出 $Z$ ，然后才能进一步估计 $P_A，P_B$ ；
但是要估计 $Z$ ，我们又要知道 $P_A，P_B$ ，这样我们才能用极大似然估计法去估计 $Z$ ，那么这不就是鸡生蛋和蛋生鸡的问题了吗？那么又该如何解决呢？

答案就是：先随机初始化一个 $P_A，P_B$ ，用它来估计 $Z$ ，然后基于 $Z$ ，还是按照极大似然估计法去估计新的 $P_A，P_B$ ，如果新的 $P_A，P_B$ 和我们初始化的 $P_A，P_B$ 一样，那么说明：我们初始化的值是一个相当靠谱的估计！也就是说，我们初始化的 $P_A，P_B$ ，按照最大似然估计法可以估计出 $Z$ ，然后基于 $Z$ ，按照最大似然估计法可以反过来估计出 $P_1，P_2$ ，当 $P_1，P_2$ 和 $P_A，P_B$ 一样时，说明 $P_1，P_2$ 很有可能就是真实的值。如果新估计出来的 $P_A，P_B$ 和我们初始化的值差别很大，就继续使用新的 $P_A，P_B$ 进行迭代，直到收敛。

不妨假设， $P_A = 0.2，P_B=0.7$ ；然后我们看第一轮抛掷的最可能的是哪个硬币：

如果是硬币A，得出3正2反的概率为：
$0.2 * 0.2 * 0.2 * 0.8 * 0.8 = 0.00512$
如果是硬币B，得出3正2反的概率为：
$0.7 * 0.7 * 0.7 * 0.3 * 0.3 = 0.03087$

然后依次求出其他四轮的相应概率，如下表：

轮数	若是硬币A	若是硬币B	按照最大似然法则
1	3正-2反——0.00512	3正-2反——0.03087	最有可能的是硬币B
2	2正-3反——0.02048	2正-3反——0.01323	最有可能的是硬币A
3	1正-4反——0.08192	1正-4反——0.00567	最有可能的是硬币A
4	3正2反——0.00512	3正2反——0.03087	最有可能的是硬币B
5	2正-3反——0.02048	2正-3反——0.01323	最有可能的是硬币A

此时根据更有可能的硬币计算新的 $P_A，P_B$ ：
$P_A = (2+1+2) / 15 = 0.33$
$P_B = (3+3) / 10 = 0.6$

至此，我们得到如下表：

初始化的 $P_A$	估计出的 $P_A$	真实的 $P_A$	初始化的 $P_B$	估计出的 $P_B$	真实的 $P_B$
0.2	0.33	0.4	0.7	0.6	0.5

其中，将上文中得到的 $P_A= 0.4，P_B = 0.5$ 两个值称为 $P_A，P_B$ 的真实值。

由上表可以看出，我们估计的新的 $P_A，P_B$ 相比于它们的初始值更接近它们的真实值了，就这样重复迭代，不断接近真实值，这就是 EM算法 的奇妙之处了。

三、`EM算法`

1、三硬币模型

假设有3枚硬币，分别记作 $A, B, C$ ，这些硬币正面出现的概率分别是 $\pi,p,q$ ，进行如下试验：
先掷硬币 $A$ 根据其结果选出硬币 $B$ 或者硬币 $C$ ，正面选硬币 $B$ ，反面选硬币 $C$ ；然后掷出选出的硬币，出现正面记为1，反面记为0；独立地重复 $n$ 次试验（这里 $n$ 取10），观测结果如下：
1101001101
假设只能观测到掷硬币的结果，不能观测掷硬币的过程，问如何估计三个硬币正面出现的概率，即三硬币模型的参数。

三硬币模型可写为：
$p(x|\theta) = \sum_z p(x,z|\theta) = \sum_z p(z|\theta)p(x|z, \theta) \\ = \pi p^x(1-p)^{1-x}+ (1-\pi)q^x(1-q)^{1-x}$

这里，随机变量 $x$ 是观测变量，表示一次试验观测的结果1或0；随机变量 $z$ 是隐变量，表示未观测到的掷硬币 $A$ 的结果； $\theta=(\pi,p,q)$ 是模型参数。
$p (A B) = p (A) p (B ∣ A)$

下面将观测数据表示为 $X = (x_1,x_2,...,x_n)^T$ ，未观测数据表示为 $Z = (z_1,z_2,...,z_n)^T$ ，则观测数据的似然函数为：
$p(X|\theta) = \sum_z p(Z|\theta)p(X|Z,\theta)$
即：
$p(X|\theta) = \prod_{j=1}^{n}[\pi p^{x_j}(1-p)^{1-x_j}+ (1-\pi)q^{x_j}(1-q)^{1-x_j}]$
考虑求模型参数 $\theta=(\pi,p,q)$ 的极大似然估计，取对数似然：

$\theta_{MLE} = arg \max_\theta log \ p(X|\theta)$

EM算法 通过迭代求 $\mathcal{L}(\theta) = log \ p(X|\theta)$ 的极大似然估计。每次迭代包含两步：
E步：求期望；M步：求极大化。

此问题的求解可见下文第三大点

2、`EM算法`

输入：观测变量数据 $X$ ，隐变量数据 $Z$ ，联合分布 $p(X,Z|\theta)$ ，条件分布 $p(Z|X,\theta)$ ;

输出：模型参数 $\theta$

（1）选择参数的初值 $\theta^{(0)}$ ，开始迭代；
（2）E步：记 $\theta^{(i)}$ 为第 $i$ 次迭代参数 $\theta$ 的估计值，在第 $i + 1$ 次迭代的E步，计算：
$Q(\theta,\theta^{(i)} )= E_z[log \ p(X,Z|\theta)|X,\theta^{(i)}] \\ =\sum_z p(X,Z|\theta)p(Z|X,\theta^{(i)})$

这里， $p(Z|X,\theta^{(i)})$ 表示在给定观测数据 $X$ 和当前的参数估计 $\theta^{(i)}$ 下隐变量数据 $Z$ 的条件概率分布；

（3）M步：求使 $Q(\theta,\theta^{(i)} )$ 极大化的 $\theta$ ，确定第 $i + 1$ 次迭代的参数估计值 $\theta^{(i+1)}$
$\theta^{(i+1)} = arg \max_\theta Q(\theta,\theta^{(i)} )$
（4）重复第（2）步和第（3）步，直到收敛。

注：

函数 $Q(\theta,\theta^{(i)} )$ 是 EM算法 的核心，称为Q函数。
参数的初值可以任意选择，但 EM算法 对初值是敏感的
$Q(\theta,\theta^{(i)} )$ 中 $\theta$ 表示要极大化的参数， $\theta^{(i)}$ 表示当前估计值，每次迭代实际在求Q函数及其极大化
M步求Q函数的极大化，得到 $\theta^{(i+1)}$ ，完成一次迭代
第（4）步给出停止迭代的条件，一般是对较小的正数 $\mathcal{E}_1,\mathcal{E}_2$ ，若满足：
$||\theta^{(i+1)}-\theta^{(i)}|| \leqslant \mathcal{E}_1,或 ||Q(\theta^{(i+1)},\theta^{(i)} )-Q(\theta^{(i)} ,\theta^{(i)} )|| \leqslant \mathcal{E}_2$
则停止迭代。

3、 `EM算法` 公式推导

$\quad\quad$ 上面我们给出了 EM算法 ，那么为什么 EM算法 能近似实现对观测数据的极大似然估计呢？下面通过近似求解观测数据的对数似然函数的极大化问题来导出 EM算法 。

由上面内容可以知道，极大化观测数据 $X$ 关于参数 $\theta$ 的对数似然函数，即极大化：
$\mathcal{L}(\theta) = log\ p(X|\theta) = log \ \sum_z p(X,Z|\theta)= log \Big(\sum_z p(X|Z,\theta)p(Z|\theta)\Big)$

注意到：上式中有未观测数据并包含和的对数

事实上， EM算法 是通过迭代逐步近似极大化 $\mathcal{L}(\theta)$ 的。

假设在第 $i$ 次迭代后 $\theta$ 的估计值是 $\theta^{(i)}$ ，我们希望新估计值 $\theta$ 能使 $\mathcal{L}(\theta)$ 增加，即 $\mathcal{L}(\theta) > \mathcal{L}(\theta^{(i)})$ ，并逐步达到极大值，为此考虑两者的差：
$\mathcal{L}(\theta) - \mathcal{L}(\theta^{(i)}) = log \Big(\sum_z p(X|Z,\theta)p(Z|\theta)\Big) - log\ p(X|\theta^{(i)})$

log函数为凹函数，利用 $J e n s e n$ 不等式（关于Jensen不等式可看下面第4点），即：函数的期望小于等于期望的函数
$\sum_j \lambda_jy_i \geqslant \sum_j \lambda_j log\ y_j$
其中 $\lambda_j \geqslant 0, \sum_j \lambda_j = 1$

将两者差的式子前部分分子分母同时乘以 $p(X|Z,\theta^{(i)})$ ，在利用凹函数的Jensen不等式：

$\mathcal{L}(\theta) - \mathcal{L}(\theta^{(i)}) = log \big(\sum_z p(X|Z,\theta^{(i)})\frac{p(X|Z,\theta)p(Z|\theta)}{p(X|Z,\theta^{(i)})}\big) - log\ p(X|\theta^{(i)}) \\ \geqslant \sum_z p(Z|X,\theta^{(i)})log\frac{p(X|Z,\theta)p(Z|\theta)}{p(Z|X,\theta^{(i)})} - log\ p(X|\theta^{(i)}) \\ = \sum_z p(Z|X,\theta^{(i)})log\frac{p(X|Z,\theta)p(Z|\theta)}{p(Z|X,\theta^{(i)})p(X|\theta^{(i)})}$

令：
$B(\theta,\theta^{(i)}) = \mathcal{L}(\theta^{(i)})+\sum_z p(Z|X,\theta^{(i)})log\frac{p(X|Z,\theta)p(Z|\theta)}{p(Z|X,\theta^{(i)})p(X|\theta^{(i)})}$
则：
$\mathcal{L}(\theta) \geqslant B(\theta,\theta^{(i)})$
即函数 $B(\theta,\theta^{(i)})$ 是 $\mathcal{L}(\theta)$ 的一个下届，因此任何使 $B(\theta,\theta^{(i)})$ 增大的 $\theta$ 都会使 $\mathcal{L}(\theta)$ 的下届增大，也即使 $\mathcal{L}(\theta)$ 增大，为了使 $\mathcal{L}(\theta)$ 尽可能的大，自然选择使 $B(\theta,\theta^{(i)})$ 达到最大的 $\theta^{(i+1)}$ ，即：
$\theta^{(i+1)} = arg \max_\theta B(\theta,\theta^{(i)})$

现在求 $\theta^{(i+1)}$ 的表达式，省去对 $\theta$ 的极大化而言的常数的项，有：
$\theta^{(i+1)} = arg \max_\theta \big(\mathcal{L}(\theta^{(i)})+\sum_z p(Z|X,\theta^{(i)})log\frac{p(X|Z,\theta)p(Z|\theta)}{p(Z|X,\theta^{(i)})p(X|\theta^{(i)})} \big) \\ = arg \max_\theta \big(\sum_z p(Z|X,\theta^{(i)})log \ (p(X|Z,\theta)p(Z|\theta))\big) \\ = arg \max_\theta \big(\sum_z p(Z|X,\theta^{(i)})log \ (p(X,Z|\theta)\big) \\ = arg \max_\theta Q(\theta,\theta^{(i)})$

$E M$ 算法是通过不断求解下界的极大化逼近求解对数似然函数极大化的算法。

在这里插入图片描述

上图给出 $E M$ 算法的直观解释。图中上方曲线为 $\mathcal{L}(\theta)$ ，下方曲线为 $B(\theta,\theta^{(i)})$ ，图中在点 $\theta = \theta^{(i)}$ 处时 $\mathcal{L}(\theta)$ 并没用达到极大值，这时使 $B(\theta,\theta^{(i)})$ 极大化，由于 $\mathcal{L}(\theta) \geqslant B(\theta,\theta^{(i)})$ ，所以 $\mathcal{L}(\theta)$ 在每次迭代中也是增加的。
在这个过程中， $\mathcal{L}(\theta)$ 不断增大，从图中可以看出 EM算法 不能保证找到全局最优解。

使用迭代必须保证 $p(X|\theta^{(i)}）$ 单调递增：
$\ p(X|\theta^{(i+1)}) \geqslant log \ p(X|\theta^{(i)})$
证明：
由：
$\frac{p(X,Z)}{p(Z|X)}$
得到：
$E[log\ p(X|\theta)] = E[log \ p(X,Z|\theta)-log \ p(Z|X,\theta)]$

求期望，连续变量即求积分，离散变量即求和，上面我们用的都是求和，这个使用求积分，是为了让大家理解上面求和符号怎么来的。

上式左端：
$\int_z log \ p(X|\theta)p(Z|X,\theta^{(i)})dz = log \ p(X|\theta)$

这个式子中， $\ p(X|\theta)$ 不包含 $z$ ，所以可以提出来；而 $\int_zp(Z|X,\theta^{(i)})dz = 1$ ，也就是说在观测数据 $X$ 下，属于某个分布 $z_i$ 的概率，对属于每个分布的求积分（即一个数据属于每个分布的概率的和，自然等于1）

上式右端：
$\int_z log \ p(X,Z|\theta)p(Z|X,\theta^{(i)})dz-\int_z log \ p(Z|X,\theta)p(Z|X,\theta^{(i)}dz$
上式减号左边的式子与上面 $\theta^{(i+1)}$ 中的式子一样，我们将其设为 $Q(\theta, \theta^{(i)})$ ，减号后面一项设为 $H(\theta, \theta^{(i)})$

那么对数似然函数（等式）可写为：
$\ p(X|\theta) = Q(\theta, \theta^{(i)}) - H(\theta, \theta^{(i)})$

因为求得是极大似然函数估计，那么 $Q(\theta^{(i+1)}, \theta^{(i)}) \geqslant Q(\theta, \theta^{(i)})$ ；

假如对于所有的 $\theta$ 都有 $H(\theta^{(i)}, \theta^{(i)}) \geqslant H(\theta, \theta^{(i)})$
=> 那么 $H(\theta^{(i)}, \theta^{(i)}) \geqslant H(\theta^{(i+1)}, \theta^{(i)})$

这样一来，对数似然函数就会逐渐增大。

那么我们又该如何证明对于所有的 $\theta$ 都有 $H(\theta^{(g)}, \theta^{(g)}) \geqslant H(\theta, \theta^{(g)})$

证明：
$H(\theta^{(i)}, \theta^{(i)}) - H(\theta, \theta^{(i)}) \geqslant 0 \\ = \int_z log \ p(Z|X,\theta^{(i)})p(Z|X,\theta^{(i)})dz - \int_z log \ p(Z|X,\theta)p(Z|X,\theta^{(i)})dz \\ = \int_z log(\frac{p(Z|X,\theta^{(i)})}{p(Z|X,\theta)})p(Z|X,\theta^{(i)})dz \\ = - \int_z log(\frac{p(Z|X,\theta)}{p(Z|X,\theta^{(i)})})p(Z|X,\theta^{(i)})dz$
利用 $J e n s e n$ 不等式（函数的期望大于等于期望的函数）：
$\geqslant -log \int_z\frac{p(Z|X,\theta)}{p(Z|X,\theta^{(i)})}p(Z|X,\theta^{(i)})dz = 0$

上式 $l o g$ 中：
$\int_z\frac{p(Z|X,\theta)}{p(Z|X,\theta^{(i)})}p(Z|X,\theta^{(i)})dz=1$
消去 $p(Z|X,\theta^{(i)})$ 为：
$\int_zp(Z|X,\theta)dz = 1$

4、Jensen不等式

设 $f$ 是定义域为实数的函数：

如果对于所有的实数 $x$ ， $f (x)$ 的二次导数 $\geqslant 0$ ，那么 $f$ 是凸函数；
当 $x$ 是向量时，如果其 hessian矩阵 $H$ 是半正定的（ $\geqslant 0$ ），那么 $f$ 是凸函数；
如果 $\geqslant 0$ 或者 $\geqslant 0$ ，那么 $f$ 是严格凸函数。

Jensen不等式 表述如下：

如果 $f$ 是凸函数， $X$ 是随机变量，那么：
$\geqslant f(E[X])$

也即：函数的期望大于等于期望的函数

特别地，如果 $f$ 是严格凸函数，当且仅当 $P (X = E [X]) = 1$ ，即 $X$ 是常量时，上式取等号

在这里插入图片描述

当 $f$ 是凹函数，不等号方向反向即可，即 $\leqslant f(E[X])$

四、三硬币模型 `EM算法` 求解

在前面我们提到了三硬币模型，这里我们给出具体的计算过程，以及Python代码实现

首先前面我们得到了：

对数似然：

$\theta_{MLE} = arg \max_\theta log \ p(X|\theta)$

EM算法 是通过迭代求 $\mathcal{L}(\theta) = log \ p(X|\theta)$ 的极大似然估计。每次迭代包含两步：

E步：求期望；M步：求极大化。

1、使用 `EM算法` 求解

符号标记：

$x_j$ 为第 $j$ 次实验的观测，只有两个取值0/1；
$Z$ 为隐变量，表示抛硬币 $A$ 出现的结果，该变量只有两个取值 0/1；
$z_j$ 为第 $j$ 次实验时，抛硬币 $A$ 出现的结果，同样的， $z_j=1$ 表示硬币 $A$ 抛出正面；
$\theta$ 表示模型参数集合 $\pi，p，q$ ；
$\theta^{(i)}$ 为第 $i$ 次迭代时， $\pi，p，q$ 的估计值。

E步：

完全数据的对数似然函数为：
$log(p(X,Z|\theta)) = log (\prod_{j=1}^n p(x_j,z_j|\theta)) \\ = \sum_{j=1}^nlog(p(x_j,z_j|\theta))$

期望为：

$E_{Z|X,\theta^{(i)}}[log(p(X,Z|\theta)) ]=\sum_{j=1}^n\sum_{z_j}[p(z_j|x_j,\theta^{(i)})log(p(x_j,z_j|\theta))]$
$=\sum_{j=1}^n\Big[[p(z_j=1|x_j,\theta^{(i)})log(p(x_j,z_j=1|\theta))]+[p(z_j=0|x_j,\theta^{(i)})log(p(x_j,z_j=0|\theta))]\Big]$

上式中 $z_j$ 只有两个取值；

对于后验概率 $p(z_j|x_j;\theta^{(i)})$ ，这里先求 $z_j=1$ 的情况， $z_j=0$ 的情况类似：
$\mu_j^{(i+1)} = p(z_j=1|x_j;\theta^{(i)})$
$\frac{p(x_j|z_j=1)p(z_j=1)}{ p(x_j)}$

上式用到贝叶斯公式：
$\frac{p(B|A)p(A)}{p(B)}$

又：
$p(x_j) = \sum_{z_j}p(x_j,z_j)$

所以上式：
$\frac{p(x_j|z_j=1)p(z_j=1)}{ \sum_{z_j}p(x_j,z_j)}$
$\frac{p(x_j|z_j=1)p(z_j=1)}{ p(x_j,z_j=1)+p(x_j,z_j=0)}$
$\mu_j^{(i+1)}=\frac{(p^{(i)})^{x_j}(1-p^{(i)})^{(1-x_j)} \times \pi^{(i)}}{(p^{(i)})^{x_j}(1-p^{(i)})^{(1-x_j)} \times \pi^{(i)}+(q^{(i)})^{x_j}(1-q^{(i)})^{(1-x_j)} \times (1-\pi^{(i)})}$

其实，上式也就是在模型参数 $\theta^{(i)}$ 下，观测数据 $x_j$ 来自硬币 $B$ 的概率，那么来自硬币 $C$ 的概率可以表示为：
$\mu_j^{(i+1)}$

对于联合概率 $p(x_j,z_j|\theta)$ ：
$p(x_j,z_j=1|\theta) = p(x_j|z_j=1,\theta)p(z_j=1|\theta)$
$=\pi p^{x_j}(1-p)^{1-x_j}$

上式用到：
$p (B A) = p (A B) = p (B ∣ A) p (A)$

同样：
$p(x_j,z_j=0|\theta) = p(x_j|z_j=1,\theta)p(z_j=0|\theta)$
$=(1-\pi) q^{x_j}(1-q)^{1-x_j}$

所以最终结果为：

$E_{Z|X,\theta^{(i)}}[log(p(X,Z|\theta)) ]$
$=\sum_{j=1}^n\Big[[p(z_j=1|x_j,\theta^{(i)})log(p(x_j,z_j=1|\theta))]+[p(z_j=0|x_j,\theta^{(i)})log(p(x_j,z_j=0|\theta))]\Big]$
$=\sum_{j=1}^n\Big[[\mu_j^{(i+1)} \times log(\pi p^{x_j}(1-p)^{1-x_j}]+[(1- \mu_j^{(i+1)})\times log((1-\pi) q^{x_j}(1-q)^{1-x_j}]\Big]$

令：

$\sum_{j=1}^n\Big[[\mu_j^{(i+1)} \times log(\pi p^{x_j}(1-p)^{1-x_j}]+[(1- \mu_j^{(i+1)})\times log((1-\pi) q^{x_j}(1-q)^{1-x_j}]\Big]$

M步：

对上面的期望最终表达式求偏导，并令偏导数为0，来估计每个参数：

（1）估计参数 $\pi$

对 $\pi$ 求偏导，其中 $\mu^{(i+1)}$ 为常数：

$\frac{\partial f}{\partial \pi} = \sum_{j=1}^n \Big\{\mu_j^{(i+1)} \times \frac{1}{\pi} - (1- \mu_j^{(i+1)}) \times \frac{1}{1 - \pi}\Big\}$
$=\sum_{j=1}^n\Big\{\frac{\pi - \mu_j^{(i+1)}}{\pi(1-\pi)}\Big\}$
$\frac{n\pi - \sum_{j=1}^n \mu_j^{(i+1)}}{\pi(1-\pi)}=0$
求得 $\pi$ 的估计为：
$\pi = \frac{1}{n} \sum_{j=1}^n \mu_j^{(i+1)}$

（2）估计参数 $p$

对 $p$ 求偏导：
$\frac{\partial f}{\partial p} =\sum_{j=1}^n\mu_j^{(i+1)} \times \frac{\pi\Big\{x_jp^{x_j-1}(1-p)^{1-x_j} + p^{x_j}[-(1-x_j)(1-p)^{-x_j}]\Big\}}{\pi p^{x_j}(1-p)^{1-x_j}}$
$=\sum_{j=1}^n\mu_j^{(i+1)} \times \Big\{x_j p^{-1}+[-(1-x_j)(1-p)^{-1}]\Big\}$
$=\sum_{j=1}^n\mu_j^{(i+1)} \times \Big\{\frac{x_j}{p}-\frac{1-x_j}{1-p}\Big\}$
$=\sum_{j=1}^n\mu_j^{(i+1)} \times \Big\{\frac{x_j(1-p)+p(x_j-1)}{p(1-p)}\Big\}$
$=\sum_{j=1}^n\mu_j^{(i+1)} \times \Big\{\frac{x_j-p}{p(1-p)}\Big\} = 0$

求得 $p$ 的估计为：
$\frac{\sum_{j=1}^n \mu_j^{(i+1)}x_j}{\sum_{j=1}^n \mu_j^{(i+1)}}$

（3）估计参数 $q$

对 $q$ 求偏导：

$\frac{\partial f}{\partial q} = \sum_{j=1}^n(1-\mu_j^{(i+1)})\times\frac{(1-\pi)\Big\{x_jq^{x_j-1}(1-q)^{1-x_j}+q^{x_j}[-(1-x_j)(1-q)^{-x_j}]\Big\}}{(1-\pi)q^{x_j}(1-q)^{1-x_j}}$
$=\sum_{j=1}^n(1-\mu_j^{(i+1)})\times \Big[x_jq^{-1}+(x_j-1)(1-q)^{-1}\Big]$
$=\sum_{j=1}^n(1-\mu_j^{(i+1)})\times\Big[\frac{x_j}{q}+\frac{x_j-1}{1-q}\Big]$
$=\sum_{j=1}^n(1-\mu_j^{(i+1)})\times \frac{x_j-q}{q(1-q)}=0$

求得 $q$ 的估计为：

$\frac{\sum_{j=1}^n (1-\mu_j^{(i+1)})x_j}{\sum_{j=1}^n (1-\mu_j^{(i+1)})}$

2、具体数字计算

假设模型参数的初始值为：

$\pi^{(0)}=0.5,p^{(0)}=0.5,q^{(0)}=0.5$

由 $\mu_j^{(i+1)}$ 公式，对 $x_j=1$ 与 $x_j=0$ 均有：

$\mu_j^{(1)} = 0.5$

根据参数迭代公式，可得：

$\pi^{(1)}=0.5,p^{(1)}=0.6,q^{(1)}=0.6$

在根据更新后的参数，更新 $\mu_j^{(2)}$ ：

$\mu_j^{(2)}=0.5$

继续迭代：

$\pi^{(2)}=0.5,p^{(2)}=0.6,q^{(2)}=0.6$

此时，参数不发生改变，所以得到模型参数的极大似然估计为：

$\hat{\pi}=0.5,\hat{p}=0.6,\hat{q}=0.6$

3、Python代码实现

代码可见：01_三硬币模型EM算法求解

运行结果：

init prob:0.5, 0.5, 0.5
1/10  pro_a:0.500, pro_b:0.600, pro_c:0.600
2/10  pro_a:0.500, pro_b:0.600, pro_c:0.600
init prob:0.4, 0.6, 0.7
1/10  pro_a:0.406, pro_b:0.537, pro_c:0.643
2/10  pro_a:0.406, pro_b:0.537, pro_c:0.643

由运行结果可见：

不同初始化值会得到不同的参数估计值，也就是说 EM算法 与初值的选择有关，选择不同的初值可能得到不同的参数估计值。

五、`EM算法` 在高斯混合模型中的应用

在这里插入图片描述

1、单个高斯分布

$\quad\quad$ 如上左图，假如我们有一些数据，这些数据来自同一个高斯分布（独立同分布），那么我们如何根据这些数据估计出这个高斯分布的参数呢？我们知道只要知道高斯分布的参数 $\theta=\{\mu,\sigma^2\}$ 就能确定此高斯分布。

$\quad\quad$ 前面第一大点：最大似然估计中第4点的例子解释，便可以根据观测数据来计算出未知的模型参数，从而确定数据的分布。

2、高斯混合模型

$\quad\quad$ 如上右图中的红色曲线，是一个高斯混合模型，此处只画了两个高斯分布，可以是多个高斯分布。

$\quad\quad$ 如果我们知道每一个数据属于哪一个高斯分布，就会很容易求解，但是我们不可能都知道的，这时随便一个数据点，我们应该如何判断它是哪个高斯分布产生的呢？

假定高斯混合模型 (Gaussian Mixture Model, GMM)是指由多个高斯模型线性叠加混合而成，那么概率密度函数可以表述如下：

这里我们引入 $\alpha_k$ 表示属于第 $k$ 个高斯分布的权重，并满足 $\sum_{k=1}^{K} \alpha_k = 1$

这样我们可以得到：

$p(X|\theta) = \sum_{k=1}^{K} \alpha_k \mathcal{N}(\mu_k, \sigma^2_k) \\ \sum_{k=1}^{K} \alpha_k= 1$

其中 $\mathcal{N}(\mu_k, \sigma^2_k)$ 是高斯分布， $\alpha_k$ 是系数

给出定义：

高斯混合模型是指具有如下形式的概率分布模型：
$p(x|\theta) = \sum_{k=1}^{K}\alpha_k \phi(x|\theta_k)$
其中， $\alpha_k$ 是系数， $\alpha_k\geqslant 0 \sum_{k=1}^{K} \alpha_k= 1$ ； $\phi(x|\theta_k)$ 是高斯分布密度， $\theta_k = (\mu_k, \sigma^2_k)$ ，
$\phi(x|\theta_k) = \frac{1}{\sqrt{2\pi}\sigma_k}exp(-\frac{(x - \mu_k)^2}{2\sigma_k^2})$
称为第 $k$ 个分模型。

3、高斯混合模型参数估计的 $E M$ 算法

假设观测数据 $x_1,x_2,...,x_N$ 由高斯混合模型生成：
$p(x|\theta) = \sum_{k=1}^K\alpha_k \phi(x|\theta_k)$
其中， $\theta = (\alpha_1,\alpha_2,..,\alpha_k;\theta_1,\theta_2,..,\theta_k)$ ，我们用 $E M$ 算法估计高斯混合模型的参数 $\theta$ .

（1）明确隐变量，写出完全数据的对数似然函数

我们设想数据是这样产生的：

首先依概率 $\alpha_k$ 选择第 $k$ 个高斯分布模型 $\phi(x|\theta_k)$ ；
然后依第 $k$ 个分模型的概率分布 $\phi(x|\theta_k)$ 生成观测数据 $x_j$ ，此时观测数据 $x_j$ 是已知的；
反映观测数据 $x_j$ 来自第 $k$ 个分模型的数据是未知的， $k = 1, 2, . . ., K$ ，以隐变量 $\gamma_{jk}$ 表示，其定义如下：
$\gamma_{jk}=\begin{cases} 1,\quad 第j个观测来自第k个分模型 \\ 0, \quad 否则 \\ \end{cases}$
$j = 1, 2, . . ., N; k = 1, 2, . . ., K$

有了观测数据 $x_j$ 及未观测数据 $\gamma_{jk}$ ，那么完全数据是： $(x_j,\gamma_{j1},\gamma_{j2},...,\gamma_{jK})， j = 1,2,...,N$

于是，可以写出完全数据的似然函数：
$p(x,\gamma|\theta) = \prod_{j=1}^Np(x_j,\gamma_{j1},\gamma_{j2},...,\gamma_{jK}|\theta)$
$\prod_{k=1}^K\prod_{j=1}^N[\alpha_k \phi(x_j|\theta_k)]^{\gamma_{jk}}$
$\prod_{k=1}^K\alpha_k^{n_k}\prod_{j=1}^N[\phi(x_j|\theta_k)]^{\gamma_{jk}}$
$\prod_{k=1}^K\alpha_k^{n_k}\prod_{j=1}^N[\frac{1}{\sqrt{2\pi}\sigma_k}exp(-\frac{(x_j - \mu_k)^2}{2\sigma_k^2})]^{\gamma_{jk}}$
式中： $n_k = \sum_{j=1}^N \gamma_{jk},\sum_{k=1}^Kn_k = N$

那么，对数似然函数为：

$\ p(x,\gamma|\theta) = \sum_{k=1}^K n_k log \ \alpha_k + \sum_{j=1}^N \gamma_{jk}\Big[log\Big(\frac{1}{\sqrt{2\pi}}\Big)-log \sigma_k - \frac{1}{2\sigma^2_k}(x_j-\mu_k)^2\Big]$

（2） $E M$ 算法 $E$ 步：确定Q函数
$Q(\theta, \theta^{(i)}) = E[log \ p(x,\gamma | \theta)|x,\theta^{(i)}]$
$E\Big\{ \sum_{k=1}^K n_k log \ \alpha_k + \sum_{j=1}^N \gamma_{jk}\Big[log\Big(\frac{1}{\sqrt{2\pi}}\Big)-log \sigma_k - \frac{1}{2\sigma^2_k}(x_j-\mu_k)^2\Big]\Big\}$
$E\Big\{ \sum_{k=1}^K (\sum_{j=1}^N \gamma_{jk}) log \ \alpha_k + (\sum_{j=1}^N \gamma_{jk})\Big[log\Big(\frac{1}{\sqrt{2\pi}}\Big)-log \sigma_k - \frac{1}{2\sigma^2_k}(x_j-\mu_k)^2\Big]\Big\}$
$\sum_{k=1}^K (\sum_{j=1}^N E\gamma_{jk}) log \ \alpha_k + (\sum_{j=1}^N E\gamma_{jk})\Big[log\Big(\frac{1}{\sqrt{2\pi}}\Big)-log \sigma_k - \frac{1}{2\sigma^2_k}(x_j-\mu_k)^2\Big]$
$\sum_{k=1}^K ( \sum_{j=1}^N E\gamma_{jk}) log \ \alpha_k + (\sum_{j=1}^N E\gamma_{jk})\Big[log\Big(\frac{1}{\sqrt{2\pi}}\Big)-log \sigma_k - \frac{1}{2\sigma^2_k}(x_j-\mu_k)^2\Big]$
这里需要计算 $E(\gamma_{jk} | x, \theta)$ ，记为 $\hat{\gamma_{jk}}$
$\hat{\gamma_{jk}} = E(\gamma_{jk} | x, \theta) = p(\gamma_{jk} = 1 |x,\theta)$
$\frac{p(\gamma_{jk} = 1, x_j |\theta)}{\sum_{k=1}^Kp(\gamma_{jk}=1,x_j | \theta)}$
$\frac{p(x_j|\gamma_{jk} = 1,\theta)p(\gamma_{jk}=1|\theta)}{\sum_{k=1}^Kp(x_j|\gamma_{jk} = 1,\theta)p(\gamma_{jk}=1|\theta)}$
$\frac{\alpha_k \phi(x_j|\theta_k)}{\sum_{k=1}^K \alpha_k \phi(x_j|\theta_k)}, j = 1,2,...,N; k = 1,2,...,K$

$\hat{\gamma_{jk}}$ 是在当前模型参数下第 $j$ 个观测数据来自第 $k$ 个分模型的概率，称为分模型 $k$ 对观测数据 $x_j$ 的响应度。

将 $\hat{\gamma_{jk}} = E\gamma_{jk} 及 n_k = \sum_{j=1}^NE\gamma_{jk}$ 代入之前式子即得：

$Q(\theta, \theta^{(i)}) =\sum_{k=1}^K n_klog \ \alpha_k + \sum_{j=1}^N \hat{\gamma_{jk}} \Big[ log\Big(\frac{1}{\sqrt{2\pi}}\Big)-log \sigma_k - \frac{1}{2\sigma^2_k}(x_j-\mu_k)^2\Big]$

（3） $E M$ 算法 $M$ 步：

迭代的 $M$ 步是求函数 $Q(\theta, \theta^{(i)})$ 对 $\theta$ 的极大值，即求新一轮迭代的模型参数：
$\theta^{(i+1)} = arg \max_\theta Q(\theta, \theta^{(i)})$

求 $\hat{\mu_k}, \hat{\sigma^2_k}$ 只需要将Q函数对 $\mu_k,\sigma^2_k$ 求偏导并令为0，即可得到；求 $\hat{\alpha_k}$ 是在 $\sum_{i=k}^{K} \alpha_k= 1$ 条件下求偏导数并令为0得到的，用到拉格朗日乘子法。

$\mu_k$ 的估计 $\hat{\mu_k}$ 为（除去和 $\mu_k$ 无关的（视作常数），求偏导，并令偏导为0）：

$Q(\theta, \theta^{(i)}) = - \sum_{j=1}^N \hat{\gamma_{jk}}\frac{1}{2\sigma^2_k}(x_j-\mu_k)^2+c$

$\frac{\partial}{\partial \mu_k} Q = - \sum_{j=1}^N \hat{\gamma_{jk}}\frac{1}{\sigma^2_k}(x_j-\mu_k)=0$

$\hat{\mu_k} = \frac{\sum_{j=1}^N \hat{\gamma_{jk}}x_j}{\sum_{j=1}^N \hat{\gamma_{jk}}}, k = 1,2,...,K$

同理， $\sigma^2_k$ 的估计 $\hat{\sigma^2_k}$ 为：

$Q(\theta, \theta^{(i)}) = \sum_{j=1}^N \hat{\gamma_{jk}}\Big[- log \sigma_k - \frac{1}{2\sigma^2_k}(x_j-\mu_k)^2\Big] +c$

$\frac{\partial}{\partial \sigma_k} Q= \sum_{j=1}^N \hat{\gamma_{jk}}\Big[-\frac{1}{\sigma_k}+ \frac{1}{\sigma_k^3}(x_j-\mu_k)^2\Big] =0$

$\hat{\sigma_k^2 }= \frac{\sum_{j=1}^N \hat{\gamma_{jk}}(x_j - \mu_k)^2}{\sum_{j=1}^N \hat{\gamma_{jk}}}, k= 1,2,...,K$

$\alpha_k$ 的估计为 $\hat{\alpha_k}$ 为（使用拉格朗日乘子法）：

$\begin{cases} Q(\theta, \theta^{(i)}) =\sum_{k=1}^K \sum_{j=1}^N \gamma_{jk} log \ \alpha_k + c\\ \\ s.t. \quad \sum_{k=1}^{K} \alpha_k= 1\\ \end{cases}$

$L(\alpha) = \sum_{k=1}^K \sum_{j=1}^N \gamma_{jk} log \ \alpha_k +\beta(\sum_{k=1}^{K} \alpha_k- 1)$

$\frac{\partial}{\partial \alpha_l} L=\sum_{j=1}^N \frac{\gamma_{jl}}{\alpha_l} + \beta=0$

$\beta = -\sum_{j=1}^N\sum_{k=1}^K \gamma_{jl} = -N$
$\alpha_l = \frac{1}{N}\sum_{j=1}^N\gamma_{jl}$

$\hat{\alpha_k} = \frac{\sum_{j=1}^N \hat{\gamma_{jk}}}{N}, k = 1,2,...,K$
重复以上计算，直到对数似然函数值不再有明显变化为止。

六、案例

1、`GMM` 算法实现：使用 `scikit-learn` 携带的 `EM算法` 或者自己实现的 `EM算法`

sklearn库中sklearn.mixture.GaussianMixture API：

class sklearn.mixture.GaussianMixture(n_components=1, covariance_type=’full’, tol=0.001, 
	reg_covar=1e-06, max_iter=100, n_init=1, init_params=’kmeans’, weights_init=None, 
	means_init=None, precisions_init=None, random_state=None, warm_start=False, 
	verbose=0, verbose_interval=10)

sklearn.mixture.GaussianMixture在0.18版本以前是sklearn.mixture.GMM，两者的参数基本类型，这里主要介绍GaussianMixture的相关参数

属性参数：

n_components：混合组合的个数，默认为1, 可以理解为聚类/分类数量；
covariance_type：给定协方差的类型，可选: full、tied、diag、spherical，默认为full；full：每个组件都有自己的公用的协防差矩阵，tied：所有组件公用一个协方差矩阵，diag：每个组件都有自己的斜对角协方差矩阵，spherical：每个组件都有自己单独的方差值；
tol：默认1e-3，收敛阈值，如果在迭代过程中，平均增益小于该值的时候，EM算法结束；
reg_covar：协方差对角线上的非负正则化参数，默认为0；
max_iter：em算法的最大迭代次数，默认100；
n_init: 默认值1，执行初始化操作数量，该参数最好不要变动；
init_params：初始化权重值、均值以及精度的方法，参数可选：kmeans、random，默认kmeans， kmeans：使用kmeans算法进行初始化操作；
weights_init：初始化权重列表，如果没有给定，那么使用init_params参数给定的方法来进行创建，默认为None；
means_init：初始化均值列表，如果没有给定，那么使用init_params参数给定的方法来进行创建，默认为None；
precisions_init: 初始化精度列表，如果没有给定，那么使用init_params参数给定的方法来进行创建，默认为None；
warn_stat：默认为False，当该值为true的时候，在类似问题被多次训练的时候，可以加快收敛速度；

在这里插入图片描述

代码可见：02_GMM算法实现.py

2、`GMM` 算法分类

本案例主要使用身高体重为特征数据，性别为标签数据的数据集，使用 GMM 算法模型进行分类；比较不同概率选择下模型分类效果。

数据格式

Sex(0女生，1男生)	Height(cm)	Weight(kg)
0	156	50
1	173	75

运行结果

预测概率:
 [[2.25031842e-06 9.99997750e-01]
 [2.16136597e-06 9.99997839e-01]
 [2.07669097e-06 9.99997923e-01]
 ...
 [1.00000000e+00 6.34944402e-11]
 [1.00000000e+00 5.78303161e-11]
 [1.00000000e+00 5.26521608e-11]]

在这里插入图片描述

我们知道，预测结果是属于两个类的各自的概率是多少，选择概率的大作为预测的类别。

在上图中：

0.1的曲线是概率等高线，表示预测结果小于0.1的，属于红色类别（绿色）；大于0.1的属于绿色类别（男生）；
图中可以看出，0.5的等高线就是模型的分割线；

一般默认为0.5，当然我们也可以自己设定。

代码可见：03_GMM算法分类及概率选择.py

3、`GMM` 不同参数选择比较

本案例主要展示 GMM 模型中，不同参数设定带来的效果比较

运行结果

如上图：
-BIC值越小表示模型越好

当混合模型个数为 2 ，协方差类型为 full 时，模型分类效果最优
一般情况下，我们都使用 full 参数

代码可见：04_GMM不同参数选择比较.py

4、`EM` 无监督算法分类鸢尾花数据

本案例基于鸢尾花数据，使用 EM 算法进行分类

运行结果

代码可见：05_EM无监督算法分类鸢尾花数据.py

我们可以对比其他算法：决策树、Logistic回归、KNN

在这里插入图片描述

上图代码可见：Github下05_鸢尾花数据分类_特征比较.py

在这里插入图片描述

上图代码可见：Github下05_鸢尾花数据分类.py
在这里插入图片描述

上图代码可见：Github下04_鸢尾花数据分类.py

七、后记

$\quad\quad$ 至此，EM 算法就差不多介绍完了，EM 算法是学习机器学习必须要面对的算法，本篇包含了大量的公式需要认真推导理解；案例代码部分也尽可能进行了注释，针对一些数据的操作函数可以自行查阅文档，自己动手后，我相信一定可以很好地理解EM 算法，案例也帮助了我们理解EM 算法应用。

$\quad\quad$ 博主也是边学习边整理，难免存在一些错误理解，还希望大家不吝赐教，本篇也会在后期不定期修改更正。也希望和大家多多交流，共同学习，欢迎留言交流。