图解 Expectation Maximization 期望最大化与应用例子

最新推荐文章于 2022-09-20 18:18:28 发布

billy145533

最新推荐文章于 2022-09-20 18:18:28 发布

阅读量292

点赞数

分类专栏：数据科学机器学习

本文链接：https://blog.csdn.net/billy145533/article/details/104326654

版权

数据科学同时被 2 个专栏收录

38 篇文章 8 订阅

订阅专栏

机器学习

20 篇文章 2 订阅

订阅专栏

文章目录

前言
介绍
似然函数
Jensen不等式
EM 算法
EM例子
总结
参考文献

前言

网上对EM算法介绍已经很详尽，但是没看到比较详细的案例，理解起来有一些抽象。本文对EM的算法做一些总结，重点是介绍EM的案例，使得对该算法有一个直观的理解。

介绍

EM算法主要是针对存在隐变量的问题，即数据不完整的条件下去做参数估计。与之相反，当数据完整的时候，我们采用最大似然法就能解决问题。

似然函数

$L(\theta) = \prod p(x_1,\cdots,x_n;\theta))\\ \theta^* = \underset{\theta \in \Theta}{arg \ max}\ L(\theta)\\ ln(L(\theta) )=\sum_{i=1}^{n}ln(p(x_i;\theta))\\ \frac{\partial ln(L(\theta))}{\partial \theta} = 0$
求似然函数的极大意义在于，找出参数的最佳估计值。直观的感觉是，给定的样本和参数 $\theta$ 越是符合，似然函数函数值自然越大。

Jensen不等式

这是一个容易理解的不等式。对于函数f，如果f满足，在其定义域内的所有实数x，满足 $f^{''}(x)\geq0$ ,则f为凸函数，且有 $E(f(X))\geq f(E(X))$
由下图可以看到，f满足 $(f(a)+f(b))/2\geq f((a+b)/2)$
在这里插入图片描述

用归纳法证明一下 $E(f(X))\geq f(E(X))$
显然，当k=1，2时，命题成立
假定k时，命题成立
$\sum_{i=1}^{k}p_ix_i \ s.t. \sum_{i=1}^{k}p_i=1\\$
现在求k+1时，命题是否成立
$\sum_{i=1}^{k+1}p_ix_i \ s.t. \sum_{i=1}^{k+1}p_i=1\\$
令 $sp_k=\sum_{i=1}^{k}p_k \Rightarrow E(X) = p_{k+1}x_{k+1}+sp_k \sum_{i=1}^{k}\frac{p_i}{sp_k}x_i$
令 $X_k=\sum_{i=1}^{k}\frac{p_i}{sp_k}x_i$ ,代入上式得到 $E(X) = p_{k+1}x_{k+1}+sp_kX_k$
由于 $p_{k+1}+sp_k=1$ ，则有 $E(f(X))=p_{k+1}f(x_{k+1})+sp_kf(X_k)\geq f(p_{k+1}x_{k+1}+sp_kX_k)=f(E(X))$
在f为严格凸函数时，上式只有在E(X)为常数时候才成立，即x是一个常数。
当f为凹函数时，上述不等式需要反号。我们知道最大似然函数ln函数是凹函数，所以上述需要取反。

EM 算法

假设完整数据为X ,Z
$[{x_1,\cdots,x_n}]$ 为观测数据
$[{z_1,\cdots,z_n}]$ 为未观测的数据，即隐变量
则有
$L(\theta) = \sum_{i=1}^{k}ln \ q(x_i;\theta)=\sum_{i=1}^{k}ln \ [\sum_zq(x_i,z_i;\theta)]$
假设 $Q_i$ 表示隐含变量Z的某种分布， $Q_i$ 满足
$\sum_zQ_i(z) = 1 \ s.t. Q_i \ \geq 0$
也就是说在 $x=x_i$ ,条件下的Q_i(z)概率密度 $q(z_i|x_i;\theta)$
$L(\theta) =\sum_{i=1}^{k}ln \ [\sum_zq(x_i,z_i;\theta)]=\sum_{i=1}^{k}ln \ [\sum_zQ_i\frac{q(x_i,z_i;\theta)}{Q_i}]$
这里的函数f 为 ln，凹函数。令有变量 $\frac{q(x_i,z_i;\theta)}{Q_i}$
则有 $\sum_iQ_iXX$
由Jensen不等式可以得到
$L(\theta) =\sum_{i=1}^{k}ln \ [\sum_zQ_iXX]\geq \sum_{i=1}^{k} \sum_zQ_iln(XX)=J(Z,Q)$
由于缺失了数据Z， $L(\theta)$ 本身并不存在一个解析解，直接用最大似然是做不到的。一切都只是为了得到一个比较合理的估计解。所以，利用Jensen不等式只是想求得一个更易于求解的下界表达式，再利用这个下界 $J (Z, Q)$ 去逼近 $L(\theta)$ ，直到得到一个最优解。
要想上式成立，唯有XX为常数才能做到，因此，为了能求出解，需要假设 $X X = c$ ,则有
$\frac{q(x_i,z_i;\theta)}{Q_i}=C \Rightarrow \sum_z q(x_i,z_i;\theta) =q(x_i;\theta)=\sum_{i=1}^{k}Q_iC=C$

EM算法是一种迭代逼近的算法，分为两步：

E步，固定 $\theta$ ,计算 $Q_i(z)$ ,建立 $L(\theta)$ 的下界。我们知道z是无法观测的，但是有了给定的 $\theta$ 就可以计算 $Q_i(z)$
M步,得到 $Q_i(z)$ 后，求 $\theta^* = \underset{\theta \in \Theta}{arg \ max}\ \sum_{i=1}^{k} \sum_zQ_iln(XX)$
不断重复1，2，直到 $\theta$ 收敛。根据不同初始值，结果并不相同，因此，起始点是比较重要的。

EM例子

这个例子用的是李航的统计学习方法中的三个硬币例子。文中只给出了结果，并未对过程做详细推导，大概是作者觉得过于简单不需要去赘述吧。

在这里插入图片描述
令 $\theta = \{ \pi ,p,q\}$ ，观测结果为y(同前面的x变量，为了和书本一致，这里使用y代替)，则有
$p(y|\theta)=\pi p^yp^{1-y}+(1-\pi)q^yq^{1-y}$
y的观测结果可能是来自硬币B，也可能来自硬币C，但是这一点我们是无法从y中获得的，因此，在这个问题中，我们将y的观测结果来源取决于A的投币结果，这个结果我们无法观测，因此作为隐变量。
$Y=\left(Y_{1}, Y_{2}, \cdots, Y_{n}\right)^{T},Z=\left(Z_{1}, Z_{2}, \cdots, Z_{n}\right)^{T}\\ P(Y | \theta)=\sum_{z} P(Z | \theta) P(Y | Z, \theta)\\ P(Y | \theta)=\prod_{j=1}^{n}\left[\pi p^{y_{j}}(1-p)^{1-y_{j}}+(1-\pi) q^{y_{j}}(1-q)^{1-y_{j}}\right]\\ \theta=(\pi, p, q)\\ \hat{\theta}=\arg \max _{\theta} \log P(Y | \theta)$

详细计算方法：
给定 $\theta^{(i)}=\left(\pi^{(i)}, p^{(i)}, q^{(i)}\right) .$
E步，计算 $Q_i$
$\theta$ 已知， $Q_i$ 未知
前面提到过， $Q_i(z_i) = q(z_i|y_i;\theta)=q(y_i,z_i;\theta)/q(y_i;\theta)$
我们知道，前面的变量 $\frac{q(y_i,z_i;\theta)}{Q_i}=q(y_i,\theta)$ ,在给定 $\theta$ 下，显然，该变量是常数项，使得 $L(\theta) =J(Z,Q)$

求后验概率，发生y_i时，正面为A的机率,也就是观测结果来自B的机率
$Q_{i1}(z_i=z_1(A正面))$ 即书中提到的下面的公式
$\mu^{(i+1)}=\frac{\pi^{(i)}\left(p^{(i)}\right)^{y_{j}}\left(1-p^{(i)}\right)^{1-y_{j}}}{\pi^{(i)}\left(p^{(i)}\right)^{y_{j}}\left(1-p^{(i)}\right)^{1-y_{j}}+\left(1-\pi^{(i)}\right)\left(q^{(i)}\right)^{y_{j}}\left(1-q^{(i)}\right)^{1-y_{j}}}$
可以得到
$Q_{i2}(z_i=z_2=A反面)=1-Q_{i1}(z_i=z_1)=1-\mu^{(i+1)}$

M步
$\theta$ 未知， $Q_i$ 已知
有了 $Q_{i1}=\mu_i,Q_{i2}$ 我们更新 $J(Q,Z)=Score=\sum_{i=1}^{k} \sum_zQ_i\ln (XX)=\sum_{i=1}^{k} (Q_{i1}ln [(q(y_i,z_1;\theta)/Q_{i1})]+Q_{i2}\ln (q(y_i,z_2;\theta)/Q_{i2})) \\ \frac{\partial (Q_{i1}ln [(q(y_i,z_1;\theta)/Q_{i1})]}{\partial \pi}=Q_{i1}q'(y_i,z_1;\theta)/q(y_i,z_1;\theta)=\\ Q_{i1}p^y(1-p)^{1-y}/(\pi p^y(1-p)^{1-y})=Q_{i1}/\pi \\ \frac{\partial (Q_{i2}ln [(q(y_i,z_2;\theta)/Q_{i2})]}{\partial \pi}=Q_{i2}q'(y_i,z_2;\theta)/q(y_i,z_2;\theta)=\\ -Q_{i2}q^y(1-q)^{1-y}/((1-\pi) q^y(1-q)^{1-y})=-Q_{i2}/(1-\pi) \\ \frac{\partial Score}{\partial \pi}=\sum_iQ_{i1}/\pi-Q_{i2}/(1-\pi)=0 \Rightarrow \\ \sum_i [(1-\pi)Q_{i1}-\pi Q_{i2}]=\sum_i (Q_{i1}-\pi)\Rightarrow \\ \\{\pi^{(i+1)}=\frac{1}{n} \sum_{j=1}^{n} \mu_{j}^{(i) \cdot 1}}$
同理可以得到
$\begin{array}{l} {p^{(i+1)}=\frac{\sum_{j=1}^{n} \mu_{j}^{(i+1)} y_{j}}{\sum_{j=1}^{n} \mu_{j}^{(i+1)}}} \\ {q^{(i+1)}=\frac{\sum_{j=1}^{n}\left(1-\mu_{j}^{(i+1)}\right) y_{j}}{\sum_{j=1}^{n}\left(1-\mu_{j}^{(i+1)}\right)}} \end{array}$

总结

用一张图总结EM的迭代是怎么工作的
通过前t-1次迭代，得到了 $\theta^t$ ,这时， $J (Z, Q)$ 对应的曲线如绿色曲线所式，这时候，E步构造新的 $Q_i$ 参数，得到新的 $J (Z, Q)$ 曲线（蓝色）,使得在 $\theta^t$ 位置, $J(Z,Q)=L(\theta)$ 。M步，对 $J (Z, Q)$ 求导，求该曲线的极值位置作为 $\theta^{t+1}$ ，直到收敛。从图可以直观得看到，EM过程肯定是收敛得，因为极值保证了，新的J(Z,Q)一定大于等于老的J(Z,Q)。但是初始值若给的不合适，最终的结果未必理想。

参考文献

https://wenku.baidu.com/view/3396bb4d6294dd88d0d26bee.html
https://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html

billy145533

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
图解 Expectation Maximization 期望最大化与应用例子

文章目录前言介绍似然函数Jensen不等式EM 算法参考文献前言网上对EM算法介绍已经很详尽，但是没看到比较详细的案例，理解起来有一些抽象。本文对EM的算法做一些总结，重点是介绍EM的案例，使得对该算法有一个直观的理解。介绍EM算法主要是针对存在隐变量的问题，即数据不完整的条件下去做参数估计。与之相反，当数据完整的时候，我们采用最大似然法就能解决问题。似然函数L(θ)=∏p(x1...
复制链接

扫一扫