EM算法推导

最新推荐文章于 2024-01-03 23:22:59 发布

ahaZeng

最新推荐文章于 2024-01-03 23:22:59 发布

阅读量240

点赞数

分类专栏： EM

本文链接：https://blog.csdn.net/ahaZeng/article/details/105169974

版权

EM 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.EM问题背景

随机变量中观测变量为 $X=(x_1，x_2,...,x_n)^T$ ,
隐变量为 $Z=(z_1,z_2,...z_n)^T$
若 $X$ 服从的分布模型参数为 $\Theta=(\theta_1,\theta_2,...\theta_k)$ ，
则在模型 $\theta$ 下产生观测值X的概率为 $P(X|\Theta)=\Pi_i^mP(x^{(i)}|\Theta)$
则对数似然函数为
$\begin{aligned} LL(\Theta)&=\sum_i^mlogP(x^{(i)}|\Theta)\\ &=\sum_i^mlog\sum_{Z^{(i)}}P(x^{(i)},z^{(i)}|\Theta) \end{aligned}$
目的是求出使对数似然函数尽量大的 $\Theta$ 值

2.Jensen不等式

如果函数 $f (x)$ 为凸函数，如 $f(x)=x^2$ ，则有 $E[f(x)]\geq f(E[x])$ ，当 $x$ 为常量时取等

3.EM算法推导

step1 初始化：

对 $\Theta=(\theta_1,\theta_2,...\theta_k)$ 进行初始化

step2 E步：

上述对数似然函数中乘除一个 $Q_i(z^{(i)})$ ，且满足 $\sum_{z^{(i)}}Q_i(z^{(i)})=1$ ，使得式子变为一个期望，即
$\begin{aligned} LL(\Theta)&=\sum_i^mlogP(x^{(i)}|\Theta)\\ &=\sum_i^mlog\sum_{Z^{(i)}}P(x^{(i)},z^{(i)}|\Theta)\\ &=\sum_i^mlog\sum_{Z^{(i)}} [Q_i(z^{(i)}) {{P(x^{(i)},z^{(i)}|\Theta)}\over{Q_i(z^{(i)})}}]，对Z求和转化为{{P(x^{(i)},z^{(i)}|\Theta)}\over{Q_i(z^{(i)})}}的期望\\ &由Jensen不等式,f(x)=logx，则有E[f(x)]\leq f(E[x])\\ &\geq\sum_i^m\sum_{Z^{(i)}} [Q_i(z^{(i)}) log{{P(x^{(i)},z^{(i)}|\Theta)}\over{Q_i(z^{(i)})}}]，令此式子为g(\Theta)\\ \end{aligned}$
在 $g(\Theta)$ 与 $LL(\Theta)$ 相交点，若 $g(\Theta)$ 逐渐增大，则 $LL(\Theta)$ 必定也逐渐增大，否则会不满足不等式，
所以取 $g(\Theta)=LL(\Theta)$ 时的 $\Theta$ 可以找到局部更优解，通过迭代可找到局部最优解

当 ${{P(x^{(i)},z^{(i)}|\Theta)}\over{Q_i(z^{(i)})}}=c$ 时（ $c$ 为常数）,不等式取等
则有 $\begin{aligned} P(x^{(i)},z^{(i)}|\Theta)&=c*Q_i(z^{(i)})，左右同时对z^{(i)}求和\\ \sum_{z^{(i)}}P(x^{(i)},z^{(i)}|\Theta)&=\sum_{z^{(i)}}c*Q_i(z^{(i)})\\ \sum_{z^{(i)}}P(x^{(i)},z^{(i)}|\Theta)&=c \end{aligned}$

则 $\begin{aligned} Q_i(z^{(i)})&={{P(x^{(i)},z^{(i)}|\Theta)}\over c}\\ &={{P(x^{(i)},z^{(i)}|\Theta)}\over {\sum_{z^{(i)}}P(x^{(i)},z^{(i)}|\Theta)}}\\ \end{aligned}$

带入 $g(\Theta)$ 有： $g(\Theta)=\sum_i^m\sum_{Z^{(i)}} [Q_i(z^{(i)}) log{{P(x^{(i)},z^{(i)}|\Theta)}\over{Q_i(z^{(i)})}}]$ 是关于 $\Theta$ 的函数，其中 $Q_i(z^{(i)})$ 是第k次迭代中确定 $\Theta^{(k)}$ 后，来找 $\Theta^{(k+1)}$ 使 $g(\Theta)$ 函数值更大的一个定量，所以在后面对 $\Theta$ 求偏导时不需要对 $Q_i(z^{(i)})$ 中的 $\Theta$ 进行求导。