EM算法

最新推荐文章于 2022-10-25 21:21:43 发布

-倾城之恋-

最新推荐文章于 2022-10-25 21:21:43 发布

阅读量198

点赞数

分类专栏：机器学习统计优化

本文链接：https://blog.csdn.net/P081513083/article/details/97214185

版权

机器学习同时被 3 个专栏收录

37 篇文章 0 订阅

订阅专栏

统计

23 篇文章 0 订阅

订阅专栏

优化

12 篇文章 0 订阅

订阅专栏

在用最大似然原则求解一些图模型参数时，经常会遇到图模型含有隐变量的情况，导致很难简单使用极大似然估计。这类问题一般求助于基于迭代的EM算法。一般分为两步。第一步求期望，第二步最大化。实际就是第一步：利用旧的参数值构造原似然函数的一个下界，该下界实际就是一个期望；第二步：通过最大化下界（期望）来最大化原似然函数。因此叫做期望最大化算法。
下面我们导出EM算法。已知观察数据 $Y=\{y_1,...y_N\}$ ，和隐变量为 $Z=\{z_1,...,z_N\}$ 。求图模型参数 $\theta$ 。
对数似然函数
$L(\theta)=logP(Y|\theta) \\=log\prod\limits_{i=1}^{N}P(y_i|\theta) \\=\sum\limits_{i=1}^{N}logP(y_i|\theta) \\=\sum\limits_{i=1}^{N}log\sum\limits_{z_i}P(y_i,z_i|\theta) \\=\sum\limits_{i=1}^{N}log\sum\limits_{z_i}P(z_i|y_i,\theta_t)\frac{P(y_i,z_i|\theta)}{P(z_i|y_i,\theta_t)}$
利用杰森不等式(证据下界和KL分解是更一般化的视角)，对凹函数：
$f(\sum w_ix_i)\geq \sum w_if(x_i)$
则：
$L(\theta)\geq\sum\limits_{i=1}^{N}\sum\limits_{z_i}P(z_i|y_i,\theta_t)log\frac{P(y_i,z_i|\theta)}{P(z_i|y_i,\theta_t)} \\=\sum\limits_{i=1}^{N}\sum\limits_{z_i}P(z_i|y_i,\theta_t)log\frac{P(y_i,z_i|\theta)}{P(z_i|y_i,\theta_t)}$
令 $B(\theta,\theta_t)=\sum\limits_{i=1}^{N}\sum\limits_{z_i}P(z_i|y_i,\theta_t)log\frac{P(y_i,z_i|\theta)}{P(z_i|y_i,\theta_t)}$
则 $L(\theta)\geq B(\theta,\theta_t)$ ，即 $B(\theta,\theta_t)$ 是 $L(\theta)$ 的下界，也叫证据下界ELOB。且当 $\theta=\theta_t$ 时， $B(\theta,\theta_t)=L(\theta)$ 。
因此我们可以通过最大化 $B(\theta,\theta_t)$ 来最大化 $L(\theta)$ （来自于夹逼原理？还是其他的原因，从EM的更一般化的视角来看，log似然可以分解为证据下界和KL散度的和，证据下界由于 $\theta$ 的变化增加时，KL散度也会增加）。
$\arg\max\limits_{\theta}B(\theta,\theta_t) \\=\arg\max\limits_{\theta}\sum\limits_{i=1}^{N}\sum\limits_{z_i}P(z_i|y_i,\theta_t)log\frac{P(y_i,z_i|\theta)}{P(z_i|y_i|\theta_t)} \\=\arg\max\limits_{\theta}\sum\limits_{i=1}^{N}\sum\limits_{z_i}P(z_i|y_i,\theta_t)logP(y_i,z_i|\theta)$
因此可得EM算法：
(1) 初始化 $\theta_0$
(2) 求期望：
$Q(\theta,\theta_t)=\sum\limits_{i=1}^{N}\sum\limits_{z_i}P(z_i|y_i,\theta_t)logP(y_i,z_i|\theta)$
(此步有时候只写作评估 $P(z_i|y_i,\theta_t)$ )。
(3) 最大化：
$\theta_{t+1}=\arg\max\limits_{\theta}Q(\theta,\theta_t)$
$Q(\theta,\theta_t)=\sum\limits_{i=1}^{N}\sum\limits_{z_i}P(z_i|y_i,\theta_t)logP(y_i,z_i|\theta)$
(4) 如果不收敛（可根据对数似然函数值或者参数值判断），重复2）3）。
注意：最大化Q函数可以直观理解为，在知道隐变量的估计后验分布（基于 $y_i$ 和 $\theta$ ）后，可以认为隐变量已知，这时候只需最大化完全数据的log似然。由于知道的是分布，所以应该对log似然求期望。
三硬币例子推导
有三枚硬币，A,B,C。首先抛掷A，如果A为正面，然后抛掷B。如果A为反面则抛掷C。重复这个实验N次，记录B或C的结果。根据N次实验结果求A,B,C正面的概率 $\pi,p,q$ 。
解：
设观察数据为 $Y=\{y_1,...,y_N\}$ ，隐变量为 $Z=\{z_1,...,z_N\}$ 。
则：
$P(y_i|\pi,p,q)=\sum\limits_{z_i} P(y_i,z_i|\pi,p,q) \\=\sum\limits_{z_i} P(y_i|z_i,\pi,p,q)P(z_i|\pi,p,q) \\=\pi p^{y_i}(1-p)^{1-y_i}+(1-\pi) q^{y_i}(1-q)^{1-y_i}$
后验分布：
$P(z_i|y_i,\pi_t,p_t,q_t)=\frac{P(y_i,z_i|\pi,p,q)}{P(y_i|\pi_t,p_t,q_t)} \\=\frac{{z_i}\pi_t p_t^{y_i}(1-p_t)^{1-y_i}+(1-z_i)(1-\pi_t) q_t^{y_i}(1-q_t)^{1-y_i}}{\pi_t p_t^{y_i}(1-p_t)^{1-y_i}+(1-\pi_t) q_t^{y_i}(1-q_t)^{1-y_i}}$
标记:
$\mu_i^t=P(z_i=1|y_i,\pi_t,p_t,q_t)=\frac{\pi p^{y_i}(1-p)^{1-y_i}}{\pi p^{y_i}(1-p)^{1-y_i}+(1-\pi) q^{y_i}(1-q)^{1-y_i}}$
则：
$P(z_i=1|y_i,\pi_t,p_t,q_t)=1-\mu_i^t$
$Q(\theta,\theta_t)=\sum\limits_{i=1}^N\sum\limits_{z_i}P(z_i|y_i,\pi_t,p_t,q_t)logP(y_i,z_i|\pi,p,q) \\=\sum\limits_{i=1}^N[\mu_ilog(\pi p^{y_i}(1-p)^{1-y_i})+(1-\mu_i)log((1-\pi) q^{y_i}(1-q)^{1-y_i})]$
令一阶导数等于0：
$\frac{\partial Q(\theta,\theta_t)}{\partial \pi}=0$
$\frac{\partial Q(\theta,\theta_t)}{\partial p}=0$
$\frac{\partial Q(\theta,\theta_t)}{\partial q}=0$
可得：
$\pi_{t+1}=\frac{1}{N}\sum\limits_{i=1}^{N}\mu_i^t$
$p_{t+1}=\frac{\sum\limits_{i=1}^N \mu_i^ty_i}{\sum\limits_{i=1}^N \mu_i^t}$
$q_{t+1}=\frac{\sum\limits_{i=1}^N (1-\mu_i^t)y_i}{\sum\limits_{i=1}^N (1-\mu_i^t)}$ 。

-倾城之恋-

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
EM算法

在用最大似然原则求解一些图模型参数时，经常会遇到图模型含有隐变量的情况，导致很难简单实用极大似然估计。这类问题一般求助于基于迭代的EM算法。一般分为两步。第一步求期望，第二步最大化。下面我们导出EM算法。已知观察数据Y={y1,...yN}Y=\{y_1,...y_N\}Y={y1,...yN}，和隐变量为Z={z1,...,zN}Z=\{z_1,...,z_N\}Z={z1,.....
复制链接

扫一扫