EM算法|机器学习推导系列（十二）

最新推荐文章于 2022-10-24 23:00:00 发布

酷酷的群

最新推荐文章于 2022-10-24 23:00:00 发布

阅读量263

点赞数

分类专栏：机器学习推导系列文章标签：算法机器学习数据挖掘

本文链接：https://blog.csdn.net/weixin_42431920/article/details/108119411

版权

机器学习推导系列专栏收录该内容

27 篇文章 10 订阅

订阅专栏

一、概述

假设有如下数据：

$X$ :observed data
$Z$ :unobserved data(latent variable)
$(X, Z)$ :complete data
$\theta$ :parameter

EM算法的目的是解决具有隐变量的参数估计（MLE、MAP）问题。EM算法是一种迭代更新的算法，其计算公式为：

$\theta ^{t+1}=E_{z|x,\theta^{t}}[log\; p(x,z|\theta )]\\ =\underset{\theta }{argmax}\int _{z}log\; p(x,z|\theta )\cdot p(z|x,\theta ^{t})\mathrm{d}z$

这个公式包含了迭代的两步：
①E step：计算 $p(x,z|\theta )$ 在概率分布 $p(z|x,\theta ^{t})$ 下的期望
②S step：计算使这个期望最大化的参数得到下一个EM步骤的输入

二、EM的算法收敛性

现在要证明迭代求得的 $\theta ^{t}$ 序列会使得对应的 $p(x|\theta ^{t})$ 是单调递增的，也就是说要证明 $p(x|\theta ^{t})\leq p(x|\theta ^{t+1})$ 。首先我们有：

$log\; p(x|\theta )=log\; p(x,z|\theta )-log\; p(z|x,\theta )$

接下来等式两边同时求关于 $p(z|x,\theta ^{t})$ 的期望：

$左边=\int _{z}p(z|x,\theta ^{t})\cdot log\; p(x|\theta )\mathrm{d}z\\ =log\; p(x|\theta )\int _{z}p(z|x,\theta ^{t})\mathrm{d}z\\ =log\; p(x|\theta )\\ 右边=\underset{Q(\theta ,\theta ^{t})}{\underbrace{\int _{z}p(z|x,\theta ^{t})\cdot p(x,z|\theta )\mathrm{d}z}}-\underset{H(\theta ,\theta ^{t})}{\underbrace{\int _{z}p(z|x,\theta ^{t})\cdot log\; p(z|x,\theta )\mathrm{d}z}}\\ 因此有log\; p(x|\theta )=\int _{z}p(z|x,\theta ^{t})\cdot p(x,z|\theta )\mathrm{d}z-\int _{z}p(z|x,\theta ^{t})\cdot log\; p(z|x,\theta )\mathrm{d}z$

这里我们定义了 $Q(\theta ,\theta ^{t})$ ，称为Q函数（Q function），这个函数也就是上面的概述中迭代公式里用到的函数，因此满足 $Q(\theta ^{t+1},\theta ^{t})\geq Q(\theta ^{t},\theta ^{t})$ 。

接下来将上面的等式两边 $\theta$ 分别取 $\theta ^{t}$ 和 $\theta ^{t+1}$ 并相减：

$log\; p(x|\theta ^{t+1})-log\; p(x|\theta ^{t})=[Q(\theta ^{t+1},\theta ^{t})-Q(\theta ^{t},\theta ^{t})]-[H(\theta ^{t+1},\theta ^{t})-H(\theta ^{t},\theta ^{t})]$

我们需要证明 $log\; p(x|\theta ^{t+1})-log\; p(x|\theta ^{t})\geq 0$ ，同时已知 $Q(\theta ^{t+1},\theta ^{t})-Q(\theta ^{t},\theta ^{t})\geq 0$ ，现在来观察 $H(\theta ^{t+1},\theta ^{t})-H(\theta ^{t},\theta ^{t})$ ：

$H(\theta ^{t+1},\theta ^{t})-H(\theta ^{t},\theta ^{t})\\ =\int _{z}p(z|x,\theta ^{t})\cdot log\; p(z|x,\theta ^{t+1})\mathrm{d}z-\int _{z}p(z|x,\theta ^{t})\cdot log\; p(z|x,\theta ^{t})\mathrm{d}z\\ =\int _{z}p(z|x,\theta ^{t})\cdot log\frac{p(z|x,\theta ^{t+1})}{p(z|x,\theta ^{t})}\mathrm{d}z\\ \leq log\int _{z}p(z|x,\theta ^{t})\frac{p(z|x,\theta ^{t+1})}{p(z|x,\theta ^{t})}\mathrm{d}z\\ =log\int _{z}p(z|x,\theta ^{t+1})\mathrm{d}z\\ =log\; 1\\ =0\\ 这里应用了Jensen不等式：{\color{Red} {log\sum _{j}\lambda _{j}y_{j}\geq \sum _{j}\lambda _{j}logy_{j},其中\lambda _{j}\geq 0，log\sum _{j}\lambda _{j}=1}}\\ 也可以使用KL散度来证明\int _{z}p(z|x,\theta ^{t})\cdot log\frac{p(z|x,\theta ^{t+1})}{p(z|x,\theta ^{t})}\mathrm{d}z\leq 0：\\ 两个概率分布P(x)和Q(x)的KL散度的定义为\\ D_{KL}(P||Q)=E_{x\sim P}[log\frac{P(x)}{Q(x)}]，KL散度是恒\geq 0的。\\ 因此\int _{z}p(z|x,\theta ^{t})\cdot log\frac{p(z|x,\theta ^{t+1})}{p(z|x,\theta ^{t})}\mathrm{d}z=-KL(p(z|x,\theta ^{t})||p(z|x,\theta ^{t+1}))\leq 0$

因此得证 $log\; p(x|\theta ^{t+1})-log\; p(x|\theta ^{t})\geq 0$ 。这说明使用EM算法迭代更新参数可以使得 $log\; p(x|\theta)$ 逐步增大。

另外还有其他定理保证了EM的算法收敛性。首先对于 $\theta ^{i}(i=1,2,\cdots )$ 序列和其对应的对数似然序列 $L(\theta ^{t})=log\; p(x|\theta ^{t})(t=1,2,\cdots )$ 有如下定理：
①如果 $p(x|\theta )$ 有上界，则 $L(\theta ^{t})=log\; p(x|\theta ^{t})$ 收敛到某一值 $L^*$ ；
②在函数 $Q(\theta,\theta^{'})$ 与 $L(\theta )$ 满足一定条件下，由EM算法得到的参数估计序列 $\theta ^{t}$ 的收敛值 $\theta ^{*}$ 是 $L(\theta )$ 的稳定点。

三、EM的算法的导出

ELBO+KL散度的方法

$log\; p(x|\theta)=log\; p(x,z|\theta )-log\; p(z|x,\theta )\\ =log\; \frac{p(x,z|\theta )}{q(z)}-log\; \frac{p(z|x,\theta )}{q(z)}\; \; q(z)\neq 0\\ 以上引入一个关于z的概率分布q(z)，然后式子两边同时求对q(z)的期望\\ 左边=\int _{z}q(z)\cdot log\; p(x|\theta )\mathrm{d}z=log\; p(x|\theta )\int _{z}q(z)\mathrm{d}z=log\; p(x|\theta )\\ 右边=\underset{ELBO(evidence\; lower\; bound)}{\underbrace{\int _{z}q(z)log\; \frac{p(x,z|\theta )}{q(z)}\mathrm{d}z}}\underset{KL(q(z)||p(z|x,\theta ))}{\underbrace{-\int _{z}q(z)log\; \frac{p(z|x,\theta )}{q(z)}\mathrm{d}z}}$

因此我们得出 $log\; p(x|\theta )=ELBO+KL(q||p)$ ，由于KL散度恒 $\geq0$ ，因此 $log\; p(x|\theta )\geq ELBO$ ，则 $E L B O$ 就是似然函数 $log\; p(x|\theta )$ 的下界。

使得 $log\; p(x|\theta )=ELBO$ 时，就必须有 $K L (q ∣ ∣ p) = 0$ ，也就是 $q(z)=p(z|x,\theta )$ 时。

在每次迭代中我们取 $q(z)=p(z|x,\theta ^{t})$ ，就可以保证 $log\; p(x|\theta ^{t})$ 与 $E L B O$ 相等，也就是：

$log\; p(x|\theta )=\underset{ELBO}{\underbrace{\int _{z}p(z|x,\theta ^{t})log\; \frac{p(x,z|\theta )}{p(z|x,\theta ^{t})}\mathrm{d}z}}\underset{KL(p(z|x,\theta ^{t})||p(z|x,\theta ))}{\underbrace{-\int _{z}p(z|x,\theta ^{t})log\; \frac{p(z|x,\theta )}{p(z|x,\theta ^{t})}\mathrm{d}z}}\\ 当\theta =\theta ^{t}时，log\; p(x|\theta ^{t})取ELBO，即\\ log\; p(x|\theta ^{t})=\underset{ELBO}{\underbrace{\int _{z}p(z|x,\theta ^{t})log\; \frac{p(x,z|\theta ^{t})}{p(z|x,\theta ^{t})}\mathrm{d}z}}\underset{=0}{\underbrace{-\int _{z}p(z|x,\theta ^{t})log\; \frac{p(z|x,\theta ^{t})}{p(z|x,\theta ^{t})}\mathrm{d}z}}=ELBO$

也就是说 $log\; p(x|\theta )$ 与 $E L B O$ 都是关于 $\theta$ 的函数，且满足 $log\; p(x|\theta )\geq ELBO$ ，也就是说 $log\; p(x|\theta )$ 的图像总是在 $E L B O$ 的图像的上面。对于 $q (z)$ ，我们取 $q(z)=p(z|x,\theta ^{t})$ ，这也就保证了只有在 $\theta =\theta ^t$ 时 $log\; p(x|\theta )$ 与 $E L B O$ 才会相等，因此使 $E L B O$ 取极大值的 $\theta ^{t+1}$ 一定能使得 $log\; p(x|\theta ^{t+1})\geq log\; p(x|\theta ^{t})$ 。该过程如下图所示：

ELBO

然后我们观察一下取 $E L B O$ 取极大值的过程：

$\theta ^{t+1}=\underset{\theta }{argmax}ELBO\\ =\underset{\theta }{argmax}\int _{z}p(z|x,\theta ^{t})log\; \frac{p(x,z|\theta )}{p(z|x,\theta ^{t})}\mathrm{d}z\\ =\underset{\theta }{argmax}\int _{z}p(z|x,\theta ^{t})log\; p(x,z|\theta )\mathrm{d}z-\underset{与\theta 无关}{\underbrace{\underset{\theta }{argmax}\int _{z}p(z|x,\theta ^{t})p(z|x,\theta ^{t})\mathrm{d}z}}\\ {\color{Red}{=\underset{\theta }{argmax}\int _{z}p(z|x,\theta ^{t})log\; p(x,z|\theta )\mathrm{d}z}} \\ {\color{Red}{=\underset{\theta }{argmax}E_{z|x,\theta ^{t}}[log\; p(x,z|\theta )]}}$

由此我们就导出了EM算法的迭代公式。

ELBO+Jensen不等式的方法

首先要具体介绍一下Jensen不等式：对于一个凹函数 $f (x)$ （国内外对凹凸函数的定义恰好相反，这里的凹函数指的是国外定义的凹函数），我们查看其图像如下：

Jensen不等式

$t\in [0,1]\\ c=ta+(1-t)b\\ \phi =tf(a)+(1-t)f(b)\\ 凹函数恒有f(c)\geq \phi \\ 也就是f(ta+(1-t)b)\geq tf(a)+(1-t)f(b)\\ 当t=\frac{1}{2}时有f(\frac{a}{2}+\frac{b}{2})\geq \frac{f(a)}{2}+\frac{f(b)}{2}\\ 可以理解为先求期望再求函数恒\geq 先求函数再求期望\\ 即f(E)\geq E[f]$

接下来应用Jensen不等式来导出EM算法：

$log\; p(x|\theta )=log\int _{z}p(x,z|\theta )\mathrm{d}z\\ =log\int _{z}\frac{p(x,z|\theta )}{q(z)}\cdot q(z)\mathrm{d}z\\ =log\; E_{q(z)}[\frac{p(x,z|\theta )}{q(z)}]\\ \geq \underset{ELBO}{\underbrace{E_{q(z)}[log\frac{p(x,z|\theta )}{q(z)}]}}$

这里应用了Jensen不等式得到了上面出现过的 $E L B O$ ，这里的 $f (x)$ 函数也就是 $l o g$ 函数，显然这是一个凹函数。当 $log\frac{P(x,z|\theta )}{q(z)}$ 这个函数是一个常数时会取得等号：

$\frac{p(x,z|\theta )}{q(z)}=C\\ \Rightarrow q(z)=\frac{p(x,z|\theta )}{C}\\ \Rightarrow \int _{z}q(z)\mathrm{d}z=\int _{z}\frac{1}{C}p(x,z|\theta )\mathrm{d}z\\ \Rightarrow 1=\frac{1}{C}\int _{z}p(x,z|\theta )\mathrm{d}z\\ \Rightarrow C=p(x|\theta )\\ 将C代入q(z)=\frac{p(x,z|\theta )}{C}得\\ {\color{Red}{q(z)=\frac{p(x,z|\theta )}{p(x|\theta )}=p(z|x,\theta )}}$

这种方法到这里就和上面的方法一样了，总结来说就是：

$log\; p(x|\theta )\geq \underset{ELBO}{\underbrace{E_{q(z)}[log\frac{p(x,z|\theta )}{q(z)}] }}\\ 当q(z)=p(z|x|\theta )时取等号，因此在迭代更新过程中取q(z)=p(z|x,\theta ^{t})。\\ 接下来的推导过程就和第1种方法一样了。$

四、广义EM

上面介绍的EM算法属于狭义的EM算法，它是广义EM的一个特例。在上面介绍的EM算法的E步中我们假定 $q(z)=p(z|x,\theta ^{t})$ ，但是如果这个后验 $p(z|x,\theta ^{t})$ 无法求解，那么必须使⽤采样（MCMC）或者变分推断等⽅法来近似推断这个后验。前面我们得出了以下关系：

$log\; p(x|\theta )=\int _{z}q(z)log\; \frac{p(x,z|\theta )}{q(z)}\mathrm{d}z-\int _{z}q(z)log\; \frac{p(z|x,\theta )}{q(z)}\mathrm{d}z=ELBO+KL(q||p)$