EM算法的导出、收敛性证明

最新推荐文章于 2024-08-05 11:17:14 发布

shahuzi

最新推荐文章于 2024-08-05 11:17:14 发布

阅读量1k

点赞数 1

分类专栏：机器学习文章标签： EM算法机器学习

本文链接：https://blog.csdn.net/shahuzi/article/details/96484927

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

首先，把使用的符号声明一下。
$\quad 各分量iid，即P(Y)=P(y_1,y_2,...,y_N）=\prod_{i=1}^{N}P(y_i)$
$Z : 隐变量$
$\Theta :参数$
$(Y, Z) : 完全数据$

我们知道，EM算法的迭代公式为 $\Theta^{t+1}=argmax_\Theta\int_{Z}P(Z|Y,\Theta^{t})logP(Y,Z|\Theta)dZ$ ，现在依次推导其导出及收敛性。

1.导出

使用最大似然推导，我们的目的是使得 $logP(Y|\Theta)$ 最大，故从这个角度出发。
$\begin{aligned} logP(Y|\Theta) & =logP(Y,Z|\Theta) - logP(Z|Y,\Theta) \\ 引入Q(Z)\neq0\qquad \qquad \qquad & = log\frac{P(Y,Z|\Theta)}{Q(Z)} - log\frac{P(Z|Y,\Theta)}{Q(Z)} \end{aligned}$
两边对 $Q (Z)$ 求期望:
$\begin{aligned} 左边 &=\int_{Z}Q(Z)logP(Y|\Theta)dZ\\ &=logP(Y|\Theta)\int_{Z}Q(Z)dZ\\ &=logP(Y|\Theta)\cdot1\\ &=logP(Y|\Theta)\\ 右边 &=\int_{Z}Q(Z)log\frac{P(Y,Z|\Theta)}{Q(Z)} dZ - \int_{Z}Q(Z)log\frac{P(Z|Y,\Theta)}{Q(Z)} dZ\\ &=ELBO + KL(Q(Z)||P(Z|Y,\Theta)) \end{aligned}$
右边的 $E L B O$ (Evidence lower bound)是似然 $logP(Y|\Theta)$ 的一个下界，因为 $KL(Q(Z)||P(Z|Y,\Theta)\geq0$ ，故 $logP(Y|\Theta)\geq ELBO$ （当 $KL(Q(Z)||P(Z|Y,\Theta)=0$ 时取等号）。因此，最大化似然的过程可以转化为最大化 $E L B O$ 的过程。现在回到开头，我们导出 $\Theta^{t+1}=argmax_\Theta\int_{Z}P(Z|Y,\Theta^{t})logP(Y,Z|\Theta)dZ$ ，即在已知 $\Theta^{t}$ 推导 $\Theta^{t+1}$ ，此时 $Q(Z)=P(Z|Y,\Theta^{t})$ ，则在第t+1步最大化似然等价于最大化 $E L B O$ 。
$\begin{aligned} \Theta^{t+1} &=argmax_\Theta logP(Y|\Theta)\\ &=argmax_\Theta ELBO\\ &=argmax_\Theta \int_{Z}Q(Z)log\frac{P(Y,Z|\Theta)}{Q(Z)} dZ\\ &=argmax_\Theta \int_{Z}P(Z|Y,\Theta^{t})log\frac{P(Y,Z|\Theta)}{P(Z|Y,\Theta^{t})} dZ\\ &=argmax_\Theta \int_{Z}P(Z|Y,\Theta^{t})logP(Y,Z|\Theta) dZ - \int_{Z}P(Z|Y,\Theta^{t})logP(Z|Y,\Theta^{t}) dZ\\ &=argmax_\Theta \int_{Z}P(Z|Y,\Theta^{t})logP(Y,Z|\Theta) dZ \end{aligned}$
此处解释一下上面公式的最后一步等号是怎么得来的，因为后面那项的 $\Theta^{t}$ 是已知的，即与 $\Theta$ 无关，故在求关于 $\Theta$ 的极大时，它求导后为0。至此，EM算法的导出得证。当然，还可以使用Jesen不等式的方法。

2.收敛性证明

所谓收敛性证明，即证明 $logP(Y|\Theta)$ 是递增的，从而它可以在迭代过程中取得极大值。首先，同样地把对数似然写开。
$logP(Y|\Theta) =logP(Y,Z|\Theta) - logP(Z|Y,\Theta)$
两边对 $P(Z|Y,\Theta^{t})$ 求期望：
$\begin{aligned} 左边&=\int_{Z}P(Z|Y,\Theta^{t})logP(Y|\Theta)dZ\\ &=logP(Y|\Theta)\\ 右边&=\int_{Z}P(Z|Y,\Theta^{t})logP(Y,Z|\Theta) dZ-\int_{Z}P(Z|Y,\Theta^{t})logP(Z|Y,\Theta) dZ\\ &=Q(\Theta,\Theta^{t}) - H(\Theta,\Theta^{t}) \end{aligned} \\ 则证明似然函数递增等价于证明[Q(\Theta^{t+1},\Theta^{t}) - H(\Theta^{t+1},\Theta^{t})]-[Q(\Theta^{t},\Theta^{t}) - H(\Theta^{t},\Theta^{t})]\geq0，\\ 首先，Q(\Theta^{t+1},\Theta^{t})-Q(\Theta^{t},\Theta^{t})\geq0是显然的，因为\Theta^{t+1}=argmax_\Theta Q(\Theta,\Theta^{t})，现在即需证\quad\\H(\Theta^{t},\Theta^{t})-H(\Theta^{t+1},\Theta^{t})\geq0.\\ \begin{aligned} H(\Theta^{t},\Theta^{t})-H(\Theta^{t+1},\Theta^{t}) &=\int_{Z}P(Z|Y,\Theta^{t})log\frac{P(Z|Y,\Theta^{t})}{P(Z|Y,\Theta^{t+1})} dZ\\ &=KL(P(Z|Y,\Theta^{t})||P(Z|Y,\Theta^{t+1}))\\ &\geq0 \end{aligned}$
上述后面的 $H(\Theta^{t},\Theta^{t})-H(\Theta^{t+1},\Theta^{t})\geq0$ 也可以使用Jesen不等式证明，此处略。至此，收敛性得证。

shahuzi

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
EM算法的导出、收敛性证明

首先，把使用的符号声明一下。Y:观测变量各分量iid，即P(Y)=P(y1,y2,...,yN）=∏i=1NP(yi)Y:观测变量 \quad 各分量iid，即P(Y)=P(y_1,y_2,...,y_N）=\prod_{i=1}^{N}P(y_i)Y:观测变量各分量iid，即P(Y)=P(y1,y2,...,yN）=∏i=1NP(yi)Z:隐变量Z:隐变量Z:隐变量Θ:参数\Th...
复制链接

扫一扫

专栏目录