EM算法2-理论证明

最新推荐文章于 2022-01-13 00:42:11 发布

liulilglitter

最新推荐文章于 2022-01-13 00:42:11 发布

阅读量198

点赞数

分类专栏：医疗图像分割-无监督学习

本文链接：https://blog.csdn.net/liulilglitter/article/details/118929958

版权

医疗图像分割-无监督学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

在能感性理解EM算法，并且和其理论结合到一起后，我们现在开始学习一下EM算法的理论推导和证明部分，证明的流程主要参考：
https://blog.csdn.net/v_july_v/article/details/81708386，非常详细有逻辑

首先是我们的目标，在我们求解的时候，会有N个观测变量Y，希望求解的参数为 $\theta$ ，这个时候，最大似然估计告诉我们，求解 $\theta$ 可以最大化下式：
在这里插入图片描述
但是由于我们现在中间可能有未知环节，无法给出P(Y| $\theta$ )的表达式，没办法直接求解，所以引入了一个中间变量z：

这个变量z的引入，一般能让表达式变得更容易表达，比如P(Y|Z, $\theta$ )是较容易给出表达式的

但是因为这个求解还是比较困难，log中有连加，求导等过程非常复杂，所以EM算法其实就是解决了如何通过迭代的方法求解Z和 $\theta$ ，从而到到我们的最终目标->最大似然估计求参数

下面就是理论推导过程：
使用Jensen不等式，对L( $\theta$ )进行变形：
在这里插入图片描述
这里需要注意一点，我们在提出q的时候，是q(z)， $\sum_{z}$ q(z)=1，Z相当于是X轴

此时我们找到了一个L( $\theta$ )的下界：

EM算法厉害的地方在于一下两点：
1. 找到了一个q(z),使得当 $\theta$ 在某一个值的时候 $\theta_i$ ，Q( $\theta_i$ )=L( $\theta_i$ )
2. 通过M步，寻找当前Q( $\theta_i$ )的最大值，更新 $\theta_i$ ，从而不断更新q(z)，提高下届的值，从而增大L( $\theta$ )

下面具体看一下是如何做到这两步的：

首先是当我们给定一个当前的 $\theta_i$ 时，怎么样让Q( $\theta_i$ )=L( $\theta_i$ )
根据Jensen不等式，在 f(E(X))>=E[f(x)],只有在X为常数的时候，等号成立，所以仅有下式成立时，才有等号成立：
在这里插入图片描述
然后进行变形，对两边求z的积分

因为有 $\sum_{z}$ q(z)=1，所以有：C=P(Y| $\theta_i$ ), 所以有：

所以当我们有一个 $\theta_i$ 时，可以找到一个在 $\theta_i$ 处紧贴L( $\theta$ 的Q( $\theta_i$ ):

这里把Q( $\theta_i$ )写成了Q( $\theta$ ， $\theta_i$ )表示在 $\theta_i$ 时的Q值，那么M步就是求：
在这里插入图片描述
所以整个EM算法的流程就是：

在有一个 $\theta_i$ 时，可以找到一个在 $\theta_i$ 处紧贴L( $\theta$ ）的Q( $\theta_i$ )，然后寻找 $argmax_\theta$ Q( $\theta_i$ )的最大值（寻找使Q( $\theta_i$ )最大的 $\theta$ 值），将 $\theta_i$ 更新到 $\theta_i+1$ ，然后再寻找此时的Q( $\theta_i+1$ )，使得Q( $\theta_i+1$ )在 $\theta_i+1$ 处紧贴L( $\theta$ ）

最后还需要证明整个EM算法的过程是收敛的，是有效果的，也就是这个方法能够保证求得的L( $\theta$ ）在不断的变大，不然也是无用的算法，假设第i次得到的参数值为 $\theta_i$ ，第i+1次得到的参数值为 $\theta_i+1$ ，加入能够保证L( $\theta_i+1$ ）>=L( $\theta_i$ ），就能说明极大似然估计单调增加，那么最终我们能够找到最大似然估计的一个稳定的极大值。EM算法收敛性的证明基本分为两种，一种是李航老师在统计学习方法里面讲的，还有一种直观的方法：
在这里插入图片描述
最开始推荐的博文中都有介绍，本文只是希望更简练的让大家了解EM算法的基本思路，有时候看太多的细节反倒会忘记最根本的思路。

liulilglitter

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
EM算法2-理论证明

在能感性理解EM算法，并且和其理论结合到一起后，我们现在开始学习一下EM算法的理论推导和证明部分，证明的流程主要参考：https://blog.csdn.net/v_july_v/article/details/81708386，非常详细有逻辑首先是我们的目标，在我们求解的时候，会有N个观测变量Y，希望求解的参数为θ\thetaθ，这个时候，最大似然估计告诉我们，求解θ\thetaθ可以最大化下式：但是由于我们现在中间可能有未知环节，无法给出P(Y|θ\thetaθ)的表达式，没办法直接求解，所以引
复制链接

扫一扫

专栏目录