EM算法

最新推荐文章于 2024-01-26 17:25:22 发布

NeverMoreH

最新推荐文章于 2024-01-26 17:25:22 发布

阅读量258

点赞数 3

分类专栏：深度学习、机器学习文章标签：机器学习 EM算法

本文链接：https://blog.csdn.net/ms961516792/article/details/87731959

版权

深度学习、机器学习专栏收录该内容

18 篇文章 0 订阅

订阅专栏

预备知识

极大似然估计

极大似然估计是一种通过样本估计模型参数的统计学方法。
比如，我们想要统计学生的身高，于是在校园中随机抽取了50名学生，对他们的身高进行了统计。同时，我们知道学生身高服从高斯分布，但是我们不知道该分布的 $\mu$ 和 $\sigma$ ，我们的目的就是通过这50个样本来估计 $\mu$ 和 $\sigma$ 。
于是，我们可以得出极大似然估计的用途：
已知：①.一些随机样本，②.样本服从的分布模型。
估计：样本服从的分布模型的参数。

估计的步骤如下：
假设样本集为 $X=\{x^{(1)},x^{(2)},...,x^{(50)}\}$ ，且每个样本独立同分布。若 $\theta$ 为待估计参数，我们可以用 $p(x^{(i)}|\theta)$ 表示抽取到样本 $x^{(i)}$ 的概率。则在待估计参数为 $\theta$ 的前提下，抽取到样本集 $X$ 的概率为（似然函数）：
$L(\theta)=L(x^{(1)},x^{(2)},...x^{(50)};\theta)=\prod_{i=1}^{50}p(x^{(i)};\theta)$
这个概率表示，在参数为 $\theta$ 时，得到样本集 $X$ 的概率。我们要做的事情就是中找到使 $L(\theta)$ 最大化的参数 $\theta$ ：
$\hat \theta=arg\max\ L(\theta)$
而求解 $\hat \theta$ 的一般步骤很多书籍里也都介绍过，将似然函数取对数：
$H(\theta)=\log L(\theta)=\sum_{i=1}^{50}\log p(x^{(i)};\theta)$
然后对其求导，使导数为0，得到似然方程。对似然方程求解得到 $\hat \theta$ 。

Jensen不等式

Jensen不等式是凸函数的一个定理，简洁的说一下：
如果函数 $f$ 是凸函数， $X$ 是随机变量，则 $E[f(X)]\geq f(E[X])$ ，如果函数 $f$ 是凹函数，不等号反向。
用下面这张图片可以更好的理解这个定理：
在这里插入图片描述
当且仅当 $X$ 是常量的时候（即： $p (x = E [X]) = 1$ ），上式等号成立。

EM算法

EM算法经常应用于模糊聚类问题中，用于对含有隐变量的模型进行参数估计。
EM算法主要包括两部分：
①.E步：根据参数初始值或上一次迭代得到的参数值，对隐变量的分布进行估计，得到隐变量的后验概率。
②.M步：利用隐变量的后验概率，最大化似然函数，得到本轮迭代的参数值。

对上文提到的例子进行一下修改：我们想要统计学生的身高，于是在校园中随机抽取了100名学生，其中包括50个男学生和50个女学生，对他们的身高进行了统计。我们知道男学生和女学生的身高相互独立，且都服从高斯分布，但是我们不知道这两个分布的 $\mu$ 和 $\sigma$ 。我们的目的就是通过这100个样本来估计每个样本属于的分布（即：该样本来自男学生or女学生），和这两个分布的 $\mu$ 和 $\sigma$ 。
于是，我们可以得出EM算法的用途：
已知：①.一些随机样本，②.样本服从的分布模型。
得出：①.每个样本属于哪个分布模型，②.分布模型的参数。

还是刚才的身高问题，我们使用 $z^{(i)}$ 表示样本 $x^{(i)}$ 所属的分布，这里的 $z$ 称为隐变量。则对数似然函数可以写为：
$H(\theta)=\sum_{i=1}^m\log p(x^{(i)};\theta)=\sum_{i=1}^m\log \sum_{z^{(i)}} p(x^{(i)},z^{(i)};\theta)$
假设 $z^{(i)}$ 服从概率分布 $Q_i(z^{(i)})$ ，对上式继续进行整理：
$\sum_{i=1}^m\log \sum_{z^{(i)}} p(x^{(i)},z^{(i)};\theta)=\sum_{i=1}^m\log \sum_{z^{(i)}} Q_i(z^{(i)})\frac {p(x^{(i)},z^{(i)};\theta)} {Q_i(z^{(i)})}$
由于 $\log$ 函数为凹函数，我们将 $\frac {p(x^{(i)},z^{(i)};\theta)} {Q_i(z^{(i)})}$ 视为一个随机变量 $Y$ ，利用Jensen不等式可以得到：
$\sum_{i=1}^m\log \sum_{z^{(i)}} Q_i(z^{(i)})\frac {p(x^{(i)},z^{(i)};\theta)} {Q_i(z^{(i)})}\geq \sum_{i=1}^m \sum_{z^{(i)}} Q_i(z^{(i)})\log \frac {p(x^{(i)},z^{(i)};\theta)} {Q_i(z^{(i)})}$
通过上式我们而可以看出，要想使得 $H(\theta)$ 最大，我们可以不断的最大化下界，使 $H(\theta)$ 不断提高，达到最大值。而使 $H(\theta)$ 取最大时，正是上述不等式取等号的时候。根据Jensen不等式可知，当不等式取等号时， $p (y = E [Y]) = 1$ ，也就是说 $Y$ 是一个常数。即：
$\frac {p(x^{(i)},z^{(i)};\theta)} {Q_i(z^{(i)})}=C\ \ \ \ \ \ \ \ \ \ (1)$
由于 $Q_i(z^{(i)})$ 是一个概率分布，则 $\sum_{z^{(i)}}Q_i(z^{(i)})=1$ ，对上式左侧，分子分母同时对 $z^{(i)}$ 求和，可得：
$\frac {\sum_{z^{(i)}}p(x^{(i)},z^{(i)};\theta)} {\sum_{z^{(i)}}Q_i(z^{(i)})}=C \ \ \ \ \ -->\ \ \ \ \ \frac {\sum_{z^{(i)}}p(x^{(i)},z^{(i)};\theta)} {1}=C$
即：
${\sum_{z^{(i)}}p(x^{(i)},z^{(i)};\theta)}=C\ \ \ \ \ \ \ \ \ \ (2)$
将 $(1)$ 式和 $(2)$ 式结合，可得：
$Q_i(z^{(i)})=\frac {p(x^{(i)},z^{(i)};\theta)}{\sum_{z^{(i)}}p(x^{(i)},z^{(i)};\theta)}=\frac {p(x^{(i)},z^{(i)};\theta)}{p(x^{(i)};\theta)}=p(z^{(i)}|x^{(i)};\theta)$
计算到这里，我们已经知道了如何在给定参数 $\theta$ 的情况下，得到使对数似然函数 $H(\theta)$ 取最大时隐变量 $z$ 的分布。那么，我们可得EM算法的一般步骤:
   ①.对待估计参数 $\theta$ 进行初始化；
   ②.E步：利用参数 $\theta$ 计算隐变量 $z$ 的后验概率：
$Q_i(z^{(i)}):=p(z^{(i)}|x^{(i)};\theta)$
   ③.M步：利用隐变量 $z$ 的后验概率，最大化似然函数，得到新的参数 $\theta$ ：
$\theta:=arg\max_\theta\sum_i\sum_{z^{(i)}}Q_i(z^{(i)})\log\frac{p(x^{(i)},z^{(i)};\theta)}{Q_i(z^{(i)})}$
   ④.重复②③至收敛。

NeverMoreH

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
EM算法

目录预备知识极大似然估计Jensen不等式EM算法&amp;amp;nbsp; &amp;amp;nbsp; &amp;amp;nbsp; &amp;amp;nbsp;预备知识极大似然估计&amp;amp;nbsp; &amp;amp;nbsp; &amp;amp;nbsp; &amp;amp;nbsp;&amp;amp;nbsp; &amp;amp;nbsp; &amp;amp;nbsp; &amp
复制链接

扫一扫