机器学习笔记之EM算法(四)广义EM

最新推荐文章于 2022-10-24 14:27:42 发布

静静的喝酒

最新推荐文章于 2022-10-24 14:27:42 发布

阅读量682

点赞数 1

分类专栏：机器学习文章标签：广义EM算法狭义EM算法机器学习

本文链接：https://blog.csdn.net/qq_34758157/article/details/126752655

版权

机器学习笔记之EM算法——广义EM

引言

引言

上一节介绍了引入隐变量的本质，本节将狭义EM算法推广至广义EM算法。

回顾：引如隐变量与EM算法的本质

引入EM算法本质上是基于频率学派的思想，针对概率模型 $P(\mathcal X \mid \theta)$ 中模型参数 $\theta$ 的估计问题。
learning 问题。
找到这个最优模型参数 $\hat \theta$ 的底层逻辑是极大似然估计(Maximum Likelihood Estimate,MLE)：
$\hat \theta = \mathop{\arg\max}\limits_{\theta} \log P(\mathcal X \mid \theta)$
但通常情况是：如果将 $P(\mathcal X \mid \theta)$ 看成概率模型，那么该概率模型产生的真实样本 $\mathcal X$ 过于复杂，导致使用极大似然估计无法有效地求出最优解析解 $\hat \theta$ 。

针对这种情况，我们需要对 $P(\mathcal X \mid \theta)$ 做出一些假设：假设存在概率模型 $P(\mathcal Z)$ ，真实样本 $\mathcal X$ 是以概率模型 $P(\mathcal Z)$ 的条件下产生出来的。数学符号表达即：
$P(\mathcal X \mid \mathcal Z)$
概率图表示为：
请添加图片描述
由于 $P(\mathcal Z)$ 是人为假设的概率分布，从而可以将原始的概率模型 $P(\mathcal X)$ 转化为关于真实样本 $\mathcal X$ ，隐变量 $\mathcal Z$ 的混合概率模型 $P(\mathcal X,\mathcal Z)$ :
$P(\mathcal X,\mathcal Z) = P(\mathcal X \mid \mathcal Z)P(\mathcal Z)$

从而可以通过概率模型 $P(\mathcal Z)$ 作为媒介，将复杂的样本分布 $P(\mathcal X \mid \theta)$ 求解出来：
$P(\mathcal X) = \int_{\mathcal Z} P(\mathcal X,\mathcal Z)d\mathcal Z = \mathbb E_{\mathcal Z}\left[P(\mathcal X,\mathcal Z)\right]$

狭义EM与广义EM

回顾：狭义EM算法

在确立了目标函数： $\log P(\mathcal X \mid \theta)$ 之后，我们将隐变量 $\mathcal Z$ 引入，对目标函数进行展开：
详细的展开过程见传送门,这里就不赘述了。
$\begin{aligned} \log P(\mathcal X \mid \theta) & = \log P(\mathcal X,\mathcal Z \mid \theta) - \log P(\mathcal Z \mid \mathcal X,\theta) \\ & = \log P(\mathcal X,\mathcal Z \mid \theta) - \log \mathcal Q(\mathcal Z) - [\log P(\mathcal Z \mid \mathcal X,\theta) - \log \mathcal Q(\mathcal Z)] \\ & = \log \frac{P(\mathcal X,\mathcal Z \mid \theta)}{\mathcal Q(\mathcal Z)} - \log \frac{P(\mathcal Z \mid \mathcal X,\theta)}{\mathcal Q(\mathcal Z)} \end{aligned}$
同时对等式左右两端基于 $\mathcal Q(\mathcal Z)$ 求解期望：
等式左端：
$\begin{aligned} \mathbb E_{\mathcal Q(\mathcal Z)} \left[\log P(\mathcal X \mid \theta)\right] & = \int_{\mathcal Z} \mathcal Q(\mathcal Z) \log P(\mathcal X \mid \theta)d\mathcal Z \\ & = \log P(\mathcal X \mid \theta) \int_{\mathcal Z} \mathcal Q(\mathcal Z)d\mathcal Z \\ & = \log P(\mathcal X \mid \theta) \end{aligned}$
等式右端：