Chapter 09 Mixture Models and EM

最新推荐文章于 2023-04-03 21:10:05 发布

zhoudinglive

最新推荐文章于 2023-04-03 21:10:05 发布

阅读量282

点赞数 1

分类专栏： PRML读书笔记

本文链接：https://blog.csdn.net/carpentercc/article/details/83512740

版权

PRML读书笔记专栏收录该内容

9 篇文章 2 订阅

订阅专栏

Chapter 09 Mixture Models and EM

本章《PRML》主要介绍的概念是期望最大化算法(Expectation Maximization Algorithm, EM)，该方法主要用于含有隐变量(latent variable)的概率模型参数的极大似然估计。混合高斯模型即是利用EM算法进行的计算。

文章目录

Chapter 09 Mixture Models and EM

EM

a. Expectation Maximization Algorithm

一般地，如果概率模型的变量都是观测变量(observable variable)，无隐变量，那么可以直接使用极大似然估计或者贝叶斯估计，解析地求得模型的参数。但是，当含有隐变量时，以上方法就得不到解析解了，就只能够得到模型参数关于隐变量的一个函数。

通常来说，对于观测数据 $X$ ，参数 $\theta$ ，我们希望通过最大化对数似然函数 $\theta)$ 得到参数 $\theta$ 的估计，当有隐变量 $Z$ 时，我们希望能够最大化 $p(X,Z|\theta)$ 。一般地，对于含隐变量的情况，我们定义 $X$ 为观测随机变量数据， $Z$ 表示隐随机变量数据，

完全数据(complete-data)： $Y$ 和 $Z$ 在一起；
不完全数据(incomplete-data)：只有观测数据 $Y$ 。

EM算法求解 $L(\theta)= log p(X,Z|\theta)$ 主要分为两步，E步，求期望；M步，求极大化。其具体形式如下，

输入：观测变量 $X$ ，隐变量 $Z$ ，联合分布 $p(X,Z|\theta)$ ，条件分布 $p(Z|X,\theta)$ ；
输出：模型参数 $\theta$ ；
步骤：
- 选择参数的初值 $\theta^{(0)}$ ，开始迭代；
- E步：记 $\theta^{(i)}$ 为第 $i$ 次迭代参数 $\theta$ 的估计值，在第 $i + 1$ 次迭代的 $E$ 步，计算
  $\begin{aligned} \mathcal{Q}(\theta,\theta^{(i)}) &= E_Z [log p(X,Z|\theta)|X,\theta^{(i)}] \\ &= \sum_Z log p(X,Z|\theta)p(Z|X,\theta^{(i)}) \end{aligned} \tag{9.1}$
  这里， $p(Z|X,\theta^{(i)})$ 是在给定观测数据 $X$ 和当前参数估计 $\theta^(i)$ 下隐变量数据 $Z$ 的条件概率分布；
- M步：求使得式(9.1)极大化的 $\theta$ ，确定第 $i + 1$ 次迭代的参数的估计值 $\theta^{(i+1)}$ ，
  $\theta^{(i+1)} = \arg \max_{\theta} \mathcal{Q}(\theta,\theta^{(i)}) \tag{9.2}$
- 重复前两个步骤，直到收敛。
  其中，我们定义，
$\mathcal{Q}函数$ ：完全数据的对数似然函数 $p(X,Z|\theta)$ 关于在给定观测数据 $X$ 和当前参数 $\theta^{(i)}$ 下对为观测数据 $Z$ 的条件概率分布 $p(Z|X,\theta^{(i)})$ 的期望称为 $\mathcal{Q}$ 函数，即，
$\mathcal{Q}(\theta, \theta^{(i)})=E_Z [log p(X, Z|\theta)|X, \theta^{(i)}] \tag{9.3}$

总结来看，EM算法首先对隐变量的后验分布求期望，再对这个期望最大化来获得参数的更新。

b. Validity & Convergence of EM

EM算法的正确性(validity)可以通过对目标函数进行分解得到，对于联合分布 $p(X,Z|\theta)$ 由参数 $\theta$ 控制，我们的目标是最大化似然函数，

$p(X|\theta) = \sum_Z p(X,Z|\theta) \tag{9.3}$

一般地，我们会考虑式(9.3)的对数形式，并且对其进行分解可以得到式(9.4)，

$\ln p(X|\theta) = \mathcal{L}(q,\theta) + KL(q||p) \tag{9.4}$

其中，我们定义，

$\mathcal{L}(q,\theta) = \sum_Z q(Z) \ln \left ( \frac{p(X,Z|\theta)}{q(Z)} \right ) \tag{9.5}$

$-\sum_Z q(Z) \ln \left ( \frac{p(Z|X,\theta)}{q(Z)} \right ) \tag{9.6}$

对于式(9.4)的分解，我们可以将式(9.7)带入(9.5)证得，

$\ln p(X,Z|\theta) = \ln p(Z|X,\theta) + \ln p(X|\theta) \tag{9.7}$

考虑到Kullback-Leibler散度 $\geq 0$ ，且当且仅当 $p(Z|X,\theta)$ 时等号成立，因此，根据公式(9.4)，我们可以知道， $\ln p(X|\theta) \geq \mathcal{L}(q,\theta)$ ，即 $\mathcal{L}(q,\theta)$ 是 $\ln p(X|\theta)$ 的一个下界，其分解形式如下，

在这里插入图片描述

我们可以使用式(9.4)的分解，证明在EM算法中，通过不断的求解下界式(9.5)的极大值来逼近求解似然函数的极大化，

E步：假设参数的当前值为 $\theta^{(old)}$ ，在E步骤中，下界 $\mathcal{L}(q,\theta^{(old)})$ 关于 $q (Z)$ 被最大化，且 $\ln(X|\theta^{(old)})$ 不依赖于 $q (Z)$ 而依赖于固定不变的 $\theta^{(old)}$ ，因此其值保持不变。所以 $\mathcal{L}(q,\theta^{(old)})$ 的最大值为KL散度为零的时候，即最大值出现在 $q (Z)$ 与后验概率分布 $p(Z|X,\theta^{(old)})$ 相等的时候，此时下界为对数似然函数，如下图所示，
M步：分布的 $q (Z)$ 保持不变，下界 $\mathcal{L}(q,\theta^{(old)})$ 关于 $\theta$ 求最大值，得到 $\theta^{(new)}$ ，这会使得下界 $\mathcal{L}$ 增大，这也会使得似然函数增大。同时，因为 $q (Z)$ 不变且依然由旧参数得到，因此其和 $p(Z|X,\theta^{(new)})$ 不可能相同，进而， $K L$ 散度非零，其结构如下图。

综上，可以看出，EM算法是在不断的提升下界以逼近极大似然的结果。如果我们把 $q(Z)=p(Z|X,\theta^{(old)})$ 带入式(9.5)，在E步之后，下界为，

$\begin{aligned} \mathcal{L}(q,\theta) &=\sum_Z p(Z|X,\theta^{(old)}) \ln p(X,Z|\theta)-\sum_Zp(Z|X,\theta^{(old)})\ln p(Z|X,\theta^{(old)}) \\ &= \mathcal{Q}(\theta,\theta^{(old)}) + const \end{aligned} \tag{(9.8)}$