EM算法：含隐变量的参数估计

最新推荐文章于 2023-01-11 16:26:52 发布

Turbo-shengsong

最新推荐文章于 2023-01-11 16:26:52 发布

阅读量1.4k

点赞数 1

分类专栏：信息与通信文章标签： 1024程序员节

本文链接：https://blog.csdn.net/weixin_43413559/article/details/127480983

版权

信息与通信专栏收录该内容

22 篇文章 21 订阅

订阅专栏

该篇博客是对邱锡鹏老师《神经网络与深度学习》的学习笔记。

EM算法简介

（隐变量：部分变量是不可观测的）

在一个包含隐变量的图模型中，令 $\boldsymbol X$ 定义可观测变量的集合，隐变量集合为 $\boldsymbol Z$ ，一个样本 $\boldsymbol x$ 的边际似然函数为：
$p(\boldsymbol x; \theta) = \sum_{\boldsymbol z} p(\boldsymbol x, \boldsymbol z; \theta)$

其中 $\theta$ 为模型参数。我们给出带隐变量的贝叶斯网络结构图模型，如下图所示，其中矩形表示其中的变量重复 $N$ 次，这种表示法称为盘子表示法（Plate Notation），是图模型中表示重复变量的方法。

若我们有 $N$ 个样本 $\mathcal D=\{\boldsymbol x^{(n)}\}_{n=1}^N$ ，整个训练集的对数边际似然为
$\begin{aligned} \mathcal L (\mathcal D, \theta) &= \log \left ( \prod_{n=1}^N p(\boldsymbol x^{(n)}; \theta) \right ) \\ & = \sum_{n=1}^N \log p(\boldsymbol x^{(n)}; \theta) \\ & = \sum_{n=1}^N \log \left ( \sum_{z} p (\boldsymbol x^{(n)}, \boldsymbol z; \theta) \right) \end{aligned}$

通过最大化整个样本的对数似然边际 $\mathcal L (\mathcal D, \theta)$ ，我们可以估计出最优的参数 $\theta^{*}$ ，但是我们难以直接计算。为了解决这个实际问题，计算 $p(\boldsymbol x, \boldsymbol z, \theta)$ ，我们引入额外的变分函数 $q(\boldsymbol z)$ ， $q(\boldsymbol z)$ 定义为在隐变量 $\boldsymbol z$ 上的分布，样本 $\boldsymbol X$ 的对数边际似然函数为：
$\begin{aligned} \log p(\boldsymbol x; \theta) &= \log \sum_{\boldsymbol z} q(\boldsymbol z) \frac{ p(\boldsymbol x, \boldsymbol z; \theta) } {q(\boldsymbol z)} \\ & \geq \sum_{\boldsymbol z} q(\boldsymbol z) \log \frac{ p(\boldsymbol x, \boldsymbol z; \theta) } {q(\boldsymbol z)} \\ & \overset{\bigtriangleup}{=} ELBO(q, \boldsymbol x, \theta) \end{aligned}$

第二个不等式使用了Jensen不等式，当且仅当 $q(\boldsymbol z)=p(\boldsymbol z| \boldsymbol x, \theta)$ 时，取等号（取到下界）。另外， $E L BO$ 称为对数边际似然函数 $\log p(\boldsymbol x; \theta)$ 的下界，称为证据下界(Evidence Lower BOound)。这样，最大化对数边际似然函数可以分解为两个步骤：
(1) 先找到近似分布 $q(\boldsymbol z)$ 使得： $\log p(\boldsymbol x; \theta)=ELBO(q, \boldsymbol x, \theta)$
(2) 再寻找参数 $\theta$ 最大化 $\boldsymbol x, \theta)$ 。

这就是EM算法，即期望最大化算法（Expectation-Maximization Alogirthm），EM算法是含隐变量图模型的常用参数估计方法，通过迭代的方式来最大化边际似然。EM算法分为两个步骤：E步和M步，这两个步骤不断重复，直至收敛到某个局部最优解。在第t步迭代时，E步和M步分别为：
(1) E步：固定参数 $\theta_t$ ，找到一个分布 $q_{t+1}(\boldsymbol z)$ 使得证据下界 $\boldsymbol x, \theta)=\log p(\boldsymbol x; \theta)$

根据Jensen不等式，我们知道，当 $q(\boldsymbol z)=p(\boldsymbol z| \boldsymbol x, \theta_t)$ 时， $\boldsymbol x, \theta)$ 最大，因此在E步中，最理想的分布 $q(\boldsymbol z)$ 是等于后验分布 $p(\boldsymbol z| \boldsymbol x, \theta_t)$ ，而计算后验分布 $p(\boldsymbol z| \boldsymbol x, \theta_t)$ 是一个推断（Inference）问题，如果 $\boldsymbol z$ 是有限的一维离散变量（比如混合高斯模型）， $p(\boldsymbol z| \boldsymbol x, \theta_t)$ 计算起来还比较容易；否则， $p(\boldsymbol z| \boldsymbol x, \theta_t)$ 一般情况下很难计算，需要通过变分推断的方法来进行近似估计。

(2)M步：固定 $q_{t+1}(\boldsymbol z)$ ，找到一组参数使得证据下界最大，即
$\theta_{t+1} = \argmax_{\theta} ELBO(q_{t+1}, \boldsymbol x; \theta)$

EM算法的收敛性证明

假设在第 $t$ 步时的模型参数为 $\theta_t$ ，在E步时找到一个分布 $q_{t+1}(\boldsymbol z)$ ，使得 $\log p(\boldsymbol x; \theta_t)=ELBO(q_{t+1}, \boldsymbol x, \theta_t)$ 。在M步时固定 $q_{t+1}(\boldsymbol z)$ 找到一组参数 $\theta_{t+1}$ ，使得 $ELBO(q_{t+1}, \boldsymbol x; \theta_{t+1}) \geq ELBO(q_{t+1}, \boldsymbol x; \theta_{t})$ 。因此
$\log p(\boldsymbol x; \theta_{t+1}) \geq ELBO(q_{t+1}, \boldsymbol x; \theta_{t+1}) \geq ELBO(q_{t+1}, \boldsymbol x; \theta_{t}) = \log p(\boldsymbol x; \theta_t)$

即经过每一次迭代，对数边际似然增加，即 $\log p(\boldsymbol x; \theta_{t+1}) \geq \log p(\boldsymbol x; \theta_t)$ ，单调有界必定收敛。

从信息论视角看EM算法

根据贝叶斯公式
$\begin{aligned} & p(\boldsymbol x, \boldsymbol z; \theta) = p(\boldsymbol z| \boldsymbol x; \theta) \cdot p(\boldsymbol x; \theta) \\ \Rightarrow & \log p(\boldsymbol x; \theta) = \log p(\boldsymbol x, \boldsymbol z; \theta) - \log p(\boldsymbol z| \boldsymbol x; \theta) \end{aligned}$

借助上式，我们可以将对数边际似然 $\log p(\boldsymbol x; \theta)$ 分解为：
$\begin{aligned} \log p(\boldsymbol x; \theta) &= \sum_{\boldsymbol z} q(\boldsymbol z) \log p(\boldsymbol x; \theta) \\ &= \sum_{\boldsymbol z} q(\boldsymbol z) \log \frac{p(\boldsymbol x, \boldsymbol z; \theta) }{ p(\boldsymbol z| \boldsymbol x; \theta)} \\ &= \sum_{\boldsymbol z} q(\boldsymbol z) \log \frac{p(\boldsymbol x, \boldsymbol z; \theta) }{q(\boldsymbol z)} \cdot \frac{q(\boldsymbol z) }{ p(\boldsymbol z| \boldsymbol x; \theta)} \\ &= \sum_{\boldsymbol z} q(\boldsymbol z) \left ( \log \frac{p(\boldsymbol x, \boldsymbol z; \theta)}{q(\boldsymbol z)} - \log \frac{p(\boldsymbol z| \boldsymbol x; \theta) } {q(\boldsymbol z)} \right) \\ &= ELBO(q, \boldsymbol x; \theta) + KL \left ( q(\boldsymbol z) || p(\boldsymbol z| \boldsymbol x; \theta) \right) \end{aligned}$

由于 $\left ( q(\boldsymbol z) || p(\boldsymbol z| \boldsymbol x; \theta) \right) \geq 0$ ，因此 $\boldsymbol x; \theta)$ 是 $\log p(\boldsymbol x; \theta)$ 的一个下界，当且仅当 $q(\boldsymbol z)=p(\boldsymbol z| \boldsymbol x; \theta)$ 时， $\left ( q(\boldsymbol z) || p(\boldsymbol z| \boldsymbol x; \theta) \right)=0$ ，此时 $\boldsymbol x; \theta)=\log p(\boldsymbol x; \theta)$ 。