EM算法与变分推断 —— 数学推导

最新推荐文章于 2024-05-14 20:41:50 发布

ashome123

最新推荐文章于 2024-05-14 20:41:50 发布

阅读量2.2k

点赞数 7

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习深度学习人工智能算法变分法

本文链接：https://blog.csdn.net/ashome123/article/details/118941907

机器学习专栏收录该内容

6 篇文章

订阅专栏

本文详细介绍了EM算法的推导过程，包括从边际似然函数出发和基于对数边际似然的分解，同时探讨了变分推断在复杂模型中的应用，通过实例演示了如何寻找最优近似分布。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

EM算法

对于概率图模型中包含有隐变量的情况，可以使用EM算法进行参数估计。隐变量是指不可观测的变量，但其参与到了样本的生成过程。例如在混合高斯模型中，样本 $x$ 的生成过程为首先确定其所属的类别 $z$ ，之后根据其类别选择相应的高斯分布 $\mathcal{N}(\mu_z,\sigma_k)$ ，生成样本 $x$ 。在该生成过程中，样本所属的类别 $z$ 即为一个隐变量。

本文综合了一些相关资料，主要聚焦于EM算法及变分推断的推导过程。

EM算法推导方法1

对于EM算法，可从边际似然函数的角度出发进行推导：在包含隐变量的图模型中，模型参数为 $\theta$ ，则样本 $x$ 的边际似然函数为：
$p({x};\theta)=\sum_{{z}}p({x},{z};\theta) \tag{1}$

则对于包含 $N$ 个样本的训练集 $D=\{x^{(1)},x^{(2)},...,x^{(N)}\}$ ，训练集 $D$ 的对数边际似然函数为：
$\begin{aligned} L(D;\theta) & =\frac{1}{N}\sum_{n=1}^N\log\,p(x^{(n)};\theta) \\ & =\frac{1}{N}\sum_{n=1}^N\log\sum_zp(x^{(n)},z;\theta)\tag{2} \end{aligned}$

我们的最终目标是希望最大化整个数据集的对数边际似然函数 $L(D;\theta)$ ，然而(2)式中涉及分布 $p(x,z;\theta)$ 的求和（或积分），难以计算。因此可以引入一个关于隐变量 $z$ 的近似分布 $q (z)$ ，称为变分函数，并利用其对边际似然函数进行推导：
$\begin{aligned} \log\,p(x;\theta)&=\log\sum_zp(x,z;\theta) \\ &=\log\,\sum_zq(z)\frac{p(x,z;\theta)}{q(z)} \\ & \ge\sum_zq(z)\log\frac{p(x,z;\theta)}{q(z)} \\ &=ELBO(q,x;\theta) \end{aligned}\tag{3}$ 上述推导中运用了Jensen不等式，即对于凹函数 $g (x)$ ，有 $g(E[x])\ge E[g(x)]$ ； $ELBO(q,x;\theta)$ 为 $\log\,p(x;\theta)$ 的下界，称为证据下界 (Evidence LowerBound)

回到问题本身，我们的目标是最大化 $\log p(x;\theta)$ ，而由(3)式可知其下界为 $ELBO(q,x;\theta)$ ，因此EM算法的思想是寻找一个最优的近似分布 $q^*(z)$ ，使 $ELBO(q^*,x;\theta)$ 达到当前参数 $\theta$ 固定情况下的最大值，然后改变参数 $\theta$ 使得 $ELBO(q,x;\theta)$ 在当前 $q^*(z)$ 固定的情况下达到最大，之后不断地重复这两个步骤。

对于如何寻找最优的 $q^*(z)$ ：根据Jensen不等式的等号成立条件可知，对于(3)式，仅当 $q(z)=p(z|x;\theta)$ 时等号成立，此时 $ELBO(q,x;\theta)$ 达到最大值 $\log p(x;\theta)$

最终EM算法的步骤如下：
E-step：固定参数 $\theta_t$ ，即固定 $\log p(x;\theta_t)$ ，令 $q_{t+1}(z)=p(z|x;\theta_t)$ ，使得 $\log p(x;\theta_t)=ELBO(q_{t+1},x;\theta_t)$
M-step：固定 $q_{t+1}(z)$ ，找到一组参数使得 $ELBO(q,x;\theta)$ 达到最大，即 $\theta_{t+1}=\argmax_\theta ELBO(q_{t+1},x;\theta)$

EM算法推导方法2

对于对数边际似然函数 $\log p(x;\theta)$ 可采用另一种分解方式，由此产生第二种推导方法：
$\begin{aligned} \log p(x;\theta)&=\sum_zq(z)\log p(x;\theta)\qquad\qquad\qquad\qquad\qquad\qquad \scriptsize{因为\sum_zq(z)=1} \\ &=\sum_zq(z)\log [ \frac{p(x,z;\theta)}{p(z|x;\theta)}\cdot \frac{q(z)}{q(z)}]\\ &=\sum_zq(z)\log \frac{p(x,z;\theta)}{q(z)}+\sum_qq(z)\log \frac{q(z)}{p(z|x;\theta)} \\ &=ELBO(q,x;\theta)+KL[q(z)\,||\,p(z|x;\theta)]\tag{4} \end{aligned}$ 其中 $KL[q(z)\,||\,p(z|x;\theta)]$ 为分布 $q (z)$ 和分布 $p(z|x;\theta)$ 的KL散度。KL散度可以衡量两个分布的近似程度，其值是非负的。两个分布越相近，KL散度就越小；当两个分布完全相同时KL散度等于0。

由于KL散度的非负性，因此可以得出和 推导方法1 中一样的结论，即 $ELBO(q,x;\theta)$ 为 $\log p(x;\theta)$ 的下界。

这里可以采取与 推导方法1 相同的思路对EM算法进行推导：我们的目标是最大化 $\log p(x;\theta)$ ，根据(4)式，可以将问题转为最大化 $ELBO(q,x;\theta)+KL[q(z)\,||\,p(z|x;\theta)]$ ，因此可以先固定模型的参数 $\theta$ ，找到一个最优的近似分布 $q^*(z)$ 使得 $ELBO(q^*,x;\theta)$ 达到最大，由(4)式可知当 $KL[q(z)\,||\,p(z|x;\theta)]=0$ ，即 $q(z)=p(z|x;\theta)$ 时， $ELBO(q,x;\theta)=\log p(x;\theta)$ ，取得最大值；之后固定 $q^*(z)$ ，找到最优的参数 $\theta$ 使得 $ELBO(q^*,x;\theta)最大$ ，不断重复这两个步骤。

下图直观地展示了EM算法的迭代过程：在E-step中更新 $q_{t+1}$ 使得 $ELBO(q_{t+1},x;\theta_t)=\log p(x;\theta_t)$ ，即KL项等于0；在M-step中更新模型的参数 $\theta_{t+1}$ 使得 $ELBO(q_{t+1},x;\theta_{t+1})\ge ELBO(q_{t+1},x;\theta_t)$ ，这样必然会导致 $\log p(x;\theta_{t+1})\ge \log p(x;\theta_t)$ ，通过 $n$ 次迭代使得对数边际似然函数 $\log p(x;\theta)$ 不断增大直至收敛，从而得到最终模型的参数 $\theta_n$

变分推断

EM算法中一个很重要的环节是在E-step中寻找隐变量 $z$ 的近似分布 $q^*(z)$ ，在上述的推导过程中，我们通过令 $KL[q(z)\,||\,p(z|x;\theta)]=0$ ，即 $q(z)=p(z|x;\theta)，$ 得到隐变量 $z$ 最优的近似分布 $p^*(z)$ ，然而这只局限于分布 $p(z|x;\theta)$ 容易计算的情况，如混合高斯模型等。对于复杂的模型， $p(z|x;\theta)$ 几乎无法计算，于是可以借助变分推断的方法去近似求得 $q^*(z)$

变分推断推导

变分推断是利用变分法进行推断的一种应用，对于EM算法而言，其变分推断的目标是寻找到隐变量 $z$ 的一个简单的近似分布 $q^*(z)$ 来代替难以求解的分布 $p(z|x;\theta)$ ，问题定义如下：
$q^*(z)=\argmin_{q(z)\in \mathcal{Q}}KL[\,q(z)\,||\,p(z|x;\theta)]\tag{5}$ 其中 $\mathcal{Q}$ 是一个分布族。利用(4)式对(5)式进行推导，剔除了与优化目标无关的 $\log p(x;\theta)$ ，将问题转化为了最大化 $ELBO(q,x;\theta)$ ：
$\begin{aligned} q^*(z)&=\argmin_{q(z)\in \mathcal{Q}}KL[\,q(z)\,||\,p(z|x;\theta)]\\ &=\argmin_{q(z)\in \mathcal{Q}}[\log p(x;\theta)-ELBO(q,x;\theta)]\\ &=\argmax_{q(z)\in \mathcal{Q}}ELBO(q,x;\theta)\\ \tag{6} \end{aligned}$ 对于隐变量 $z$ ，可以将其拆分成 $n$ 个子变量 $z_1,z_2,...,z_n$ ，显然这些子变量并不一定满足独立性，即：
$\ne \prod_i^np_i(z_i)\tag{7}$ 于是我们可以在变分推断中，选用mean-field（平均场）作为候选分布族 $\mathcal{Q}$ ，构造出 $n$ 个近似分布 $q_1(z_1 )\,...\,q_n(z_n)$ 使得这 $n$ 个子变量相互独立，即：
$q(z)=\prod_i^nq_i(z_i)\tag{8}$ 之后利用 $q (z)$ 对问题进行推导：
$\begin{aligned} ELBO(q,x;\theta)&=\sum_zq(z)\log\frac{p(x,z;\theta)}{q(z)} \\ &=\sum_zq(z)\log p(x,z;\theta)-\sum_zq(z)\log q(z) \\ &=\underbrace{\sum_z\prod_i^nq_i(z_i)\log p(x,z;\theta)}_{\textbf{Part 1}}-\underbrace{\sum_z\prod_i^nq_i(z_i)\sum_j^n\log q_j(z_j)}_{\textbf{Part 2}} \\ \end{aligned}\tag{9}$
接下来分别对Part 1和Part 2进行推导，其它相关资料大多是用积分形式进行推导的，这里我转化为了离散的形式，感觉比积分形式更加清晰一些。这里对于下述推导中一些关键的符号表示进行说明，以便理解：

$\sum_z$ ：表示对隐变量 $z=\{z_1,z_2,...,z_n\}$ 的所有可能取值组合情况进行求和
$\sum_{z_j}$ ：表示对子隐变量 $z_j$ 的所有可能取值进行求和
$\ z j \sum_{z_\backslash z_j}$ ：表示对除了 $z_j$ 的其它 $n - 1$ 个子隐变量的所有可能取值组合情况进行求和

对于Part 1进行如下推导：(思路是将其中一个子变量近似分布 $q_j(z_j)$ 提出来)
$\ z j ∏ i ≠ j n q i ( z i ) log ⁡ p ( x , z ; θ ) = ∑ z j q j ( z j ) E q \ q j ( z \ z j ) log ⁡ p ( x , z ; θ ) (10) \begin{aligned} \sum_z\prod_i^nq_i(z_i)\log p(x,z;\theta) &= \sum_{z_j}q_j(z_j)\sum_{z_\backslash z_j}\prod_{i\ne j}^nq_i(z_i)\log p(x,z;\theta) \\ &=\sum_{z_j}q_j(z_j)\mathbb{E}_{\,q_\backslash q_j(z_\backslash z_j)}\log p(x,z;\theta) \end{aligned}\tag{10}$ 对于Part 2进行如下推导：
$\ z j ∏ i n q i ( z i ) = ∑ j n ∑ z j log ⁡ q j ( z j ) ⋅ q j ( z j ) ∑ z \ z j ∏ i ≠ j n q i ( z i ) ⏟ 所有组合的概率和 = 1 = ∑ j n ∑ z j q j ( z j ) log ⁡ q j ( z j ) (11) \begin{aligned} \sum_z\prod_i^nq_i(z_i)\sum_j^n\log q_j(z_j) &=\sum_j^n\sum_z\log q_j(z_j)\prod_i^nq_i(z_i) \\ &=\sum_j^n\sum_{z_j}\log q_j(z_j) \cdot \sum_{z_\backslash z_j}\prod_i^nq_i(z_i) \\ &=\sum_j^n\sum_{z_j}\log q_j(z_j) \cdot q_j(z_j)\underbrace{\sum_{z_\backslash z_j}\prod_{i\ne j}^nq_i(z_i)}_{所有组合的概率和=1} \\ &=\sum_j^n\sum_{z_j}q_j(z_j)\log q_j(z_j) \end{aligned}\tag{11}$ 将(10)和(11)代入到(9)式中得到：
$\ q j ( z \ z j ) log ⁡ p ( x , z ; θ ) − ∑ j n ∑ z j q j ( z j ) log ⁡ q j ( z j ) (12) ELBO(q,x;\theta)=\sum_{z_j}q_j(z_j)\mathbb{E}_{\,q_\backslash q_j(z_\backslash z_j)}\log p(x,z;\theta) - \sum_j^n\sum_{z_j}q_j(z_j)\log q_j(z_j) \tag{12}$ 由(12)式可得针对某个子变量 $z_k$ ，其 $E L B O$ 函数为：
$\ q k ( z \ z k ) log ⁡ p ( x , z ; θ ) − ∑ z k q k ( z k ) log ⁡ q k ( z k ) = ∑ z k q k ( z k ) [ E q \ q k ( z \ z k ) log ⁡ p ( x , z ; θ ) ⏟ 可转变为 log ⁡ 以化简为 K L 散度 − log ⁡ q k ( z k ) ] (13) \begin{aligned} ELBO(q_k,x;\theta)&=\sum_{z_k}q_k(z_k)\mathbb{E}_{\,q_\backslash q_k(z_\backslash z_k)}\log p(x,z;\theta) -\sum_{z_k}q_k(z_k)\log q_k(z_k) \tag{13} \\ &=\sum_{z_k}q_k(z_k)[\,\underbrace{\mathbb{E}_{\,q_\backslash q_k(z_\backslash z_k)}\log p(x,z;\theta)}_{可转变为\log以化简为KL散度} - \log q_k(z_k)\,] \\ \end{aligned}$ 设 $\ q k ( z \ z k ) log ⁡ p ( x , z ; θ ) \log \tilde{p}_k(x,z_k;\theta)=\mathbb{E}_{\,q_\backslash q_k(z_\backslash z_k)}\log p(x,z;\theta)$ ，则(13)式可推导为：
$\begin{aligned} ELBO(q_k,x;\theta)&=\sum_{z_k}q_k(z_k)[\, \log \tilde{p}_k(x,z_k;\theta) - \log q_k(z_k)\,] \\ &=-\sum_{z_k}q_k(z_k)\log \frac{q_k(z_k)}{\tilde{p}_k(x,z_k;\theta)} \\ &=-KL[\,q_k(z_k) || \,\tilde{p}_k(x,z_k;\theta)\,] \end{aligned} \tag{14}$ 因此最终问题转变为了最大化 $-KL[\,q_k(z_k) || \,\tilde{p}_k(x,z_k;\theta)\,]$ ，即得到 $q_k(z_k)$ 的最优表达式，其中 $k\in \{1,2,...,n\}$ ：
$\ q k ( z \ z k ) log ⁡ p ( x , z ; θ ) ] (15) q_k(z_k)=\exp[\,\mathbb{E}_{\,q_\backslash q_k(z_\backslash z_k)}\log p(x,z;\theta)\,] \tag{15}$ 根据(15)式，可利用坐标上升法对每个自变量的近似分布 $q_1(z_1),...\,,q_n(z_n)$ 进行迭代优化，直至收敛。