EM算法与变分推断

最新推荐文章于 2023-03-21 10:47:33 发布

小明。

最新推荐文章于 2023-03-21 10:47:33 发布

阅读量1.3k

点赞数 4

文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_43409704/article/details/124203758

版权

一、EM算法

目的：找到含有潜变量模型的极大似然解
应用背景：对于某些数据直接估计模型参数较为困难，但通过引入潜变量可以降低模型的求解难度。但引入潜变量后怎样来求解？——EM算法。

1. 直观感受EM算法

对对数似然函数 $\log P(X|\theta)$ 有 $\log P(X|\theta)=\log \sum_Z{P(X,Z|\theta)}$ ，这样处理的目的是为了引入潜变量，但这样同时也会导致如下两个问题

求和操作在对数里面使得对数运算无法直接作用在联合分布上
由于 $Z$ 是隐变量，我们无法得知关于它的信息

为了解决以上这两个问题，我们可以将 $\arg\max_{\theta}\log P(X|\theta)$ 近似为
$\arg\max_{\theta}\sum_ZP(Z|X,\theta)\log P(X,Z|\theta) \tag{1}$
（为什么可以这样近似在后面会讲述），近似后的目标函数相比于原目标函数的优势在于

求和符号从对数里面提到了对数外面降低了处理难度
$\sum_ZP(X,Z|\theta)$ 不好直接处理，但对转化后的目标函数，我们可以利用已知数据对 $Z$ 进行推断得到 $P(Z|X,\theta)$ ，再利用推断得到的 $P(Z|X,\theta)$ 来进行求和

在近似处理结束后，对于目标 $\theta^*=\arg\max_{\theta}\sum_ZP(Z|X,\theta)\log P(X,Z|\theta)$ ，可以采用交替更新的方式来对目标进行求解，具体来说求解算法包括两步（这两步分别被称为E步和M步）：

E步：在E步中我们利用数据和现有参数（记为 $\theta^{old}$ ）来对Z的概率进行推断，并用得到的 $P(Z|X,\theta^{old})$ 计算 $Q(\theta,\theta^{old})=\sum_ZP(Z|X,\theta^{old})\log P(X,Z|\theta)$ ，因为这里利用 $P(Z|X,\theta^{old})$ 对 $\log P(X,Z|\theta)$ 进行了期望运算，进而这一步也被称为E（Expectation）步。
M步：在M步中对于E步所获得的期望 $Q(\theta,\theta^{old})$ ，我们寻找最优的新参数 $\theta^{new}=\arg\max_{\theta}Q(\theta,\theta^{old})$ ，并令 $\theta^{old}=\theta^{new}$ 在这一步骤中因为涉及到了最大化期望，因而它也被称为M（Maximization）步

通过不断交替重复E步和M步，直至收敛条件满足或达到最大迭代次数，得到参数 $\theta$

2. 从数学角度推导EM

在这里我们假设潜变量 $Z$ 服从分布 $q (Z)$ 则
$\begin{aligned} \log P(X|\theta)=\sum_Z{q(Z)\log P(X|\theta)}&=\sum_Z{q(Z)\log(\frac{P(X|\theta)}{P(X,Z|\theta)}\frac{P(X,Z|\theta)}{q(Z)}q(Z))}\\ &=\sum_Z{q(Z)\log(\frac{q(Z)}{P(Z|X,\theta)})}+\sum_Z{q(Z)\log \frac{P(X,Z|\theta)}{q(Z)}}\\ &=\sum_Z{q(Z)\log(\frac{q(Z)}{P(Z|X,\theta)})}+\sum_Z{q(Z)\log P(X,Z|\theta)}-\sum_Z{q(Z)\log q(Z)}\\ &=KL(q(Z)||P(Z|X,\theta))+\sum_Z{q(Z)\log P(X,Z|\theta)}+H(Z) \end{aligned}$
这里注意到 $H (Z)$ 是与 $X,\theta$ 无关的，我们不考虑它，从而得到一个新的目标函数
$\mathcal{L}=KL(q(Z)||P(Z|X,\theta))+\sum_Z{q(Z)\ln P(X,Z|\theta)}\tag{2}$
注意式（2）中的第二部分与式（1）很像。在这里，最大化 $\mathcal{L}$ 等价于最大化似然函数 $\log P(X|\theta)$ . 对目标函数 $\mathcal{L}$ 我们可以采取两步优化的方式来最大化。

优化KL散度： $\mathcal{L}$ 在 $\theta$ （ $\theta=\theta^{old}$ ）给定的时候是一个定值，此时最小化KL散度可以使 $\sum_Z{q(Z)\log P(X,Z|\theta^{old})}$ 最大。由KL散度的性质不难得到当 $q(Z)=p(Z|X,\theta^{old})$ 时KL散度最小其值为0. 当 $q(Z)=p(Z|X,\theta^{old})$ ， $KL(q(Z)||P(Z|X,\theta^{old}))=0$ ，这时 $\mathcal{L}=\sum_Z{q(Z|X,\theta^{old})\log P(X,Z|\theta^{old})}$ ，正好是EM算法E步的Q函数的形式。
最大化 $\mathcal{L}$ ： $\arg\max_\theta\sum_ZP(Z|X,\theta^{old})\log P(X,Z|\theta)$ ，此时最大化 $\mathcal{L}$ 等价于最大化似然函数。同时由于 $\theta$ 的更新导致 $q(Z)=P(Z|X,\theta^{old})\ne P(Z|X,\theta^{new})$ ，这会使得KL散度不再为0导致 $\mathcal{L}$ 上升，同时KL不为0又使得我们可以进行新的一轮优化。这也是EM算法为什么可以最大化似然函数的原因。

整个过程的示意图如下：在这里插入图片描述

注：

省略 $H (Z)$ 是否合理：在E步中通过 $q(Z)=P(Z|X,\theta^{old})$ 来估计 $q (Z)$ 。在得到 $q (Z)$ 的估计后 $\log P(X|\theta)$ 变为 $\log P(X|\theta)=\sum_Z{q(Z|X,\theta^{old})\log P(X,Z|\theta)}+\sum_Z{q(Z|X,\theta^{old})\log q(Z|X,\theta^{old})}$ 。显然 $H (Z)$ 在这个时候是定值与 $\theta$ 无关，因此在优化时省略掉也是合理的。
在这里可以把 $\sum_Z{q(Z) \log P(X|\theta)}$ 换为 $E_{q(Z)}\log P(X|\theta)$ 也成立（后者是更一般的情况）。

二、变分推断

变分推断（Variational Inference, VI）
目的：近似推断后验分布 $P (Z ∣ X)$
核心思想：假设一个密度族，然后再在密度族中找出一个与目标密度最为接近的密度。（一般两个密度之间的距离用KL散度刻画。）

1. ELBO的引入

这里尝试从两个不同的角度分别引入ELBO

a. 近似推断

由于对 $P (Z ∣ X)$ 的推断较为困难（潜在空间维度高或 $P (Z ∣ X)$ 的形式复杂）。因此尝试在一个密度函数族 $Q$ 中找到一个 $q (Z)$ 使其与 $P (Z ∣ X)$ 尽可能接近即 $q^*(Z)=\arg\min_{q(Z)\in Q}KL(q(Z)||P(Z|X))$ 。其中(这一部分的 $E[\cdot]$ 是关于分布 $q (Z)$ 求期望)
$\begin{aligned} \arg\min_{q^*(Z)\in Q}KL(q(Z)||P(Z|X))&=E[\log q(Z)]-E[\log P(Z|X)]\\ &=E[\log q(Z)]-E[\log P(X,Z)]+E[\log P(X)] \end{aligned}$
但这个目标并不好优化，因为其中含有 $P (X)$ ，而 $P(X)=\int_Z P(X,Z)dZ$ 计算起来较为困难。但我们注意到 $P (X)$ 与 $q (Z)$ 没有直接联系，因此对目标函数进行转化，得到以下等价目标函数证据下界 (evidence lower bound, ELBO)。
$ELBO(q)=E[\log P(X,Z)]-E[\log q(Z)]$
ELBO等于负的KL散度加上 $\log P(X)$ ，因此最大化 $E L B O (q)$ 等价于最小化 $K L (q (Z) ∣ ∣ P (Z ∣ X))$ 。此外对ELBO的表达式还可以有以下直观理解：

ELBO可以进行如下转化
$\begin{aligned} ELBO(q)&=E[\log P(X,Z)]-E[\log q(Z)]\\ &=E[\log P(X|Z)]+E[\log P(Z)]-E[\log q(Z)]\\ &=E[\log P(X|Z)]-KL(q(Z)||P(Z)) \end{aligned}$
其中第一项为对数似然要求潜变量尽可能解释观测数据的分布，第二项为KL散度要求让后验 $q (Z)$ 分布尽可能接近先验分布 $P (Z)$
$\log P(X) \ge ELBO(q)$ ： $\log P(X)=ELBO(q)+KL(q(Z)||P(Z|X))$ ，而KL散度大于等于0。从这里我们也可以知道ELBO名字的由来。

b. 极大似然

计算 $P (Z ∣ X)$ 的目的是在合适的条件下使 $\log P(X)$ （似然函数）最大。因此我们可以基于 $\log P(X)$ 来推导 $E L B O (q)$
$\begin{aligned} \log P(X)&=\int q(Z)\log P(X)dZ\\ &=\int q(Z)\log{\frac{P(X)}{P(X,Z)}\frac{P(X,Z)}{q(Z)}q(Z)}\\ &=\int q(Z)\log\frac{q(Z)}{P(Z|X)}dZ+\int q(Z)\log\frac{P(X,Z)}{q(Z)}dZ\\ &=KL(q(Z)||p(Z|X))+\mathcal{L}(q) \end{aligned}$
其中 $\mathcal{L}(q)=\int q(Z)\log\frac{P(X,Z)}{q(Z)}dZ=E[\log p(X,Z)]-E[\log q(Z)]$ 为 $E L B O (q)$ 。注意到，在样本给定的时候 $\log P(X)$ 是一个定值，因此在这种情况下最大化 $\mathcal{L}(q)$ 等价于最小化 $K L (q (Z) ∣ ∣ p (Z ∣ X))$

2.几种特殊的变分推断

a. 平均场变分推断

平均场假设（Mean-Field Assumption）： $q(Z)=\prod_i q_i(Z_i)$ 这里 $Z_i$ 并非特指单个随机变量，而可以理解成是一个团。

基于平均场假设
$\begin{aligned} \mathcal{L}(q)&=\int q(Z)\log P(X,Z)dZ-\int q(Z)\log q(Z)dZ\\ &=\int q_j(\log p(X,Z)\prod_{i\ne j}q_idZ_i)dZ_j-\int q_j\log q_j dZ_j+\text{const}\\ &=\int q_j\log \tilde{p}(X,Z_j)dZ_j-\int q_j\log q_j dZ_j+\text{const} \end{aligned}$
这里 $\log\tilde{p}(X,Z_j)=E_{i\ne j}[\log P(X,Z)]+\text{const}$ 。在这里保持 $\{q_{i \ne j}\}$ 固定，关于分布 $q_j(Z_j)$ 来最大化 $\mathcal{L}(q)=-KL(q_j||\tilde{p}(X,Z_j))+\text{const}$ 。此时最大化 $\mathcal{L}$ 等价于最小化KL散度。由KL散度的定义易知 $\log q^*_j(Z_j)=E_{i\ne j}[\log P(X,Z)]+\text{const}$ ，于是我们可以得到如下方程组
$q^*_j(Z_j)=\frac{\exp(E_{i\ne j}[\log P(X,Z)])}{\int\exp(E_{i\ne j}[\log P(X,Z)])dZ_j}\quad (j=1,\cdots,n)$
这个方程组无显示解，因此采用一种交替迭代的方法来求解（CAVI）具体表现为：在给出一个恰当的初始话后，循环更新 $q(Z_i)$ （用 $q^*(Z_i)$ 给出估计）。

b. 随机梯度变分推断

对目标函数： $\hat{q}=\arg\min_q KL(q||p)=\arg\min \mathcal{L}(q)$ ，设 $Z$ 服从分布 $q_\phi(Z)$ ，这样目标函数变为 $\hat{\phi}=\arg\min_{\phi} \mathcal{L}(\phi)$
$\begin{aligned} \nabla_\phi\mathcal{L}(\phi)&=\nabla_\phi E_{q_\phi}[\log P_\theta(X,Z)-\log q_\phi]\\ &=E_{q_\phi}[\nabla_\phi(\log P_\theta(X,Z)-\log q_\phi)]\\ &=\int\nabla_\phi q_\phi(\log P_\theta(X,Z)-\log q_\phi)dZ+\int q_\phi\nabla_\phi[\log P_\theta(X,Z)-\log q_\phi]dZ \end{aligned}$
这里 $\int q_\phi\nabla_\phi[\log P_\theta(X,Z)-\log q_\phi]dZ=-\int q_\phi\nabla_\phi \log q_\phi dZ=-\int\nabla_\phi q_\phi dZ= -\nabla_\phi\int q_\phi dZ=0$ ，进而
$\begin{aligned} \nabla_\phi\mathcal{L}(\phi)&=\int q_\phi \nabla_\phi \log q_\phi(\log P_\theta(X,Z)-\log q_\phi)dZ\\ &=E_{q_\phi}[\nabla_\phi \log q_\phi(\log P_\theta(X,Z)-\log q_\phi)] \end{aligned}\tag{3}$
注：对于（3）式中的期望计算可以利用MCMC来估计，即记 $Z^{(l)}\sim q(z)\quad l=1,2,\cdots,L$ ，则 $\nabla_\phi\mathcal{L}(\phi)=\frac{1}{L}\sum_l{\nabla_\phi \log q_\phi(\log P_\theta(X,Z^{(l)})-\log q_\phi(Z^{(l)})}$ ，若采样过程中 $Z^{(l)}$ 过小会导致 $\log q_\phi(Z^{(l)})$ 过大，使得计算不稳定，为了稳定则需要大量采样。

c. 重参数技巧

不妨设 $Z=g_\phi(\epsilon,X)$ ，这里 $\epsilon \sim p(\epsilon)$ 同时有 $|q_\phi(Z|X)dZ|=|p(\epsilon)d\epsilon|$ ，于是我们可以推导
$\begin{aligned} \nabla_\phi\mathcal{L}(\phi)&=\nabla_\phi E_{q_\phi}[\log P_\theta(X,Z)-\log q_\phi]\\ &=\nabla_\phi\int[\log P_\theta(X,Z)- \log q_\phi]q_\phi dZ\\ &=\nabla_\phi\int[\log P_\theta(X,Z)- \log q_\phi]p(\epsilon) d\epsilon\\ &=E_{p(\epsilon)}[\nabla_\phi(\log P_\theta(X,Z)-\log q_\phi)]\\ &=E_{p(\epsilon)}[\nabla_Z(\log P_\theta(X,Z)-\log q_\phi)\nabla_\phi g_\phi(\epsilon,X)] \end{aligned}$

注：VI和EM的一个差异，在EM中 $\theta$ 是固定的， $Z$ 是随机的；但在VI中只有一个随机的 $Z$ ，因此EM可以视为VI的特例。

参考

[1] Blei, D. M., Kucukelbir, A., & McAuliffe, J. D. (2017). Variational inference: A review for statisticians. Journal of the American statistical Association, 112(518), 859-877.
[2] Bishop, C. M., & Nasrabadi, N. M. (2006). Pattern recognition and machine learning (Vol. 4, No. 4, p. 738). New York: springer.
[3]https://www.bilibili.com/video/BV1DW41167vr?spm_id_from=333.999.0.0

小明。

关注

4
点赞
踩
15

收藏

觉得还不错? 一键收藏
1
评论
EM算法与变分推断

一、EM算法目的：找到含有潜变量模型的极大似然解应用背景：对于某些数据直接估计模型参数较为困难，但通过引入潜变量可以降低模型的求解难度。但引入潜变量后怎样来求解？——EM算法。1. 直观感受EM算法对对数似然函数log⁡P(X∣θ)\log P(X|\theta)logP(X∣θ)有log⁡P(X∣θ)=log⁡∑ZP(X,Z∣θ)\log P(X|\theta)=\log \sum_Z{P(X,Z|\theta)}logP(X∣θ)=log∑ZP(X,Z∣θ)，这样处理的目的是为了引入潜变量，但
复制链接

扫一扫