变分推断variational Inference

最新推荐文章于 2021-12-19 22:46:51 发布

cztAI

最新推荐文章于 2021-12-19 22:46:51 发布

阅读量233

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/czt_666/article/details/107941233

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

十一、变分推断

1.背景

$\begin{cases} 频率角度，优化问题 \begin{cases} 回归 \begin{cases} Model\\ 策略\\ 算法 \begin{cases} 解析解\\ 数值解 \end{cases} \end{cases}\\ SVM\\ EM\\ 等等 \end{cases}\\ 贝叶斯角度，积分问题 \begin{cases} 贝叶斯Infernece(求贝叶斯后验)\\ P(\theta \mid x)=\frac{P(x \mid \theta)P(\theta)}{P(x)}\\ 贝叶斯决策(预测，最后还是求贝叶斯后验)\\ P(\tilde{x} \mid x)=\int_{\theta}P(\tilde{x},\theta \mid x) d\theta=\int_{\theta}P(\tilde{x} \mid \theta)P(\theta \mid x)d\theta=E_{\theta \mid x}[P(\tilde{x} \mid \theta)] \end{cases} \end{cases}$

$\begin{cases} 精确推断（后验简单）\\ 近似推断/近似推断的期望(参数空间、隐变量非常复杂)\\ \begin{cases} 确定性近似\to VI\\ 随机近似 \to MCMC,MH,Gibbs \end{cases} \end{cases}$

2.公式推导

$x$ :observed data
$z$ :later variable + parameter
$(x, z)$ :complete data

ELBO + KL
$\log P(x)= L(q)+KL(q||p)$
$\hat q(z)=\arg \max_{q(z)} L(q) \to \hat q(z) \approx p(z \mid x)$

基于物理的平均场理论
$q(z)=\prod_{i=1}^M q_i(z_i)$ ，计算时固定一维 $q_j(z_j)$
$L(q)=\int_z q(z) \log P(x,z)dz-\int_z q(z)\log q(z)dz$

$\begin{aligned} \int_z q(z) \log P(x,z)dz &=\int_z \prod_{i=1}^M q_i(z_i) \log P(x,z)dz\\ &=\int_{z_j} q_j(z_j) dz_j\left ( \int_{z_i} \prod_{i}^M q_i(z_i) \log P(x,z) dz_i \right )(i \ne j)\\ &=\int_{z_j} q_j(z_j) dz_j E_{\prod_{i}^{M} q_i(z_i)}[\log P(x,z)]\\ \int_z q(z) \log q(z) dz &=\int_z \prod_{i=1}^{M}q_i(z_i) \log \prod_{i=1}^{M}q_i(z_i)dz\\ &=\int_z \prod_{i=1}^{M}q_i(z_i) \sum_{i=1}^{M} \log q_i(z_i)dz\\ &=\int_z \prod_{i=1}^{M}q_i(z_i) [ \log q_1(z_1)+\log q_2(z_2)+\cdots+\log q_M(z_M) ] dz\\ &=\sum_{i=1}^{M} \int_{z_i}q_i(z_i) \log q_i(z_i)dz_i\\ &=\int_{z_j}q_j(z_j) \log q_j(z_j)dz_j + C\\ L(q)&=\int_{z_j} q_j(z_j)\log \frac{\hat p(x,z_j)}{q_j(z_j)}dz_j\\ &=-KL(q_j||\hat p(x,z_j)) \le0 \end{aligned}$

用EM算法求解含隐变量的极大似然估计，极大似然估计是关于后验概率的函数，将不等式划等号q=p，一般p很复杂不易求得，最小化KL可以得到最优解 $\hat q$ ，基于平均场理论，使用相互独立的 $\prod_{i=1}^{M}q_i(z_i)$ 近似推断后验p

3.再回首

VI (mean field) $\to$ Classical VI

Assumption: $q(z)=\prod_{i=1}^{M}q_i(z_i)$
$\begin{aligned} \log q_j(z_j) &=E_{\prod_i q_i(z_i)}[\log P_{\theta}(x^{(i)},z)]+C\\ &=\int_{q_1}\cdots\int_{q_{j-1}} \int_{q_{j+1}} \cdots \int_{q_M}q_1 \cdots q_{j-1}q_{j+1} \cdots q_M [\log P_{\theta}(x^{(i)}),z]dq_1\cdots dq_{j-1} dq_{j+1} \cdots dq_M \end{aligned}$

目标函数：
$\begin{aligned} &\hat q = \arg \min_q KL(q||p)=\arg \max_q L(q)\\ &\hat q_1(z_1) =\int_{q_2} \cdots \int_{q_M}q_2 \cdots q_M [\log P_{\theta}(x^{(i)}),z]dq_2 \cdots dq_M\\ &\hat q_2(z_2) =\int_{\hat q_1} \cdots \int_{q_M}\hat q_1 \cdots q_M [\log P_{\theta}(x^{(i)}),z]d\hat q_1 \cdots dq_M\\ &\hat q_M(z_M)=\int_{\hat q_1} \int_{\hat q_2} \cdots \int_{\hat q_{M-1}}\hat q_1 \hat q_2 \cdots \hat q_{M-1} [\log P_{\theta}(x^{(i)}),z]d\hat q_1\hat q_2 \cdots d\hat q_{M-1}\\ \end{aligned}$

类似于坐标上升梯度上升，收敛终止

Classical VI存在的问题：

假设太强
intractable(依然要求积分)

4.SGVI

随机梯度变分推断

不再求 $q (z)$ 的具体值，假设 $q (z)$ 服从某种分布，求这个分布的参数 $\phi$

BELO
$\begin{aligned} L(\phi)&=E_{q_{\phi}(z)} \left [ \log \frac{P_{\theta}(x^{(i)},z)}{q_{\phi}(z)}\right ]\\ \hat \phi &= \arg \max L(\phi)\\ \nabla_{\phi}L(\phi) &=\nabla_{\phi}E_{q_{\phi}(z)} \left [ \log P_{\theta}(x^{(i)},z)-\log q_{\phi}(z) \right ]\\ &=\nabla_{\phi}\int q_{\phi}(z) \left [ \log P_{\theta}(x^{(i)},z)-\log q_{\phi}(z) \right ] dz\\ &=\int \nabla_{\phi} q_{\phi}(z) \left [ \log P_{\theta}(x^{(i)},z)-\log q_{\phi}(z) \right ] dz \\ & \quad +\int q_{\phi}(z) \nabla_{\phi} \left [ \log P_{\theta}(x^{(i)},z)-\log q_{\phi}(z) \right ] dz\\ &=\int q_{\phi}(z) \nabla_{\phi} \log q_{\phi}(z) \left [ \log P_{\theta}(x^{(i)},z)-\log q_{\phi}(z) \right ] dz-\int \nabla_{\phi} q_{\phi}(z)dz\\ &=E_{q_{\phi}(z)} \left [ \nabla_{\phi} \log q_{\phi}(z) \left ( \log P_{\theta}(x^{(i)},z) - \log q_{\phi}(z) \right ) \right ] \end{aligned}$
因此可以用MC，从 $q_{\phi}(z)$ 中采样，根据大数定理，用均值近似期望 $E$

$z^{(l)} \sim q_{\phi}(z),l=1,2,\cdots,L$
$\approx \frac{1}{L} \sum_{i=1}^{L} \nabla_{\phi} \log q_{\phi}(z^{(l)})\log P_{\theta}(x^{(i)},z^{(l)}-\log q_{\phi}(z^{(l)}))$

存在的问题：
在于这部分 $\nabla_{\phi} \log q_{\phi}(z)$ ，当采样到的值接近于0时，在对数log中变化很快(很敏感，方差很大)，需要更多的样本，才能比较好的近似；
yon用期望近似 $q_{\phi}(z)$ 的梯度，而我们的目标函数是 $\hat \phi$ ，因此误差是非常大的。

Reparameterization Trick 重参化技巧

$\nabla_{\phi}L(\phi) =\nabla_{\phi}E_{q_{\phi}(z)} \left [ \log P_{\theta}(x^{(i)},z)-\log q_{\phi}(z) \right ]$
期望是关于 $q_{\phi}(z)$ ， $q_{\phi}(z)$ 和 $\phi$ 有关系，函数也和 $\phi$ 有关系，导致复杂度很高。为简化问题，假设 $q_{\phi}(z)$ 和 $\phi$ 没有关系，用一个确定的分布 $p(\varepsilon)$ 替代 $q_{\phi}(z)$ ，就可以对直接对函数求导，不用对期望求导。 $\sim p_{\phi}(z \mid x)$ ，引入重参化技巧把 $z$ 和 $\phi$ 的关系解耦。

假设 $z=g_{\phi}(\varepsilon, x^{(i)}),\varepsilon \sim p(\varepsilon)$ ， $z$ 和 $\varepsilon$ 为映射关系，各自的积分为1，有如下关系：
$\left | p_{\phi}(z \mid x^{(i)})dz \right | = \left | p(\varepsilon)d\varepsilon \right |$
$\begin{aligned} \nabla_{\phi}L(\phi) &=\nabla_{\phi}\int \left [ \log P_{\theta}(x^{(i)},z)-\log q_{\phi}(z) \right ] q_{\phi}(z) dz\\ &=\nabla_{\phi}\int \left [ \log P_{\theta}(x^{(i)},z)-\log q_{\phi}(z) \right ] q(\varepsilon) d\varepsilon\\ &=\nabla_{\phi} E_{p(\varepsilon)} \left [ \log P_{\theta}(x^{(i)},z)-\log q_{\phi}(z) \right ] \\ &=E_{p(\varepsilon)} \left [ \nabla_{\phi} \left ( \log P_{\theta}(x^{(i)},z)-\log q_{\phi}(z) \right ) \right ]\\ &=E_{p(\varepsilon)} \left [ \nabla_{z} \left ( \log P_{\theta}(x^{(i)},z)-\log q_{\phi}(z \mid x^{(i)}) \right ) \cdot \nabla_{\phi}z \right ]\\ &=E_{p(\varepsilon)} \left [ \nabla_{z} \left ( \log P_{\theta}(x^{(i)},z)-\log q_{\phi}(z \mid x^{(i)}) \right ) \cdot \nabla_{\phi} g_{\phi}(\varepsilon, x^{(i)}) \right ] \end{aligned}$