（简单易懂）Variational Inference 变分推理

ismiaodh

已于 2024-05-06 18:22:39 修改

阅读量1.2k

点赞数 22

分类专栏： DL基础文章标签： python 计算机视觉数据挖掘机器学习神经网络深度学习

于 2024-05-04 12:16:12 首次发布

本文链接：https://blog.csdn.net/qq_39214409/article/details/138438598

版权

DL基础专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Variational Inference 变分推理

文章目录

Variational Inference 变分推理

1.AE与VAE

在这里插入图片描述

Figure 1: Auto-Encoder.

如Fig.1,作为经典的网络结构之一，Auto-Encoder在深度学习的多个领域中有着出色的表现，依赖于重构误差的反向优化，模型可以学习到数据在低维空间的表示，过滤掉数据的冗余特征，得到细粒度特征。但是，AE学习的是确定性编码（潜在表示经常是确定性的），而不是数据的概率分布，不能直接提供关于数据分布的信息，可能会产生过拟合等问题。

在这里插入图片描述

Figure 2.

如Fig.2,为了提升模型的泛化能力，使模型具有理解数据分布和生成新样本的能力，Variational Auto-Encoder横空出世。与AE结构不同的是，VAE的潜在表示 $z$ 的生成方式由分布采样得到。通过编码器得到潜在分布的均值 $\mu$ 与标准差 $\sigma$ 。在此基础上，加入服从正态分布的噪声 $\epsilon\sim\mathcal{N}(0,1)$ ，使得 $q(z|x)=\mathcal{N}(\mu,{exp(\sigma)}^2)$ ，同时令 $z=\mu+exp(\sigma)\times\epsilon$ 。其中 $exp(\sigma)>0$ 相当于噪声强度因子，且噪声的添加使得模型更具有抗扰动能力。

在loss function的约束项上，也要最小化 $\sum(exp(\sigma)-(1+\sigma)+\mu^2)$ ，令 $\sigma$ 趋近于0， $\mu$ 趋近于0，故 $exp(\sigma)$ 趋近于1。由此，使得 $q (z ∣ x)$ 趋近于标准正态分布。注：尽管不同数据训练出的变分自编码器（VAE）可能会使潜在分布接近于标准正态分布，但由于模型内部参数的不同和数据的特征差异，即使手动将标准正态分布生成的潜在变量 $z^{'}$ 输入到不同数据训练出的解码器中，不同解码器所生成的数据之间也会有很大的差异。

2.变分推理的数学推导

虽然我们通过神经网络得到了 $q(z|x)=\mathcal{N}(\mu,{exp(\sigma)}^2)$ ，但是 $q (z ∣ x)$ 就是由 $x$ 得到的 $z$ 的真实分布吗？定义由 $x$ 得到的 $z$ 的真实分布为 $p (z ∣ x)$ ，我们通过神经网络学习得到 $q (z ∣ x)$ 来近似 $p (z ∣ x)$ ，确保神经网络生成分布的准确性。我们假设先验分布 $p (z)$ 与后验分布 $p (z ∣ x)$ 为正态分布（因为计算KL等公式的便利性、标准正态分布被认为是一种无信息性先验、标准正态分布在潜在空间的均匀性等等），因此，为了拉近 $q (z ∣ x)$ 与 $p (z ∣ x)$ 我们使用KL散度（Kullback-Leibler Divergence）度量两个概率分布之间的差异程度（离散型、连续型）：

离散型：
$D_{KL}(P\parallel Q)=\sum_{i=1}^n P_ilog(\frac{P_i}{Q_i}) \tag{1}$
其中 $P, Q$ 为离散型随机变量的概率分布律

连续型：
$D_{KL}\left(P\parallel Q\right)=\int_{-\infty}^{+\infty}p(x)log\frac{p(x)}{q(x)}dx \tag{2}$
其中 $P, Q$ 为连续型随机变量的概率密度

因此，我们用KL散度衡量 $q (z ∣ x)$ 与 $p (z ∣ x)$ ，最小化下式：
$KL(q(z\mid x)||p(z\mid x))=\int q(z\mid x)\log\frac{q(z\mid x)}{p(z\mid x)}dz \tag{3}$
根据贝叶斯定理：
$p(z\mid x)=\frac{p(x\mid z)p(z)}{p(x)} \tag{4}$
原式等价于：
$\begin{align*} KL(q(z\mid x)||p(z\mid x))&=\int q(z\mid x)\log\frac{q(z\mid x)}{\frac{p(x\mid z)p(z)}{p(x)}}dz \\ &=\int q(z\mid x)\log q(z\mid x)dz+\int q(z\mid x)\log p(x)dz-\int q(z\mid x)\log[p(x\mid z)p(z)]dz \\ &=\int q(z\mid x)\log q(z\mid x)dz+\log p(x)\int q(z\mid x)dz-\int q(z\mid x)\log[p(x\mid z)p(z)]dz \ (其中:\int q(z\mid x)dz=1) \\ &=\log p(x)+\int q(z\mid x)\log q(z\mid x)dz-\int q(z\mid x)\log[p(x\mid z)p(z)]dz \\ &=\log p(x)+\int q(z\mid x)\log q(z\mid x)dz-\int q(z\mid x)\log[p(x\mid z)p(z)]dz \\ &=\log p(x)+\int q(z\mid x)\log q(z\mid x)dz-\int q(z\mid x)\log p(x\mid z)dz-\int q(z\mid x)\log p(z)dz \\ &=\log p(x)+\int q(z\mid x)\log\frac{q(z\mid x)}{p(z)}dz-\int q(z\mid x) \log p(x\mid z)dz \\ &=\log p(x)-E_{z\sim q(z\mid x)}\left[\log p(x\mid z)\right]+D_{KL}\left(q(z\mid x)||p(z)\right) \tag{5} \end{align*}$
由于z是从分布中进行采样得到的，而采样过程是不可导的，而我们需要梯度的反传优化，为了将 Eq. (5) 中 $E_{z\sim q(z\mid x)}\left[\log p(x\mid z)\right]=\int q(z\mid x) \log p(x\mid z)dz$ 中的 $z$ 消掉，我们使用重参数化技巧（例：给定 $Z\sim\mathcal{N}(\mu,\sigma^2)$ ， $\epsilon\sim\mathcal{N}(0,\mathbf{I})$ 故将 $Z$ 转化为 $Z=\mu+\sigma\epsilon$ ）将对 $z$ 的采样等价于对其分布的均值，标准差的采样。

根据 Eq. (5)，我们进行拆分：
$\begin{align*} D_{KL}\left(q(z\mid x)||p(z)\right)&=\int q(z\mid x)\log\frac{q(z\mid x)}{p(z)}dz \\ &=\int q(z\mid x)\log q(z\mid x)dz-\int q(z\mid x)\log p(z)dz \\ &=\int\mathcal{N}\left(\mathbf{z};\boldsymbol{\mu},\boldsymbol{\sigma}^2\right)\log\mathcal{N}\left(\mathbf{z};\boldsymbol{\mu},\boldsymbol{\sigma}^2\right)d\mathbf{z}-\int\mathcal{N}\left(\mathbf{z};\boldsymbol{\mu},\boldsymbol{\sigma}^2\right)\log\mathcal{N}(\mathbf{z};\boldsymbol{0},\mathbf{I})d\mathbf{z} \\ &=-\frac J2\log(2\pi)-\frac12\sum_{j=1}^J\left(1+\log\sigma_j^2\right)-(-\frac J2\log(2\pi)-\frac12\sum_{j=1}^J\left(\mu_j^2+\sigma_j^2\right)) \\ &=\frac12\sum_{j=1}^J\left(\left(\mu_j\right)^2+\left(\sigma_j\right)^2-1-\log\left(\left(\sigma_j\right)^2\right)\right) \tag{6} \end{align*}$
其中 $\log p(x)-E_{z\sim q(z\mid x)}\left[\log p(x\mid z)\right]$ 等价于MSE（或其他Loss，代表真实值与预测值的损失）：
$\begin{align*} \log p(x)-E_{z\sim q(z\mid x)}\left[\log p(x\mid z)\right]\to MSE=\frac1n\sum_{i-1}^{n}{(x_i-y_i)^2} \tag{7} \end{align*}$
因此 $L$ 如下：
$L=\frac1n\sum_{i-1}^{n}{(x_i-y_i)^2}+\frac12\sum_{j=1}^J\left(\left(\mu_j\right)^2+\left(\sigma_j\right)^2-1-\log\left(\left(\sigma_j\right)^2\right)\right) \tag{8}$
综上所述，我们通过最小化 $L$ 使神经网络学习得到的 $q (z ∣ x)$ 来近似真实分布 $p (z ∣ x)$ ，使自编码器具有泛化性和生成新样本的能力。