深度学习（生成式模型）——VAE(Variational Auto-encoder）

最新推荐文章于 2024-05-23 09:20:14 发布

菜到怀疑人生

最新推荐文章于 2024-05-23 09:20:14 发布

阅读量3.6k

点赞数 1

分类专栏：深度学习

本文链接：https://blog.csdn.net/dhaiuda/article/details/105626535

版权

深度学习专栏收录该内容

58 篇文章 31 订阅

订阅专栏

文章目录

前言
VAE
- 训练
- 测试
VAE背后的数学原理
参考文献

前言

本文的参考文献可在地址中找到

提到生成式模型，不少人第一映像便是GAN，除去GAN之外，VAE(Variational Auto-encoder)也是设计非常漂亮的生成式模型，两者均是超香的无监督模型，目前也有工作将两者进行结合，代表是VAE-GAN模型。本文将总结VAE的工作过程，以及其背后的数学原理。

VAE

在这里插入图片描述
上图详细展示了VAE的工作过程，其为AutoEncoder的结构

训练

训练时，一系列图片 $X$ 输入到Encoder中，Encoder将图片压缩为一批编码（code），接着统计这批code的均值 $\mu(X)$ 以及方差 $\sum(X)$ ，然后在标准正态分布 $N (0, I)$ 中采样一批样本 $\epsilon$ ，计算 $z=\sum^{\frac{1}{2}}(X)\epsilon+\mu(X)$ ， $z$ 表示从正态分布 $N(\mu(X),\sum(X))$ 中采样得到的样本，接着将 $z$ 输入到Decoder中，生成一张图片 $f (z)$ ，VAE的损失函数有两部分组成，第一部分计算正态分布 $N(\mu(X),\sum(X))$ 与标准正态分布 $N (0, I)$ 之间的KL散度，接着计算生成图片 $f (z)$ 与真实图片 $X$ 之间的L2距离，VAE损失函数的数学表达式如下
$loss=KL(N(\mu(X),\sum(X))||N(0,I))+||X-f(z)||^2$

测试

测试时，从标准正态分布 $N (0, I)$ 中采样一批样本 $z$ ，利用decoder将 $z$ 生成为一批图片

VAE背后的数学原理

本节将从数学角度，力求以一种较为严谨的方式推导出VAE的损失函数。

给定一批图像样本 $X$ （ ${x_1,x_2,x_3,....,x_n\}$ ），我们可以假设这批样本服从某种概率分布 $p (X)$ ，假设我们知道 $p (X)$ ，那么就可以依据 $P (X)$ 进行采样，生成图片。假设我们现在有一个模型 $M$ ，其参数为 $\theta$ ，我们想利用 $M$ 来趋近 $p (X)$ ，我们将模型 $M$ 表示的概率分布记为 $p_{\theta}(X)$ ，依据对数极大似然估计，我们通过最大化下式来估计参数 $\theta$ 的值

$\sum_{i=1}^n\log p_{\theta}(x_i)$

但 $\log p_{\theta}(x_i)$ 往往难以计算，VAE对其进行了变化

$\log p_{\theta}(x_i)=KL(q_{\phi}(z|x_i)||p_{\theta}(z|x_i))\\+E_{q_{\phi}z|x_i)}[-\log q_{\phi}(z|x_i)+\log p_{\theta}(x,z)]\tag{式1.0}$

我们倒退式1.0，具体推导如下：
$\begin{aligned} &\int q_{\phi}(z|x_i)\log \frac{q_{\phi}(z|x_i)}{p_{\theta}(z|x_i)}dz+\int q_{\phi}(z|x_i)(\log p_{\theta}(x_i,z)-\log q_{\phi}(z|x_i))dz\\ =&\int q_{\phi}(z|x_i)\log \frac{p_{\theta}(x_i,z)}{p_{\theta}(z|x_i)}dz\\ =&\int q_{\phi}(z|x_i)\log p_{\theta}(x_i)dz\\ =&\log p_{\theta}(x_i) \end{aligned}$

由于KL散度大于等于0，依据式1.0，我们可得
$\log p_{\theta}(x_i)\geq E_{q_{\phi}z|x_i)}[-\log q_{\phi}(z|x_i)+\log p_{\theta}(x,z)] \tag{式1.1}$

$E_{q_{\phi}z|x_i)}[-\log q_{\phi}(z|x_i)+\log p_{\theta}(x,z)]$ 是 $\log p_{\theta}(x_i)$ 的下界，又被称为变分下界（variational lower bound），VAE通过最大化 $\log p_{\theta}(x_i)$ 的下界，从而让 $\log p_{\theta}(x_i)$ 的值尽可能大，因此VAE相当于一个子优化，并不能保证学习到的参数 $\theta$ 能使 $\log p_{\theta}(x_i)$ 的值最大。我们对 $E_{q_{\phi}z|x_i)}[-\log q_{\phi}(z|x_i)+\log p_{\theta}(x,z)]$ 进行如下化简

$\begin{aligned} &E_{q_{\phi}z|x_i)}[-\log q_{\phi}(z|x_i)+\log p_{\theta}(x,z)]\\ =& \int q_{\phi}(z|x_i) (-\log q_{\phi}(z|x_i)+\log p_{\theta}(x,z))dz\\ =& \int q_{\phi}(z|x_i)(\log p_{\theta}(x_i|z)+\log p_{\theta}(z)-\log q_{\phi}(z|x_i))dz\\ =& -\int q_{\phi}(z|x_i)(\log q_{\phi}(z|x_i)-\log p_{\theta}(z))dz+\int q_{\phi}(z|x_i)\log p_{\theta}(x_i|z)dz\\ =&-KL(q_{\phi}(z|x_i)||p_{\theta}(z))+E_{q_{\phi}(z|x_i)}[\log p_{\theta}(x_i|z)]\tag{式1.2} \end{aligned}$

依据式1.2，我们可得VAE的优化目标为
$\begin{aligned} \max\sum_{i=1}^n(E_{q_{\phi}(z|x_i)}[\log p_{\theta}(x_i|z)]-KL(q_{\phi}(z|x_i)||p_{\theta}(z)))\\\approx \max\sum_{i=1}^n(E_{q_{\phi}(z|x)}[\log p_{\theta}(x_i|z)])-KL(q_{\phi}(z|x)||p_{\theta}(z))\tag{式1.3} \end{aligned}$

作者假设 $p_{\theta}(z)$ 是一个不受参数 $\theta$ 限制的已知分布，并且依据蒙特卡洛模拟，我们可以将式1.3进一步变化为
$\max(\sum_{i=1}^n\frac{1}{m}\sum_{j=1}^m\log p_{\theta}(x_i|z_j))-\min(KL(q_{\phi}(z|x)||p_{\theta}(z)))\tag{式1.4}$
$z_j$ 服从 $q_{\phi}(z|x)$ 分布，作者实验过，m的取值比较随意，可以取1，也可以取一些较大的值。我们假设 $\log p(x|z)$ 服从正态分布（具体可查看最大似然估计与最小二乘之间的关系），则式1.4可变化为
$\min (\sum_{i=1}^n\frac{1}{m}\sum_{j=1}^m(x_i-f_{\theta}(z_j))^2-KL(q_{\phi}(z|x)||p_{\theta}(z))$

$f_{\theta}(z_j)$ 表示给定一个 $z_j$ ，将其转变为一张图片，这便是Decoder， $\theta$ 表示Decoder的参数，由于 $z_j$ 服从 $q_{\phi}(z|x)$ 分布，我们需要一个模型将 $q_{\phi}(z|x)$ 刻画出来，作者假设 $q_{\phi}(z|x)$ 为一个均值为 $\mu$ ，方差为 $\sum$ 的高斯分布，其自变量为 $z$ ，此时我们可以从标准正态分布中采样一个样本 $z_j'$ ，接着通过 $z_j'\sum^{\frac{1}{2}}+\mu$ 得到 $z_j$ 。我们可以利用样本的均值和方差来估计 $q_{\phi}(z|x)$ ，即需要一批已知 $x$ 情况下，有 $z$ 取值的样本，这就是Encoder，Encoder可以在已知图片 $x$ 的情况下，将其压缩为一个编码 $z$ 。至此，AutoEncoder的结构便出来了。

现在还有一个问题，如何估计 $KL(q_{\phi}(z|x)||p_{\theta}(z))$ ？其VAE对此有较强的假设，假设 $q_{\phi}(z|x)$ 为均值为 $\mu$ ，方差为 $\sum$ 的高斯分布， $p_{\theta}(z)$ 为标准正态分布，我们利用Encoder可以将一批图片 $x_i$ 压缩为一批编码 $z_i$ ，计算这批编码的均值以及方差，作为 $q_{\phi}(z|x)$ 的均值和方差，假设 $z_i$ 有 $J$ 个维度，由此可将 $KL(q_{\phi}(z|x)||p_{\theta}(z))$ 化简为
在这里插入图片描述

上述式子的推导有点超过我目前的数学知识，在此不做总结。

参考文献

1.Auto-Encoding Variational Bayes(原文)
2.Tutorial on Variational Autoencoders

在这里插入图片描述

菜到怀疑人生

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
深度学习（生成式模型）——VAE(Variational Auto-encoder）

文章目录前言VAE训练测试VAE背后的数学原理前言提到生成式模型，不少人第一映像便是GAN，除去GAN之外，VAE(Variational Auto-encoder)也是设计非常漂亮的生成式模型，两者均是超香的无监督模型，目前也有工作将两者进行结合，代表是VAE-GAN模型。本文将总结VAE的工作过程，以及其背后的数学原理。VAE上图详细展示了VAE的工作过程，其为AutoEncode...
复制链接

扫一扫