论文阅读24 - VAE - Variational AutoEncoder (Auto-Encoding Variationl Bayes)

最新推荐文章于 2024-05-09 14:30:01 发布

SpadeA_Iverxin

最新推荐文章于 2024-05-09 14:30:01 发布

阅读量894

点赞数

分类专栏：论文阅读机器学习文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/KuXiaoQuShiHuai/article/details/109720361

版权

论文阅读同时被 2 个专栏收录

32 篇文章 5 订阅

订阅专栏

机器学习

14 篇文章 2 订阅

订阅专栏

VAE

一篇讲的很好的博客

理论推导博客

论文原文

斯坦福课件

上面的博客已经很好很深入了，下面记录一下我个人的直观理解。具体理论移步上面的博客。这里只是作为日后使用时的快速查阅。不具有理论推导的严谨性。

1. 直观理解:

第一次接触VAE还是在World Model这篇论文。VAE主要由三部分组成：

Encoder 编码器，用来中间向量z分布，即 $p (z ∣ x)$
z向量 Encoder的输出，Decoder的输入。可以当做降维之后的输入。 $p (z)$
Decoder 解码器，用来从z生成出原来的，即 $p (x ∣ z)$

VAE训练好后，可以用中间变量z作为其他模型的输入World Model就是这么做的，这样Encoder就相当于一个降维的作用。也可以将Decoder作为生成器，生成和训练集类似的样例，这就和GAN的功能类似。

本质上，VAE就是我给一堆输入到编码器，解码器能输出同样分布的输出。

生成模型的难题就是判断生成分布与真实分布的相似度，因为我们只知道两者的采样结果，不知道它们的分布表达式。

KL散度的虽然能衡量两种分布的近似度，但是必须知道分布的表达式

我们的假设是 $p (z ∣ x)$ 是高斯分布。这是VAE模型的重点，正因为这个假设，我们才设计成如下模型：

当然，如果 $p (z ∣ x)$ 是高斯分布， $p (z)$ 也满足正态分布。推理如下（不区分积分与求和）：

$\sum_x p(z|x)p(x) = \sum_xN(0,1)p(x) = N(0,1)\sum_xp(x) = N(0,1)$

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gIG4oJZ3-1605507771174)(24-VAE.assets/image-20201115160705282.png)]

图片来源

2. 结构

结构示意图如上图所示。

以图片为例：

对于均值方差计算模块：可能是多个卷积层和池化层

生成器：可能是多个反卷积层

均值和方差的计算则是全连接网络。

2.1 为什么要向标准正态分布看齐，以及如何实现的？

我们的z是根据均值和方差采样而来，在这里方差相当于噪声，如果方差是0的话，则采样结果则一定是均值。我们通过最小化生成的 $\hat x$ 与输入的 $x$ 之间的距离，来进行训练。那么我们的方差网络会逐渐趋近于结果为0。这时就退化成了AutoEncoder。

VAE通过在损失函数中引入生成的高斯分布 $N(\mu,\sigma^2)$ 与标准的高斯分布 $N (0, 1)$ 之间的KL散度，来让 $p (z ∣ x)$ 的分布趋近于标准正态分布。

VAE相对于之前的AutoEncoder的一个显著提升就是它的生成能力。从正态分布中采样生成一个z，就可以生成一个比较合理的结果。而AutoEncoder不能保证中间的z向量是某一种分布，所以它对于没有见过的（训练过的）z生成能力比较差。

2.2 如何采样出z？

直接sample出z是不行的，采样的过程是不可导，没办法BP啊！！

解决办法就是：
$\mu + \epsilon \times \sigma$

$\epsilon$ 是从N(0,1)中采样来的。

这种技巧叫做重参数。反向传播时候，需要让z能够分别对 $\mu$ 和 $\sigma$ 求偏导，而对于 $\epsilon$ 则不需要对他求导。故才采样出来也没关系。

损失函数：
$Loss(\theta) = D(x,\hat x) + KL(N(\mu, \sigma^2) || N(0,1))$

$D(x,\hat x)$ 是输入样本与生成样本之间的距离，可以使均方误等。

KL部分的推导，对于一维情况：

KL的公式：
$D_{KL}(p||q) = \sum_{i = 1}^N = p(x_i) \log \frac{p(x_i)}{q(x_i)}$

$KL(N(\mu, \sigma^2) || N(0,1)) = \int \frac{1}{\sqrt{2 \pi \sigma^2}} \exp\{\frac{-(x-\mu)^2}{2\sigma^2}\} \times \log \{\frac{\frac{1}{\sqrt{2 \pi \sigma^2}}\exp(-(x-\mu)^2/2\sigma^)} {\frac{1}{\sqrt{2 \pi}}\exp(-x^2/2)}\} dx\\ =一顿猛如虎的化简 \\ =\frac{1}{2} \int \frac{1}{\sqrt{2 \pi \sigma^2}} \exp\{\frac{-(x-\mu)^2}{2\sigma^2}\} [-\log \sigma^2 + x^2 - (x-\mu)^2/\sigma^2]dx$

积分结果计算：

可分成三个积分加和（就是分别乘以中括号里那三部分）：

第一个是 $-\log \sigma^2$ 可作为常数提出来，剩下是标准正态分布的积分值为1，故结果为 $-\log \sigma^2$

第二项是二阶矩，结果为 $\mu^2 + \sigma^2$

第三项是
$\int_{-\infty}^{+\infty} \frac{1}{\sqrt{2 \pi \sigma^2}}\exp\{\frac{-(x-\mu)^2}{2\sigma^2}\} (-(x-\mu)^2/\sigma^2)dx \\ = \int_{-\infty}^{+\infty} \frac{1}{\sqrt{2 \pi }}\exp\{\frac{-(x-\mu)^2}{2\sigma^2}\} (-(x-\mu)^2/\sigma^2)d \frac{(x-\mu)}{\sigma} \\ = - \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{+\infty} e^{-\frac{1}{2}t^2} t^2 dt \\ = -\frac{1}{\sqrt{2\pi}} \int_{-\infty}^{+\infty} e^{-\frac{1}{2}t^2} t d \frac{t^2}{2} \\ = -2\frac{1}{\sqrt{2\pi}}\int_{0}^{+\infty} e^{-m} \sqrt 2 m^{1/2} dm \\ = -2\frac{1}{\sqrt \pi} \int_{0}^{+\infty} e^{-m} m^{\frac{3}{2}-1} dm \\ = - 2\frac{1}{\sqrt \pi} \Gamma(\frac{3}{2}) \\ \Gamma(\frac{3}{2}) = \Gamma(\frac{1}{2}+1) = \frac{1}{2}\Gamma(1/2) = \frac{1}{2} \sqrt{\pi} \\ 所以上述积分=- 2\frac{1}{\sqrt \pi} \times\frac{1}{2} \sqrt{\pi} = -1$

最终，KL散度为：
$KL(N(\mu, \sigma^2) || N(0,1)) = \frac{1}{2} (-\log \sigma^2 + \mu^2 + \sigma^2 -1)$

上述只是针对一个维度。如果一共有j个维度，则需要把每个维度的KL散度都想相加。

SpadeA_Iverxin

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
论文阅读24 - VAE - Variational AutoEncoder (Auto-Encoding Variationl Bayes)

VAE一篇讲的很好的博客理论推导博客论文原文斯坦福课件上面的博客已经很好很深入了，下面记录一下我个人的直观理解。具体理论移步上面的博客。这里只是作为日后使用时的快速查阅。不具有理论推导的严谨性。1. 直观理解:第一次接触VAE还是在World Model这篇论文。VAE主要由三部分组成：Encoder 编码器，用来中间向量z分布，即p(z∣x)p(z|x)p(z∣x)z向量 Encoder的输出，Decoder的输入。可以当做降维之后的输入。p(z)p(z)p(z)Decoder
复制链接

扫一扫

专栏目录