变分自编码器VAE详解

最新推荐文章于 2024-08-17 10:50:44 发布

置顶

kingfoulin

最新推荐文章于 2024-08-17 10:50:44 发布

阅读量2.5k

点赞数 2

分类专栏：生成模型机器学习深度学习

本文链接：https://blog.csdn.net/kingfoulin/article/details/92073101

版权

本文详细介绍了变分自编码器（VAE）的工作流程，包括其生成模型和流动逻辑。VAE通过引入隐层变量Z，使用编码器和解码器来近似数据的真实分布，解决了高维数据生成的挑战。文章探讨了VAE的优化目标——变分下限，以及如何通过最大化变分下限来训练模型。VAE在概率图模型和深度学习的结合上做出了重要贡献。

摘要由CSDN通过智能技术生成

emmmmm…先来一首BGM吧。

VAE的讲解

网络的逻辑输入和输出 这是我为了更加清晰的介绍流程图而设定的（不知专业的词哈）

首先，对于一批数据来说，生成模型的目标就是学习得到一个分布 $P (X)$ ，使得该分布和数据的真是分布 $P_{gt}(X)$ 很接近，这样一来，我们就可以根据得到的 $P (X)$ 来生成该数据集中到数据，也就是达到了生成数据的目的，这就是生成模型的最终目标。但是，我们无法直接获得这样的 $P (X)$ ，而且，随着 $X$ 的维度的变大，很多的方法例如蒙特卡洛近似就无法使用。既然是概率图的形式，我们可以采用如下的模型来生成 $X$ –通过引进一个隐层变量，这样 $P(X)=\int P(X|Z)P(Z)dz$ ，而且我们假设 $\sim N(0,1)$ ， $P(X|Z;\theta)=N(X|f(Z;\theta),\sigma^2*I)$ 。其中 $f(Z;\theta)$ 是网络的输出， $P (X ∣ Z)$ 是网络拟合的函数。这样我们就可以用过采样得到 $Z$ ，输入网络得到最后的 $P (X)$ (这就是终极目标)，再通过近似或者采样等操作生成 $X$ 。但是这个网络太难训练了，因此直接从一个正太分布中采样 $Z$ 输入到网络中，其对于网络拟合的 $P (X)$ 的贡献可能为0！这样，如果 $X$ 的维度也很高的话，网络学习的难度就更大了，因此这样的方法不符合实际。

插播一则广告：网络的输出 和 网络的拟合函数是不一样的,而且网络最终的逻辑输出也不一样！例如我们训练一个网络来拟合高斯分布，此时，你网络的输出可能是 $(\mu,\sigma)$ ，但是网络最终拟合的是 $P(X|Z)=N(\mu,\sigma)$ ,但是此时如果 $Z$ 也是一个随机变量的话，那么网络最终符合的逻辑输出是 $P (X ∣ Z) P (Z)$ 。

那么，怎么改进上面的生成模型呢，还是使用隐层变量的话，这时候，我们要保证采样得到的 $Z$ 是每个数据 $X$ 专属的变量，它是有利于构建P(X)的，因此我们决定从P(Z|X)中采样，这样一来， $Z$ 是依赖于输出的 $X$ 的，它对于重构出 $X$ 有很高的置信度。那么此时的P(Z|X)会是什么分布呢？当然是高分布 $N (0, I)$ ！这样，encoder的输出 $(\mu,\sigma)$ 就可以采用KL散度来训练。注意此时和之前的区别！！此时采样后输入到网络中的 $Z$ 虽然是 $P(Z)\sim N(0,I)$ ，但是这是网络的拟合输出，网络的逻辑输出是 $P (Z ∣ X)$ ,也就是此时的Z是采样于 $P(Z|X)\sim N(0,I)$ ，这是有区别的！逻辑输入就不一样了。这样，网络就变成了下面的例子：