生成模型之变分自编码器VAE

最新推荐文章于 2024-07-19 14:23:15 发布

专注于计算机视觉的AndyJiang

最新推荐文章于 2024-07-19 14:23:15 发布

阅读量494

点赞数 1

分类专栏：计算机视觉文章标签：神经网络深度学习

本文链接：https://blog.csdn.net/andyjkt/article/details/107542104

版权

计算机视觉专栏收录该内容

31 篇文章 10 订阅

订阅专栏

参考知乎

分布变换

通常我们会拿 VAE 跟 GAN 比较，的确，它们两个的目标基本是一致的——希望构建一个从隐变量 Z 生成目标数据 X 的模型，但是实现上有所不同。

更准确地讲，它们是假设了服从某些常见的分布（比如正态分布或均匀分布），然后希望训练一个模型 X=g(Z)，这个模型能够将原来的概率分布映射到训练集的概率分布，也就是说，它们的目的都是进行分布之间的变换。
在这里插入图片描述
生成模型的难题就是判断生成分布与真实分布的相似度，因为我们只知道两者的采样结果，不知道它们的分布表达式。

我们怎么判断这个通过 f 构造出来的数据集，它的分布跟我们目标的数据集分布是不是一样的呢？

KL 散度是根据两个概率分布的表达式来算它们的相似度的，然而目前我们并不知道它们的概率分布的表达式。

我们只有一批从构造的分布采样而来的数据 {X̂1,X̂2,…,X̂n}，还有一批从真实的分布采样而来的数据 {X1,X2,…,Xn}（也就是我们希望生成的训练集）。我们只有样本本身，没有分布表达式，当然也就没有方法算 KL 散度。

GAN 的思路很直接粗犷：既然没有合适的度量，那我干脆把这个度量也用神经网络训练出来吧。

VAE慢谈

首先我们有一批数据样本 {X1,…,Xn}，其整体用 X 来描述，我们本想根据 {X1,…,Xn} 得到 X 的分布 p(X)，如果能得到的话，那我直接根据 p(X) 来采样，就可以得到所有可能的 X 了（包括 {X1,…,Xn} 以外的），这是一个终极理想的生成模型了。
当然，这个理想很难实现，于是我们将分布改一改：

在这里插入图片描述
假设 p(Z|X)（后验分布）是正态分布。

具体来说，给定一个真实样本 Xk，我们假设存在一个专属于 Xk 的分布 p(Z|Xk)（学名叫后验分布），并进一步假设这个分布是（独立的、多元的）正态分布。后面要训练一个生成器 X=g(Z)，希望能够把从分布 p(Z|Xk) 采样出来的一个 Zk 还原为 Xk。
在这里插入图片描述
论文中的式 (9) 是实现整个模型的关键,尽管论文也提到 p(Z) 是标准正态分布，然而那其实并不是本质重要的。

这时候每一个 Xk 都配上了一个专属的正态分布，才方便后面的生成器做还原。但这样有多少个 X 就有多少个正态分布了。我们知道正态分布有两组参数：均值 μ 和方差 σ^2（多元的话，它们都是向量）。

那我怎么找出专属于 Xk 的正态分布 p(Z|Xk) 的均值和方差呢？用神经网络来拟合出来
构建两个神经网络 $u_k=f_1(x_k)$ , $log\sigma^2=f_2(x_k)$ 来算它们了。我们选择拟合 $log\sigma^2$ 而不是直接拟合 $\sigma ^2$ ，是因为 $\sigma ^2$ 总是非负的，需要加激活函数处理，而拟合 $log\sigma^2$ 不需要加激活函数，因为它可正可负。

到这里，我能知道专属于 Xk 的均值和方差了，也就知道它的正态分布长什么样了，然后从这个专属分布中采样一个 Zk 出来，然后经过一个生成器得到 X̂k=g(Zk)。

现在我们可以放心地最小化 D(X̂k,Xk)^2，因为 Zk 是从专属 Xk 的分布中采样出来的，这个生成器应该要把开始的 Xk 还原回来。于是可以画出 VAE 的示意图：
在这里插入图片描述
事实上，VAE 是为每个样本构造专属的正态分布，然后采样来重构。

VAE 还让所有的 p(Z|X) 都向标准正态分布看齐,如果所有的 p(Z|X) 都很接近标准正态分布 N(0,I)，
在这里插入图片描述
这样我们就能达到我们的先验假设：p(Z) 是标准正态分布。然后我们就可以放心地从 N(0,I) 中采样来生成图像了。

在这里插入图片描述
那怎么让所有的 p(Z|X) 都向 N(0,I) 看齐呢？如果没有外部知识的话，其实最直接的方法应该是在重构误差的基础上中加入额外的 loss：
原论文直接算了一般（各分量独立的）正态分布与标准正态分布的 KL 散度:
在这里插入图片描述
这里的 d 是隐变量 Z 的维度，而 $μ_{(i)}^2$ 和 $σ_{(i)}^{2}$ 分别代表一般正态分布的均值向量和方差向量的第 $i$ 个分量。直接用这个式子做补充 loss，就不用考虑均值损失和方差损失的相对比例问题了。

推导：
在这里插入图片描述
整个结果分为三项积分，第一项实际上就是 $logσ^2$ 乘以概率密度的积分（也就是 1），所以结果是 $logσ^2$ ；第二项实际是正态分布的二阶矩，熟悉正态分布的朋友应该都清楚正态分布的二阶矩为 $μ^2+σ^2$ ；而根据定义，第三项实际上就是“-方差除以方差=-1”。所以总结果就是：
在这里插入图片描述

VAE本质是什么

在 VAE 中，它的 Encoder 有两个，一个用来计算均值，一个用来计算方差，这已经让人意外了：Encoder 不是用来 Encode 的，是用来算均值和方差的

它本质上就是在我们常规的自编码器的基础上，对 encoder 的结果（在VAE中对应着计算均值的网络）加上了“高斯噪声”，使得结果 decoder 能够对噪声有鲁棒性；而那个额外的 KL loss（目的是让均值为 0，方差为 1），事实上就是相当于对 encoder 的一个正则项，希望 encoder 出来的东西均有零均值。

那另外一个 encoder（对应着计算方差的网络）的作用呢？它是用来动态调节噪声的强度的。

直觉上来想，当 decoder 还没有训练好时（重构误差远大于 KL loss），就会适当降低噪声（KL loss 增加），使得拟合起来容易一些（重构误差开始下降）。

反之，如果 decoder 训练得还不错时（重构误差小于 KL loss），这时候噪声就会增加（KL loss 减少），使得拟合更加困难了（重构误差又开始增加），这时候 decoder 就要想办法提高它的生成能力了。

在这里插入图片描述
说白了，重构的过程是希望没噪声的，而 KL loss 则希望有高斯噪声的，两者是对立的。所以，VAE 跟 GAN 一样，内部其实是包含了一个对抗的过程，只不过它们两者是混合起来，共同进化的。

GAN 真正高明的地方是：它连度量都直接训练出来了，而且这个度量往往比我们人工想的要好（然而 GAN 本身也有各种问题，这就不展开了）。

在 VAE 中，重构跟噪声是相互对抗的，重构误差跟噪声强度是两个相互对抗的指标，而在改变噪声强度时原则上需要有保持均值不变的能力，不然我们很难确定重构误差增大了，究竟是均值变化了（encoder的锅）还是方差变大了（噪声的锅）

变分在哪里

还有一个有意思（但不大重要）的问题是：VAE 叫做“变分自编码器”，它跟变分法有什么联系？在VAE 的论文和相关解读中，好像也没看到变分法的存在？

其实如果读者已经承认了 KL 散度的话，那 VAE 好像真的跟变分没多大关系了，因为 KL 散度的定义是：
在这里插入图片描述
如果是离散概率分布就要写成求和，我们要证明：已概率分布 p(x)（或固定q(x)）的情况下，对于任意的概率分布 q(x)（或 p(x)），都有 KLp(x)‖q(x))≥0，而且只有当p(x)=q(x)时才等于零。

因为 KL(p(x)‖q(x))实际上是一个泛函，要对泛函求极值就要用到变分法，当然，这里的变分法只是普通微积分的平行推广，还没涉及到真正复杂的变分法。而 VAE 的变分下界，是直接基于 KL 散度就得到的。所以直接承认了 KL 散度的话，就没有变分的什么事了。

一句话，VAE 的名字中“变分”，是因为它的推导过程用到了 KL 散度及其性质。

AE与VAE

专注于计算机视觉的AndyJiang

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
生成模型之变分自编码器VAE

参考知乎分布变换通常我们会拿 VAE 跟 GAN 比较，的确，它们两个的目标基本是一致的——希望构建一个从隐变量 Z 生成目标数据 X 的模型，但是实现上有所不同。更准确地讲，它们是假设了服从某些常见的分布（比如正态分布或均匀分布），然后希望训练一个模型 X=g(Z)，这个模型能够将原来的概率分布映射到训练集的概率分布，也就是说，它们的目的都是进行分布之间的变换。生成模型的难题就是判断生成分布与真实分布的相似度，因为我们只知道两者的采样结果，不知道它们的分布表达式。我们怎么判断这个通过 f 构造
复制链接

扫一扫

专栏目录