paper:VAE/GAN
0、摘要
我们提供了一个自动编码器,它利用学习的表示来更好地度量数据空间地相似性。通过将变分自编码器与生成对抗网络相结合,我们可以利用GAN鉴别器中的学习特征表示作为VAE重建目标的基础。因此,我们将元素方面的错误替换为特征方面的错误,以便更好地捕获数据分布,同时提供对例如翻译的不变性对。我们将我们的方法应用到人脸图像上,并证明它在视觉逼真度方面比VAEs表现得更好。此外,我们还证明了该方法学习了一种嵌入方法,可以使用简单的算法提高高级抽象的视觉特征(例如戴眼镜)
1、介绍
深层架构允许广泛的区分模型扩展到大的和不同的数据集。然而,生成模型仍然存在图像和声音等复杂数据分布的问题。在这项工作中,我们展示了目前使用的相似度度量对学习好的生成模型设置了一个障碍,并且我们可以通过使用学习的相似度度量来改进生成模型。
学习变分自动编码器(VAE)模型时,相似度度量的选择是核心,通过重构误差目标提供训练信号的主要部分。
对于这个任务,元素级的度量,如平方误差是默认值。元素度量是简单的,但不太适合图像数据,因为他妈不模拟人类视觉感知的属性。一个小的图像翻译可能会导致一个大的像素错误,而一个几乎不会注意到变化。因为,我们主张使用更高层次和足够不变的图像表示来测量图像的相似性。我们希望为任务学习一个函数,而不是手工设计一个合适的方法来解决元素度量的问题。问题是如何学习这种相似性度量?我们发现,通过联合训练VAE和生成对抗网络(GAN),我们可以使用GAN鉴别器来测量样本相似性。我们通过将VAE和GAN结合实现这一点,如图所示,我们将VAE解码器和GAN生成器合并为一个。让它们共享参数并联合训练它们。对于VAE训练目标,我们将典型的元素重构度量替换为鉴别器中表示的特征度量。
1.1 贡献
·我们将VAEs和GANs合并为一个无监督生成模型,同时学习编码、生成和比较数据集样本。
·我们证明,接受过学习相似度度量训练的生成模型比接受过元素误差模拟训练的模型产生更好的图像样本。
·我们证明了无监督训练可以产生更具有解纠缠因子的潜在图像表示法。这一点在一个用视觉属性向量标记的人脸图像数据集中的实验中得到了证明,在学习的潜空间中应用简单的算法可以生成反映这些属性变化的图像。
2、自动编码和学习相似性
在本节中,我们将介绍VAEs和GANs的背景知识。然后,我们介绍了两种方法的结合方法,我们称之为VAE-GAN。正如我们将要描述的,我们所提出的混合模型是作为一种改进VAE的方法而被激发的,因此它依赖于一个更有意义的,更有特征的度量来度量训练期间的重构质量。
2.1 变分自编码器
VAE由两个网络组成,分别将数据样本x编码为潜在表示z,并将潜在表示解码回数据空间:
VAE通过对潜在分布p(z)施加一个先验来规范编码器。通过z~N(0,1)选择。VAE损失是减去预期的log似然函数(重构误差)和先验的正则化项的总和。
其中DKL 是KL散度。
2.2 生成对抗网络
GAN由两个网络:生成器Gen(z)由空间数据潜变量z映射,而判别器网络分配概率y=Dis(x)∈[0,1],x是实际的训练样本。GAN的目标是找到一个二进制分类器,它给出了真是数据和生成数据之间最好的区别,并同时鼓励Gen以符合真实的数据分布。因此,我们的目标是最大/最小交叉熵: