论文理解：Generating Diverse High-Fidelity Images with VQ-VAE-2

最新推荐文章于 2024-07-01 21:29:54 发布

雷克顿小石头

最新推荐文章于 2024-07-01 21:29:54 发布

阅读量3.1k

点赞数

分类专栏： GAN论文解读

本文链接：https://blog.csdn.net/GAN_CVer/article/details/103088428

版权

这篇论文探讨了深度生成模型的问题，特别是GAN的多样性不足。研究者提出了一种非GAN的生成模型——VQ-VAE-2，通过分层的VQ-VAE将图像编码到离散隐空间，再用PixelCNN先验进行采样，实现了高质量、多样性的图像生成，同时训练和采样速度比直接在像素空间操作快30倍。

摘要由CSDN通过智能技术生成

深度生成模型都有什么问题

研究者将常见的生成模型分为两种：一种是基于似然的模型，包括 VAE 及其变体、基于流的模型、以及自回归（autoregressive）模型，另一种是隐式生成模型，如生成对抗网络（GAN）。这些模型都会存在某些方面的缺陷，如样本质量、多样性、生成速度等。

GAN 利用生成器和判别器来优化 minimax 目标函数，前者通过将随机噪声映射到图像空间来生成图像，后者通过分辨生成器生成的图像是否为真来定义生成器的损失函数。大规模的 GAN 模型已经可以生成高质量和高清晰度的图片。然而，众所周知，GAN 生成的样本并不能完全捕捉真实分布中的多样性。另一方面，针对生成对抗网络的评价非常困难，目前依然不存在一个较通用的度量标准，用于在测试集中判断模型是否过拟合。

与生成对抗网络不同的是，基于似然的模型在训练集上优化一个负对数似然函数（negative log-likelihood）。这一目标函数可以对模型进行对比并度量在未见数据上的泛化能力。此外，由于模型在训练集上对所有样本分配的概率都达到最大，理论上基于似然的模型可以覆盖数据的所有模式，不存在像生成对抗网络那样的模式崩塌（mode collapse）和多样性缺失（lack of diversity）问题。

但是在这些优点之外，直接最大化像素空间的似然是困难的。首先，像素空间上的负对数似然不一定是对生成样本质量的良好评估方式；其次对于这些模型而言，它们不一定会关注图像的全局结构，因此生成效果也不是很好。

「最强非 GAN 生成器」

在这篇论文中，研究者们利用了有损压缩的思想，令生成模型可以忽略对不重要信息的建模。事实上，JPEG 等图像