【VQGAN论文精读】Taming Transformers for High-Resolution Image Synthesis
0、前言
论文地址:Taming Transformers for High-Resolution Image Synthesis
这篇博客首先分析VQGAN的论文方法,下期分享VQGAN的代码原理。
VQGAN是StableDiffusion作者的前期论文,希望大家对于表征学习、GAN以及Transformer自回归建模(GPT)的理解有一定的帮助。
分享的这篇文章综合了CNN的局部建模优势与Transformer的全局建模优势,并且基于VQVAE,具体如下:
- 首先是利用CNN(包括编码器和解码器)来学习一个有效的codebook来表示图片(VQVAE)。然而使用transformers将图像表示为潜在图像成分的分布,需要我们突破压缩的极限。这里就增加了基于patch的鉴别器和感知损失,提出了VQGAN,以在增加压缩率的情况下保持良好的感知质量keep good perceptual quality at increased compression rate.(自然也就用到了注意力机制,具体参考下文)
- 那么Transformer如何应用到图像生成呢?之前说道VQVAE其实就是找到对应codebook中的索引&#x