《VQGAN》：VQVAE+Transformer它的潜力直接促成了Stable Diffusion的诞生

最新推荐文章于 2024-12-25 17:09:47 发布

OpenAppAI

最新推荐文章于 2024-12-25 17:09:47 发布

阅读量1.6k

点赞数 16

文章标签： transformer stable diffusion 深度学习 VAE

本文链接：https://blog.csdn.net/my_name_is_learn/article/details/144672945

版权

VQGAN超高像素（1280x460）自然风景生成
在这里插入图片描述

阅读本篇文章你可以了解到

2022年中旬，stable diffusion开始火起来进入到大众视野。实际上在2021年，还有一个能根据文字生成高清图片的模型–VQGAN。

接下来我们就来解密，凭什么VQGAN可以在stable diffusion出来之前扛起文生图的大旗。阅读之前强烈建议读者先学习一下《VQ-VAE》：Stable Diffusion设计的架构源泉》

1 VQGAN核心思想

VQGAN的论文名为Taming Transformers for High-Resolution Image Synthesis，直译过来是「驯服Transformer模型以实现高清图像合成」。可以看出，该方法是在用Transformer生成图像。可是，为什么这个模型叫做VQGAN，是一个GAN呢？这是因为，VQGAN使用了两阶段的图像生成方法：

训练时，先训练一个图像压缩模型（包括编码器和解码器两个子模型），再训练一个生成压缩图像的模型。
生成时，先用第二个模型生成出一个压缩图像，再用第一个模型复原成真实图像。

其中，第一个图像压缩模型叫做VQGAN，第二个压缩图像生成模型是一个基于Transformer的模型。

为什么会有这种乍看起来非常麻烦的图像生成方法呢？要理解VQGAN的这种设计动机，有两条路线可以走。两条路线看待问题的角度不同，但实际上是在讲同一件事。

第一条路线是从Transformer入手。Transformer已经在文本生成领域大展身手。同时，Transformer也在视觉任务中开始崭露头角。相比擅长捕捉局部特征的CNN，Transformer的优势在于它能更好地融合图像的全局信息。可是，Transformer的自注意力操作开销太大，只能生成一些分辨率较低的图像。因此，作者认为，可以综合CNN和Transformer的优势，先用基于CNN的VQGAN把图像压缩成一个尺寸更小、信息更丰富的小图像，再用Transformer来生成小图像。
第二条路线是从VQVAE入手。VQVAE是VQGAN的前作，它有着和VQGAN一模一样两阶段图像生成方法。不同的是，VQVAE没有使用GAN结构，且其配套的压缩图像生成模型是基于CNN的。为提升VQVAE的生成效果，作者提出了两项改进策略：1) 图像压缩模型VQVAE仅使用了均方误差，压缩图像的复原结果较为模糊，可以把图像压缩模型换成GAN；2) 在生成压缩图片这个任务上，基于CNN的图像生成模型比不过Transformer，可以用Transformer代替原来的CNN。

第一条思路是作者在论文的引言中描述的，听起来比较高大上；而第二条思路是读者读过文章后能够自然总结出来的，相对来说比较清晰易懂。如果你已经理解了VQVAE，你能通过第二条思路瞬间弄懂VQGAN的原理。说难听点，VQGAN就是一个改进版的VQVAE。然而，VQGAN的改进非常有效，且使用了若干技巧来实现带约束（比如根据文字描述）的高清图像生成，有非常多地方值得学习。

2 VQVAE创新点

2.1 创新点1-图像压缩模型VQVAE被改进成了VQGAN

一般VAE重建出来出来的图像都会比较模糊。这是因为VAE只使用了均方误差，而均方误差只能保证像素值尽可能接近，却不能保证图像的感知效果更加接近。为此，作者把GAN的一些方法引入VQVAE，改造出了VQGAN。

具体来说，VQGAN有两项改进。

第一，作者用感知误差(perceptual loss)代替原来的均方误差作为VQGAN的重建误差。计算感知误差的方法如下：把两幅图像分别输入VGG，取出中间某几层卷积层的特征，计算特征图像之间的均方误差
第二，作者引入了GAN的对抗训练机制，加入了一个基于图块的判别器，把GAN误差加入了总误差。基于图块的判别器，即判别器不为整幅图输出一个真或假的判断结果，而是把图像拆成若干图块，分别输出每个图块的判断结果，再对所有图块的判断结果取一个均值。这只是GAN的一种改进策略而已，没有对GAN本身做太大的改动

$L_{VG} + \lambda L_{GAN}$

其中， $\lambda$ 是控制两种误差比例的权重。作者在论文中使用了一个公式来自适应地设置 $\lambda$ 。和普通的GAN一样，VQGAN的编码器、解码器（即生成器）、codebook会最小化误差，判别器会最大化误差

有了一个保真度高的图像压缩模型，我们可以进入下一步，训练一个生成压缩图像的模型。

2.2 创新点2-基于 Transformer 的压缩图像生成模型

如前所述，经VQGAN得到的压缩图像与真实图像有一个本质性的不同：真实图像的像素值具有连续性，相邻的颜色更加相似，而压缩图像的像素值则没有这种连续性。压缩图像的这一特性让寻找一个压缩图像生成模型变得异常困难。多数强大的真实图像生成模型（比如GAN）都是输出一个连续的浮点颜色值，再做一个浮点转整数的操作，得到最终的像素值。而对于压缩图像来说，这种输出连续颜色的模型都不适用了

最低0.47元/天解锁文章