论文名称: Taming Transformers for High-Resolution Image Synthesis

发表时间:CVPR2021
作者及组织: Patrick Esser*, Robin Rombach*, Bjorn Ommer, 来自Heidelberg Collaboratory for Image Processing, IWR, Heidelberg University, Germany。

前言

  本文类似VQVAE,区别在于引入了GAN的思想来强制codebook学到更逼真的图像成分表示,另外,自回归模型替换成了长序建模更强的Transformer来替代PixelCNN。(在codebook上进行自回归是因为Transformer计算代价大)。

1、方法

VQGAN: Taming Transformers for High-Resolution Image Synthesis_Image

1.1.codebook学习

 这块类似VQVAE,损失函数类似:
VQGAN: Taming Transformers for High-Resolution Image Synthesis_建模_02
 其中 VQGAN: Taming Transformers for High-Resolution Image Synthesis_Image_03 表示Decoder的生成图, VQGAN: Taming Transformers for High-Resolution Image Synthesis_ide_04

1.2.+GAN

VQGAN: Taming Transformers for High-Resolution Image Synthesis_ide_05 ,来判断每块特征图 VQGAN: Taming Transformers for High-Resolution Image Synthesis_建模_06

VQGAN: Taming Transformers for High-Resolution Image Synthesis_建模_07

其中 VQGAN: Taming Transformers for High-Resolution Image Synthesis_计算机视觉_08 是原始图像, VQGAN: Taming Transformers for High-Resolution Image Synthesis_Image_03 是Decoder生成图。 另外,VQGAN使用了 VQGAN: Taming Transformers for High-Resolution Image Synthesis_Image_10

1.3.自回归

 在codebook训练完成后,将其置为推理阶段,然后推理图像并根据codebook得到gt索引,并用Transformer来自回归预测下一个索引。自回归损失用 一个交叉熵即可:
VQGAN: Taming Transformers for High-Resolution Image Synthesis_建模_11

1.4.生成

VQGAN: Taming Transformers for High-Resolution Image Synthesis_ide_05 便能生成图像。但若想生成百万像素还是有困难,因此,作者采用了一个滑动窗口生成策略:

VQGAN: Taming Transformers for High-Resolution Image Synthesis_计算机视觉_13

 借助Transformer只能看见以前的信息的性质,便能分块生成大图。

2、效果

VQGAN: Taming Transformers for High-Resolution Image Synthesis_建模_14

思考

  针对不同训练任务需要训练不同的codebook+自回归,比较麻烦。