VQGAN: Taming Transformers for High-Resolution Image Synthesis

最新推荐文章于 2024-07-29 13:29:50 发布

孔小熊

最新推荐文章于 2024-07-29 13:29:50 发布

阅读量16

点赞数 1

论文名称： Taming Transformers for High-Resolution Image Synthesis

发表时间：CVPR2021
作者及组织： Patrick Esser*, Robin Rombach*, Bjorn Ommer, 来自Heidelberg Collaboratory for Image Processing, IWR, Heidelberg University, Germany。

前言

本文类似VQVAE，区别在于引入了GAN的思想来强制codebook学到更逼真的图像成分表示，另外，自回归模型替换成了长序建模更强的Transformer来替代PixelCNN。（在codebook上进行自回归是因为Transformer计算代价大）。

1、方法

VQGAN: Taming Transformers for High-Resolution Image Synthesis_Image

1.1.codebook学习

这块类似VQVAE，损失函数类似：
$VQGAN: Taming Transformers for High-Resolution Image Synthesis_建模_02$
其中 $VQGAN: Taming Transformers for High-Resolution Image Synthesis_Image_03$ 表示Decoder的生成图， $VQGAN: Taming Transformers for High-Resolution Image Synthesis_ide_04$

1.2.+GAN

$VQGAN: Taming Transformers for High-Resolution Image Synthesis_ide_05$ ，来判断每块特征图 $VQGAN: Taming Transformers for High-Resolution Image Synthesis_建模_06$

$VQGAN: Taming Transformers for High-Resolution Image Synthesis_建模_07$

其中 $VQGAN: Taming Transformers for High-Resolution Image Synthesis_计算机视觉_08$ 是原始图像， $VQGAN: Taming Transformers for High-Resolution Image Synthesis_Image_03$ 是Decoder生成图。另外，VQGAN使用了 $VQGAN: Taming Transformers for High-Resolution Image Synthesis_Image_10$

1.3.自回归

在codebook训练完成后，将其置为推理阶段，然后推理图像并根据codebook得到gt索引，并用Transformer来自回归预测下一个索引。自回归损失用一个交叉熵即可：
$VQGAN: Taming Transformers for High-Resolution Image Synthesis_建模_11$

1.4.生成

$VQGAN: Taming Transformers for High-Resolution Image Synthesis_ide_05$ 便能生成图像。但若想生成百万像素还是有困难，因此，作者采用了一个滑动窗口生成策略：

VQGAN: Taming Transformers for High-Resolution Image Synthesis_计算机视觉_13

借助Transformer只能看见以前的信息的性质，便能分块生成大图。

2、效果

VQGAN: Taming Transformers for High-Resolution Image Synthesis_建模_14

思考

针对不同训练任务需要训练不同的codebook+自回归，比较麻烦。

原创作者: u_15360564 转载于: https://blog.51cto.com/u_15360564/11386632

孔小熊

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
VQGAN: Taming Transformers for High-Resolution Image Synthesis

论文名称：Taming Transformers for High-Resolution Image Synthesis发表时间：CVPR2021 作者及组织： Patrick Esser*, Robin Rombach*, Bjorn Ommer, 来自Heidelberg Collaboratory for Imag...
复制链接

扫一扫