生成模型（VQGAN）Taming Transformers for High-Resolution Image Synthesis

最新推荐文章于 2025-07-10 03:18:02 发布

原创

最新推荐文章于 2025-07-10 03:18:02 发布 · 1k 阅读

31 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

阅读潜在扩散模型时了解到其pretrained autoencoders的架构是VQGAN，今天阅读了一下这篇文章跟大家分享一下，题目是Taming Transformers for High-Resolution Image Synthesis 驯服Taming Transformers 用于高分辨率图像合成。题目气的非常霸气。

了解VQGAN之前，还学习了VQVAE（Vector QuantisedVariational AutoEncoder））这篇论文Neural Discrete Representation Learning，

生成模型 VQVAE:Neural Discrete Representation Learning-CSDN博客

VQVAE的思想来源 vector quantisation (VQ) 向量矢量化

VQVAE的核心思想是：学习一个离散的潜在表征，用于规避VAE framework中出现的posterior collapse 后验坍塌问题

VQVAE和VAE 的不同点在于

1编码器的输出是离散编码的而不是连续编码
2 先验是学习的（一个离散的类别分布）而不是静态的（vae 的先验（p(z）是一个标准的正态分布）

摘要

Transformer 旨在学习序列数据上的远程交互，并继续在各种任务上展示最先进的结果。与 CNN 相比，它们不包含优先考虑局部交互的归纳偏差。这使得它们具有表现力，但对于长序列（例如高分辨率图像）来说在计算上也是不可行的。我们演示了如何将 CNN 归纳偏置的有效性与 Transformer 的表现力相结合，使它们能够建模并从而合成高分辨率图像。我们展示了如何 (i) 使用 CNN 学习图像成分的上下文丰富的词汇，然后 (ii) 利用转换器在高分辨率图像中有效地对其成分进行建模。我们的方法很容易应用于条件合成任务，其中非空间信息（例如对象类）和空间信息（例如分割）都可以控制生成的图像。特别是，我们首次提出了使用 Transformer 进行百万像素图像语义引导合成的结果

Transformers的特点

长距离交互：变换器被设计用来学习序列数据中的长距离交互，这在许多任务中取得了最先进的成果。
无局部交互偏置：与卷积神经网络（CNNs）不同，变换器不包含优先处理局部交互的归纳偏置。这种特性使得变换器非常灵活和表达力强
计算资源要求高：在处理长序列（如高分辨率图像）时，计算上可能不可行。

论文创新 结合思维

CNNs与Transformers的结合

CNNs的归纳偏置：CNNs的局部连接和权值共享等特性使其非常适合捕捉图像的局部特征和空间层次结构，这种归纳偏置在处理图像时非常有效。
结合两者的优势：通过将CNNs的归纳偏置与transformers的表达能力相结合，可以构建一种既能捕捉图像局部特征又能建模长距离依赖的模型。具体来说，CNNs用于学习图像成分的丰富上下文词汇表（即特征表示），而transformers则用于高效地建模这些成分在高分辨率图像中的组合方式。

1. Introduction

我们获得有效且富有表现力的模型的关键见解是，卷积和 Transformer 架构结合在一起可以模拟我们视觉世界的组成性质

组合性建模：作者认为，卷积和变换器架构的结合能够有效地建模视觉世界的组合性质。这意味着，图像可以被视为由多个局部视觉部分（如边缘、纹理、形状等）组成，而这些部分又可以组合成更复杂的结构和场景。

方法概述

卷积方法学习视觉部分：首先，使用卷积方法高效地学习一个包含丰富上下文信息的视觉部分（或称为“视觉词汇”）的代码本（codebook）。这一步的目的是捕捉图像的局部结构和特征，这些局部结构是构建更复杂图像的基础。
变换器建模全局组合：接下来，利用变换器架构学习这些视觉部分之间的全局组合。由于变换器擅长建模长距离交互，因此它们能够捕捉视觉部分之间复杂的、非局部的关系，从而生成更加逼真和复杂的图像。
对抗性方法优化局部结构：同时，采用对抗性方法来确保局部部分的字典（即代码本）能够捕捉到感知上重要的局部结构。这样做可以减少变换器架构在建模低级统计信息方面的负担，使其能够更专注于其独特的优势——建模长距离关系。

优势与成果

高分辨率图像生成：通过让变换器专注于其强项（建模长距离关系），该模型能够生成高分辨率的图像，这是以前难以实现的。如图1所示，生成的图像在细节和逼真度上都达到了很高的水平。
条件控制：该模型还允许通过条件信息（如期望的对象类别或空间布局）直接控制生成的图像。这使得模型在条件合成任务中非常有用，可以根据用户的需求生成特定类型的图像。
性能超越：实验结果表明，该方法保留了变换器的优势，并在基于卷积架构的代码本方法中取得了最新的最佳性能。这表明将卷积和变换器结合起来是一种有效的策略，可以提高图像生成的质量和灵活性。