《High-Resolution Image Synthesis with Latent Diffusion Models》,
作者是Robin Rombach、Andreas Blattmann、Dominik Lorenz、Patrick Esser和Björn Ommer,来自德国慕尼黑大学和海德堡大学的Ludwig Maximilian University & IWR。
论文提出了一种新的图像合成方法,称为潜在扩散模型(Latent Diffusion Models,简称LDMs),这是一种用于高分辨率图像合成的生成模型。
摘要
将图像形成过程分解为一系列去噪自动编码器的应用,扩散模型(DMs)在图像数据及其他领域取得了最先进的合成结果。此外,它们的构造允许通过指导机制控制图像生成过程而无需重新训练。然而,由于这些模型通常直接在像素空间中操作,优化强大的DMs通常需要消耗数百个GPU天,并且由于顺序评估而使推断变得昂贵。为了在有限的计算资源上训练DM并保持其质量和灵活性,我们将它们应用于强大的预训练自动编码器的潜在空间中。与以往的工作相反,在这样的表示上训练扩散模型首次实现了在复杂性减少和细节保留之间达到接近最优点,极大地提高了视觉保真度。通过在模型架构中引入交叉注意力层,我们将扩散模型转化为针对一般条件输入(如文本或边界框)的强大而灵活的生成器,并使高分辨率合成以卷积方式成为可能。我们的潜在扩散模型(LDMs)在图像修复和类别条件图像合成方面实现了新的最先进成绩,并在各种任务上表现出高竞争力,包括无条件图像生成、文本到图像合成和超分辨率,同时与基于像素的DM相比大大降低了计算要求。
1、Introduction
图像合成是计算机视觉领域中最引人注目的近期发展之一,但也是计算需求最大的领域之一。特别是对于复杂自然场景的高分辨率合成,目前主要是通过扩展基于概率的模型来实现的,这些模型可能在自回归(AR)变换器中包含数十亿个参数[64,65]。相比之下,GANs的有希望的结果[3,26,39]主要局限于具有相对有限变异性的数据,因为它们的对抗学习过程不容易扩展到建模复杂的多模态分布。最近,扩散模型[79],由一系列去噪自动编码器构建而成,已经在图像合成[29,82]以及其他领域[7,44,47,56]取得了令人印象深刻的成果,并且在类别条件图像合成[15,30]和超分辨率[70]方面定义了最先进的技术。此外,即使是无条件的DMs也可以轻松应用于修复和上色[82]或基于笔画的合成任务[52],与其他类型的生成模型相比[19,45,67]。作为基于似然的模型,它们不会像GANs那样表现出模式崩溃和训练不稳定性,并且通过大量利用参数共享,它们可以在不涉及像AR模型中数十亿个参数的情况下对自然图像的高度复杂分布进行建模[65]。民主化高分辨率图像合成DMs属于基于似然的模型类别,其模式覆盖行为使它们易于将过多的容量(因此计算资源)用于建模数据的不可感知细节[16,71]。尽管重新加权的变分目标[29]旨在通过对初始去噪步骤进行欠采样来解决这个问题,但由于训练和评估这样的模型需要在RGB图像的高维空间中重复函数评估(和梯度计算),DMs仍然需要大量的计算资源。例如,训练最强大的DMs通常需要数百个GPU天(例如[15]中的150-1000 V100天),并且在输入空间的噪声版本上进行重复评估也使得推断变得昂贵。
图 1.
较少侵略性的降采样。由于扩散模型对空间数据具有出色的归纳偏差,我们不需要在潜在空间中对相关生成模型进行大量的空间降采样,而是可以通过适当的自动编码模型大大减少数据的维度,详情见第 3 节。图像来自 DIV2K [1] 验证集,在 5122 像素处评估。我们用 f 表示空间降采样因子。重建 FID [28] 和 PSNR 在 ImageNet-val. [12] 上计算;详情请参阅表 8。
因此,生成 50,000 个样本大约需要 5 天 [15] 在一台单个 A100 GPU 上。这对研究界和一般用户有两个后果:
首先,训练这样的模型需要大量的计算资源,只有少部分领域才能获得,而且会留下巨大的碳足迹 [63, 83]。
其次,评估已经训练好的模型也很昂贵,因为相同的模型架构必须连续运行大量步骤(例如 [15] 中的 25 - 1000 步)。
为了增加这个强大模型类的可访问性,同时减少其显著的资源消耗,需要一种方法来降低训练和采样的计算复杂性。在不损害性能的情况下减少 DMs 的计算需求是提高其可访问性的关键。
离开像素空间 我们的方法始于对已经训练好的扩散模型在像素空间的分析:图 2 展示了一个训练好的模型的失真率的折衷。
与任何基于似然的模型一样,学习大致可分为两个阶段:
首先是感知压缩阶段,它去除高频细节,但仍然学习了一些语义变化。
在第二阶段,实际的生成模型学习了数据的语义和概念组成(语义压缩)。
因此,我们首先旨在找到一个在感知上等价但在计算上更适合的空间,在这个空间中,我们将训练用于高分辨率图像合成的扩散模型。
遵循通常做法[11, 23, 64, 65, 93],我们将训练分为两个不同的阶段:
首先,我们训练一个自动编码器,提供了一个较低维度(从而更高效)的表征空间,该空间在感知上等价于数据空间。
重要的是,与以前的工作 [23,64] 不同,我们不需要依赖过度的空间压缩,因为我们在学习的潜在空间中训练 DMs,它在空间维度方面具有更好的扩展特性。
减少的复杂度还提供了从潜在空间进行高效图像生成的能力,只需一个网络传递。我们将产生的模型类称为潜在扩散模型(LDMs)。
这种方法的一个显着优势是,我们只需要对通用自动编码阶段进行一次训练,因此可以将其重复用于多个 DM 训练或探索可能完全不同的任务 [78]。这使得可以对大量的扩散模型进行高效探索,用于各种图像到图像和文本到图像的任务。对于后者,我们设计了一个架构,将变压器连接到 DM 的 UNet 骨干 [69],并实现了任意类型的基于标记的调节机制,详见第 3.3 节。
总之,我们的工作具有以下贡献:
(i)与纯变压器为基础的方法[23,64] 相比,我们的方法更适用于更高维度的数据,因此
(a)可以在提供比以前更忠实和详细重建的压缩水平上工作(参见图 1),
(b)可以有效地应用于百万像素图像的高分辨率合成。
(ii)我们在多个任务(无条件图像合成、修复、随机超分辨率)和数据集上实现了竞争性的性能,同时显著降低了计算成本。与基于像素的扩散方法相比,我们还显著降低了推断成本。
(iii) 我们表明,与先前的工作[90]同时学习编码器/解码器架构和基于分数的先验不同,我们的方法不需要对重建和生成能力进行细微的加权。这确保了极其忠实的重建,并且对潜在空间的正则化要求很少。
(iv) 我们发现,对于密集条件任务,如超分辨率、修复和语义合成,我们的模型可以以卷积方式应用,并渲染大型、一致的图像,约 10242 像素。
(v) 此外,我们设计了一个基于交叉注意力的通用调节机制,实现多模态训练。我们用它来训练类别条件、文本到图像和布局到图像模型。
(vi) 最后,我们在 GitHub - CompVis/latent-diffusion: High-Resolution Image Synthesis with Latent Diffusion Models 上发布了预训练的潜在扩散和自动编码模型,这些模型可能可用于除了 DMs 训练之外的各种任务。
图2. 展示感知和语义压缩:数字图像的大部分位对应于不可察觉的细节。虽然扩散模型通过最小化相应的损失项来抑制这种在语义上无意义的信息,但梯度(在训练期间)和神经网络骨干(训练和推断)仍然需要对所有像素进行评估,导致多余的计算和不必要的昂贵优化和推断。我们提出了潜在扩散模型(LDMs)作为一种有效的生成模型,以及一个单独的轻微压缩阶段,仅消除不可察觉的细节。数据和图像来自[29]。
2相关工作
图像合成的生成模型
图像的高维性质给生成建模带来了独特的挑战。
生成对抗网络(GAN)[26]
允许有效地采样具有良好感知质量的高分辨率图像[3, 41],
但很难优化[2, 27, 53],
并且难以捕捉完整的数据分布[54]。
相比之下,基于似然的方法强调良好的密度估计,从而使优化更加平稳。
变分自编码器(VAE)[45]和流模型[18,19]能够实现高分辨率图像的有效合成[9, 43, 89],但样本质量不及GAN。
虽然自回归模型(ARM)[6, 10, 91, 92]在密度估计方面表现出色,但计算需求高的架构[94]和顺序采样过程限制了它们只能处理低分辨率图像。
因为基于像素的图像表示包含几乎无法感知的高频细节[16,71],最大似然训练会在对其进行建模时消耗过多的容量,导致训练时间长。
为了扩展到更高的分辨率,一些两阶段方法[23, 65, 97, 99]使用ARMs对压缩的潜在图像空间进行建模,而不是原始像素。
最近,扩散概率模型(DM)[79]已经在密度估计[44]和样本质量[15]方面取得了最先进的结果。
这些模型的生成能力源自于当它们的基础神经骨干实现为UNet [15, 29, 69, 82]时,与图像类似数据的归纳偏差自然契合。
通常在使用重新加权目标[29]进行训练时,可以实现最佳的合成质量。在这种情况下,DM对应于一个有损压缩器,并允许在图像质量和压缩能力之间进行权衡。
然而,在像素空间中评估和优化这些模型的缺点是推断速度慢,训练成本很高。尽管前者可以部分地通过先进的采样策略[46, 73, 81]和分层方法[30, 90]来解决,但在高分辨率图像数据上进行训练始终需要计算昂贵的梯度。
我们提出的LDMs解决了这两个缺点,它们在较低维度的压缩潜在空间上工作。这使得训练的计算成本更低,并且几乎没有降低合成质量(见图1)。
两阶段图像合成
为了弥补个别生成方法的不足,许多研究[11, 23, 65, 68, 97, 99]已经进行了将不同方法的优势结合起来,通过两阶段方法构建更高效和性能更好的模型。
VQ-VAEs [65, 97] 使用自回归模型学习了一个对离散化潜在空间的表达式先验。[64]将这种方法扩展到文本到图像生成,通过学习在离散化图像和文本表示之间的联合分布。更一般地,[68] 使用条件可逆网络在不同域的潜在空间之间提供通用转换。
与VQ-VAEs不同,VQGANs [23, 99] 在第一阶段采用了对抗性和感知目标,以将自回归变换器扩展到更大的图像。然而,可行的ARM训练所需的高压缩率引入了数十亿可训练参数[23, 64],限制了这种方法的总体性能,而较少的压缩会带来高计算成本。
我们的工作避免了这种权衡,因为我们提出的LDMs对更高维度的潜在空间具有更温和的缩放特性,这是由于它们的卷积骨干。
因此,我们可以自由选择适当的压缩水平,以在学习强大的第一阶段的同时,不过度将感知压缩留给生成扩散模型,同时保证高保真度的重建(见图1)。
虽然存在同时学习编码/解码模型和基于分数的先验的方法[90],但它们仍然需要在重建和生成能力之间进行困难的权衡,并且在性能上被我们的方法(第4节)超越。
3方法
为了降低训练扩散模型以实现高分辨率图像合成的计算需求,
我们观察到,尽管扩散模型允许通过对应的损失项进行欠采样来忽略感知上无关紧要的细节[29],
但它们仍然需要在像素空间中进行昂贵的函数评估,这导致了计算时间和能源资源的巨大需求。
我们提出通过引入压缩和生成学习阶段的显式分离(见图2)来规避这一缺点。为了实现这一点,我们利用一个自动编码模型,它学习了一个在感知上等价于图像空间的空间,但提供了显著降低的计算复杂度。
这种方法具有几个优点:
(i) 离开高维图像空间,我们获得的 DMs 在计算上更加高效,因为采样是在低维空间中进行的。
(ii) 我们利用了从 UNet 架构[69]继承的 DMs 的归纳偏差,这使它们对具有空间结构的数据特别有效,因此减轻了以前方法所需的激进的、降低质量的压缩水平的需求[23, 64]。
(iii) 最后,我们获得了通用的压缩模型,其潜在空间可以用来训练多个生成模型,并且也可以用于其他下游应用,比如单图像 CLIP 引导的合成[25]。
3.1. 感知图像压缩
我们的感知压缩模型基于之前的工作[23],由一个自动编码器组成,通过感知损失[102]和基于块的对抗目标[32]的组合进行训练[20, 23, 99]。
这确保了重建图像局限于图像流形,通过强制局部真实性,并避免了仅依赖像素空间损失(如L2或L1目标)引入的模糊性。
更具体地说,给定一个在RGB空间中的图像 x ∈ RH×W×3,编码器 E 将 x 编码成潜在表示 z = E(x),解码器 D 从潜在中重建图像,给出 x ̃ = D(z) = D(E(x)),其中 z ∈ Rh×w×c。
重要的是,编码器通过因子 f = H/h = W/w 对图像进行下采样,我们研究了不同的下采样因子 f = 2m,其中 m ∈ N。
为了避免任意高方差的潜在空间,我们尝试了两种不同类型的正则化。
第一种变体,KL-reg.,对学习的潜在空间施加了轻微的KL惩罚,朝向标准正态,类似于VAE [45, 67],而VQ-reg. 在解码器内部使用了向量量化层 [93]。这个模型可以解释为一个VQGAN [23],但量化层被解码器吸收了。因为我们后续的 DM 设计为与我们学习到的潜在空间 z = E(x) 的二维结构一起工作,所以我们可以使用相对温和的压缩率,并实现非常好的重建。这与之前的工作[23, 64]形成了对比,后者依赖于学习空间 z 的任意一维排序来自回归地建模其分布,从而忽略了 z 的许多固有结构。因此,我们的压缩模型更好地保留了 x 的细节(见 Tab. 8)。完整的目标函数和训练细节可以在补充材料中找到。
3.2. 潜在扩散模型
扩散模型[79]是设计用于逐渐去噪一个正态分布变量以学习数据分布 p(x) 的概率模型,
它对应于学习长度为 T 的固定马尔可夫链的逆过程。
对于图像合成,最成功的模型[15,29,70]依赖于 p(x) 的变分下界的重新加权变体,这反映了去噪评分匹配[82]。这些模型可以解释为一系列等权重的去噪自编码器 ǫθ(xt,t); t = 1...T,它们被训练来预测它们的输入 xt 的去噪变体,其中 xt 是输入 x 的带噪版本。对应的目标可以简化为(见附录 A)
其中 t 均匀采样自 {1, . . . , T }。
利用我们训练好的由 E 和 D 组成的感知压缩模型,我们现在可以访问一个高效的、低维的潜在空间,其中高频的、不可察觉的细节被抽象化了。
与高维像素空间相比,这个空间更适合基于似然的生成模型,因为它们现在可以 (i) 关注数据的重要语义位和 (ii) 在一个更低维度的、计算效率更高的空间中进行训练。
与之前依赖于在高度压缩的、离散的潜在空间中的自回归、基于注意力的变换器模型的工作不同[23, 64, 99],我们可以利用我们的模型提供的图像特定归纳偏差。这包括使用 2D 卷积层主要构建底层 UNet,并进一步通过重新加权的下界将目标聚焦在感知上最相关的位上,现在的形式为
我们模型的神经骨干 ǫθ(◦, t) 实现为一个时间条件的 UNet [69]。由于前向过程是固定的,在训练期间可以有效地从 E 中获取 zt,并且可以通过单次通过 D 将 p(z) 的样本解码到图像空间。
3.3. 条件机制
类似于其他类型的生成模型[55, 80],扩散模型原则上能够建模形式为 p(z|y) 的条件分布。这可以通过条件去噪自编码器 ǫθ(zt,t,y) 实现,并为通过输入 y 控制合成过程铺平了道路,例如文本[66]、语义地图[32, 59]或其他图像到图像的翻译任务[33]。
然而,在图像合成的背景下,将 DMs 的生成能力与除了类标签[15]或输入图像的模糊变体[70]之外的其他类型的条件结合起来,目前还是一个尚未充分探索的研究领域。
我们通过使用交叉注意力机制 [94]将 DMs 转变为更灵活的条件图像生成器,这对于学习各种输入模态的基于注意力的模型是有效的[34,35]。为了预处理来自各种模态(如语言提示)的 y,我们引入了一个领域特定的编码器 τθ,将 y 投影到一个中间表示 τθ (y) ∈ RM ×dτ,然后通过一个交叉注意力层实现将其映射到 UNet 的中间层,该层实现为
图3。更通用的交叉注意力机制。见第3.3节。
基于图像条件对,我们通过以下方式学习条件 LDM:
其中 τθ 和 ǫθ 通过公式 3 联合优化。这种条件机制很灵活,因为当 y 是文本提示时,τθ 可以被参数化为领域特定的专家,例如(未遮罩的)变换器[94](见第 4.3.1 节)。
图4. LDM 在 CelebAHQ、FFHQ、LSUN-Churches、LSUN-Bedrooms 和类别条件 ImageNet 上训练的样本,每个样本分辨率为 256 × 256。在放大后查看效果更佳。更多样本请参阅补充材料。
4实验
LDM 提供了一种灵活且计算可行的基于扩散的图像合成方法,还包括各种图像模态的高分辨率生成,我们将在接下来的实验中通过实证来展示这一点。然而,首先,我们分析了我们的模型与基于像素的扩散模型在训练和推断中的优势。有趣的是,我们发现在 VQ 正则化的潜在空间中训练的 LDM 达到了更好的样本质量,即使 VQ 正则化的第一阶段模型的重构能力略低于其连续对应模型,见表 8。因此,除非另有说明,我们在本文的其余部分中评估 VQ 正则化的 LDM。有关第一阶段正则化方案对 LDM 训练效果以及它们对高于 256×256 分辨率的泛化能力的视觉比较可在附录 C.1 中找到。在 D.2 中,我们还列出了本节中呈现的所有结果的体系结构、实现、训练和评估细节。
4.1. 关于感知压缩的权衡
本节分析了我们的 LDM 在不同下采样因子 f ∈ {1, 2, 4, 8, 16, 32}(简写为 LDM-f,其中 LDM-1 对应于基于像素的 DM)下的行为。为了获得可比较的测试场景,我们将计算资源固定为一台 NVIDIA A100,并且在本节的所有实验中,所有模型都经过相同数量的步骤和相同数量的参数进行训练。
表 8 显示了用于比较本节中的 LDM 的第一阶段模型的超参数和重构性能。图 5 显示了在 ImageNet 数据集上进行 2M 步类别条件模型训练的训练进展情况。我们发现,i)对于 LDM-{1,2},较小的下采样因子导致训练进展缓慢,而 ii)过大的 f 值导致在相对较少的训练步骤之后保持稳定的保真度。通过重新审视以上分析(图 1 和 2),我们将这归因于 i)将大部分感知压缩留给了扩散模型和 ii)过强的第一阶段压缩导致信息丢失,从而限制了可实现的质量。LDM-{4-16} 在效率和感知上保真结果之间取得了良好的平衡,在 2M 训练步骤后,像素级扩散(LDM-1)与 LDM-8 之间存在着 38 的显著 FID [28] 差距。
在图 6 中,我们比较了在 CelebA-HQ [38] 和 ImageNet 上训练的模型在不同去噪步数下的采样速度,并将其与 FID 分数 [28] 进行了对比。LDM-{4-8} 超越了感知和概念压缩比例不合适的模型。特别是与基于像素的 LDM-1 相比,它们在同时显著提高样本吞吐量的同时实现了更低的 FID 分数。像 ImageNet 这样复杂的数据集需要降低压缩率以避免降低质量。总而言之,我们观察到 LDM-4 和 -8 处于实现高质量合成结果的最佳行为区间。
Figure 5. 分析在 ImageNet 数据集上进行的不同下采样因子 f 的类别条件 LDM 的训练,训练步骤为 2M。与具有较大下采样因子的模型相比(LDM-{4-16}),基于像素的 LDM-1 需要更长的训练时间。太多的感知压缩(如 LDM-32)限制了整体样本质量。所有模型都在单个 NVIDIA A100 上使用相同的计算预算进行训练。使用 100 个 DDIM 步骤[81] 和 κ = 0 获取的结果。
Figure 6. 展示了在 CelebA-HQ(左侧)和 ImageNet(右侧)数据集上训练的具有不同压缩量的 LDM。不同的标记表示使用 DDIM 采样器进行的 {10,20,50,100,200} 个采样步骤,沿每条线从右到左进行计数。虚线显示了 200 步的 FID 分数,表明与具有不同压缩比的模型相比,LDM-{4-8} 的性能更强。FID 分数是在 5000 个样本上评估的。所有模型都在 A100 上进行了 500k(CelebA)/ 2M(ImageNet)步的训练。
表1. 无条件图像合成的评估指标。CelebA-HQ结果重现自[42, 61, 96],FFHQ结果来自[41, 42]。†:N-s指的是使用DDIM [81]采样器进行N次采样步骤。∗:在KL正则化的潜空间中进行训练。额外的结果可以在补充资料中找到。
表2. 在MS-COCO [50]数据集上的表现:我们的模型在使用250个DDIM [81]步骤时,明显优于自回归 [17, 64] 和基于GAN的 [105] 方法。†:数字取自[105]。∗:无分类器指导 [31],缩放比例1.5。
4.2. 潜在扩散图像生成
我们在CelebA-HQ [38]、FFHQ [40]、LSUN-Churches和LSUN-Bedrooms [98]数据集上训练了256×256像素的无条件模型,并评估了样本质量和它们对数据流形的覆盖度,使用了FID [28]和Precision-and-Recall [49]。表1总结了我们的结果。在CelebA-HQ上,我们报告了一个新的FID最佳值为5.11,优于以前的基于可能性的模型以及GAN。我们还优于LSGM [90],在该模型中,潜在扩散模型与第一阶段联合训练。相比之下,我们在一个固定的空间中训练扩散模型,并且避免了在重建质量与学习潜在空间上的先验之间进行权衡的困难,参见图1-2。
我们在所有数据集上优于先前的基于扩散的方法,但在LSUN-Bedrooms数据集上,我们的得分接近ADM [15],尽管我们只使用了一半的参数并且需要4倍少的训练资源(见附录D.3.5)。此外,LDM在精度和召回率上始终优于基于GAN的方法,从而确认了其模式覆盖的基于可能性的训练目标相对于对抗方法的优势。在图4中,我们还展示了每个数据集上的定性结果。
Figure 7. 顶部:我们在COCO数据集上进行的布局到图像合成的LDM样本。在补充资料中进行定量评估。底部:我们的文本到图像LDM模型根据用户定义的文本提示生成的样本,在LAION-400M数据集上进行了训练。
4.3. 条件潜在扩散 4.3.1 用于 LDM 的 Transformer 编码器
通过将基于交叉注意力的条件引入到 LDM 中,我们为以前未被扩散模型探索的各种条件模态打开了大门。对于文本到图像建模,我们在 LAION-400M 上对语言提示进行了条件化,使用了 1.45B 参数模型进行训练。我们采用 BERT 分词器并将 τθ 实现为一个 transformer,以推断出一个潜在代码,然后通过交叉注意力将其映射到 UNet 中(见第 3.3 节)。这种领域专家的组合用于学习语言表示和视觉合成,结果产生了一个强大的模型,能够很好地泛化到复杂的、用户定义的文本提示,见图 7 和 14。对于定量分析,我们遵循先前的工作,在 MS-COCO 验证集上评估文本到图像生成,其中我们的模型在强大的 AR 和基于 GAN 的方法上有所改进,见表 2。我们注意到,应用无分类器的扩散引导方法显著提高了样本质量。为了进一步分析基于交叉注意力的条件机制的灵活性,我们还训练了模型以基于 OpenImages 的语义布局合成图像,并在 COCO 上进行了微调,见图 7。有关定量评估和实现细节,请参阅第 C.4 节。
最后,按照先前的工作[3, 15, 21, 23],我们在表 3、图 4 和第 C.5 节中评估了我们在第 4.1 节中表现最佳的类条件 ImageNet 模型,其中 f ∈ {4,8}。在这里,我们胜过了现有技术的扩散模型 ADM [15],同时显著降低了计算需求和参数数量,参见表 18。
Table 3. 类条件 ImageNet LDM 与 ImageNet [12] 数据集上最近的类条件图像生成的现有技术方法的比较。更详细的比较与额外的基线可以在 C.5、表 10 和 E 中找到。
4.3.2 卷积采样超过 256 × 256
通过将空间对齐的条件信息连接到 ǫθ 的输入,LDMs 可以作为高效的通用图像到图像转换模型。我们利用这一点来训练用于语义合成、超分辨率(第 4.4 节)和修复(第 4.5 节)的模型。对于语义合成,我们使用与语义地图配对的景观图像 [23, 59],并将语义地图的下采样版本与 f = 4 模型的潜在图像表示(VQ-reg.,见表 8)连接起来。我们在 256 × 256 的输入分辨率上进行训练(从 384 × 384 的裁剪中提取),但发现我们的模型可以推广到更大的分辨率,并且可以在卷积方式下生成高达百万像素的图像(请参见图 8)。我们利用这种行为来将第 4.4 节中的超分辨率模型和第 4.5 节中的修复模型应用于生成 5122 到 10242 之间的大尺寸图像。对于此应用程序,信噪比(由潜在空间的规模引起)显着影响结果。在 C.1 节中,我们说明了在学习 f = 4 模型(KL-reg.,见表 8 提供的潜在空间)和按分量标准差缩放的重新缩放版本上的 LDM 时的情况。
Figure 8.更大的分辨率(此处为 512 × 1024),用于空间条件任务,如景观图像的语义合成。请参阅第 4.3.2 节。
Figure 9.
在 ImageNet-Val 上进行的 ImageNet 64→256 超分辨率。LDM-SR 在渲染真实纹理方面具有优势,但 SR3 可以合成更连贯的细微结构。请参阅附录获取更多样本和裁剪图。SR3 的结果来自 [70]。
4.4. 使用潜在扩散进行超分辨率
LDMs 可以通过直接对低分辨率图像进行条件化来高效地进行超分辨率训练(参见第 3.3 节)。在第一个实验中,我们遵循 SR3 [70] 的方法,并将图像降级固定为 4× 下采样的双三次插值,并在 ImageNet 上进行训练,遵循 SR3 的数据处理流程。我们使用在 OpenImages 上预训练的 f = 4 自动编码模型(VQ-reg.,参见表 8),将低分辨率的条件 y 与 UNet 的输入进行连接,即 τθ 是恒等映射。我们的定性和定量结果(见图 9 和表 4)显示了竞争性的表现,LDM-SR 在 FID 方面优于 SR3,而 SR3 在 IS 方面表现更好。简单的图像回归模型实现了最高的 PSNR 和 SSIM 分数;但是这些指标与人类感知 [102] 不一致,并且更倾向于模糊度而不是高频细节的不完美对齐 [70]。此外,我们进行了一项用户研究,比较了基于像素和 LDM-SR。我们遵循 SR3 [70] 的做法,其中向人类受试者展示了两张高分辨率图像之间的低分辨率图像,并询问其偏好。表 5 中的结果证实了 LDM-SR 的良好性能。PSNR 和 SSIM 可以通过使用后续引导机制 [15] 来提高,我们通过感知损失实现了这种基于图像的引导器,参见第 C.7 节。由于双三次降级过程无法很好地推广到不遵循此预处理的图像,因此我们还训练了一个通用模型 LDM-BSR,通过使用更多样化的降级。结果显示在第 C.7.1 节中。
表4。 4倍放大结果 在验证集上计算的特征,†: FID 特征在训练集上计算;∗: 在 NVIDIA A100 上评估
4.5. 用潜在扩散进行修复
修复是将图像的受损区域用新内容填充的任务,可能是因为图像的部分被损坏了,或者为了替换图像中已存在但不需要的内容。我们评估我们的一般条件图像生成方法与这一任务的更专业、最新的方法相比的效果。我们的评估遵循了最近一种修复模型 LaMa [85] 的协议,该模型引入了一种依赖于快速傅里叶卷积 [8] 的专门架构。我们在 Places [104] 数据集上描述了精确的训练和评估协议,具体细节请参见第 D.2.2 节。
首先,我们分析了对第一阶段不同设计选择的影响。我们比较了像素级条件 DM(即 LDM-1)与 LDM-4(针对 KL 和 VQ 正则化)的修复效率,以及在第一阶段没有任何注意力的 VQ-LDM-4(参见 Tab. 8),后者减少了高分辨率解码时的 GPU 内存。为了可比性,我们固定了所有模型的参数数量。表 6 报告了分辨率为 2562 和 5122 时的训练和采样吞吐量,每个周期的总训练时间(以小时计)以及经过六个周期后验证集上的 FID 分数。总体上,我们观察到像素级和基于潜在的扩散模型之间的速度提升至少为 2.7 倍,同时 FID 分数提高了至少 1.6 倍。
在表 7 中与其他修复方法的比较显示,我们带有注意力的模型改善了整体图像质量,即 FID 比 [85] 更低。我们的样本与未掩蔽图像之间的 LPIPS 稍高于 [85] 的值。我们将这归因于 [85] 只生成了一个结果,倾向于恢复更多的平均图像,而不是我们的 LDM 生成的多样化结果(参见图 20)。此外,在用户研究中(表 5),被试更喜欢我们的结果而不是 [85] 的结果。
基于这些初步结果,我们还在具有 VQ 正则化的第一阶段的潜在空间中训练了一个更大的扩散模型(在表 7 中标为大模型)。根据 [15] 的方法,该扩散模型的 UNet 在其特征层次结构的三个级别上使用注意力层,采用 BigGAN [3] 的残差块进行上采样和下采样,并且参数数量为 387M,而不是 215M。训练后,我们注意到在分辨率为 2562 和 5122 时生成的样本质量存在差异,我们假设这是由额外的注意力模块引起的。然而,对模型进行半个周期的 5122 分辨率微调使模型能够适应新的特征统计数据,并在图像修复方面取得了新的 FID 最佳性能(在表 7 的大模型,没有注意力,有微调,图 10 中显示)。
表 5. 任务 1:被试观看真实图像和生成图像,并被要求表达偏好。任务 2:被试必须在两幅生成图像之间作出选择。更多详细信息请参见 D.3.6 节。
表 6. 评估修复效率。†:由于 GPU 设置 / 批量大小的变化,与图 6 的偏差,请参阅补充材料。
表 7. 在大小为 512 × 512 的 30k 个来自 Places [104] 测试图像的裁剪上比较修复性能。列 40-50% 报告了在需要修复 40-50% 图像区域的困难示例上计算的指标。† 在我们的测试集上重新计算,因为 [85] 中使用的原始测试集不可用。
结论:我们提出了潜在扩散模型,这是一种简单而有效的方法,可以显著提高去噪扩散模型的训练和采样效率,而不会降低其质量。基于此以及我们的交叉注意力调节机制,我们的实验证明,在不需要特定任务体系结构的情况下,与最先进的方法相比,在各种条件图像合成任务中取得了有利的结果。
本研究得到了德国经济和能源部的支持,该部门在KI-Absicherung - 自动驾驶安全AI项目中提供支持,并得到了德国研究基金会(DFG)项目421703927的支持。
References
- [1] Eirikur Agustsson and Radu Timofte. NTIRE 2017 chal- lenge on single image super-resolution: Dataset and study. In 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops, CVPR Workshops 2017, Honolulu, HI, USA, July 21-26, 2017, pages 1122–1131. IEEE Com- puter Society, 2017. 1
- [2] Martin Arjovsky, Soumith Chintala, and Lon Bottou. Wasserstein gan, 2017. 3
- [3] Andrew Brock, Jeff Donahue, and Karen Simonyan. Large scale GAN training for high fidelity natural image synthe- sis. In Int. Conf. Learn. Represent., 2019. 1, 2, 6, 7, 8, 19, 26
- [4] Holger Caesar, Jasper R. R. Uijlings, and Vittorio Ferrari. Coco-stuff: Thing and stuff classes in context. In 2018 IEEE Conference on Computer Vision and Pattern Recog- nition, CVPR 2018, Salt Lake City, UT, USA, June 18- 22, 2018, pages 1209–1218. Computer Vision Foundation / IEEE Computer Society, 2018. 6, 17, 18
- [5] Nicholas Carlini, Florian Tramer, Eric Wallace, Matthew Jagielski, Ariel Herbert-Voss, Katherine Lee, Adam Roberts, Tom Brown, Dawn Song, Ulfar Erlingsson, et al. Extracting training data from large language models. In 30th USENIX Security Symposium (USENIX Security 21), pages 2633–2650, 2021. 27
- [6] Mark Chen, Alec Radford, Rewon Child, Jeffrey Wu, Hee- woo Jun, David Luan, and Ilya Sutskever. Generative pre- training from pixels. In ICML, volume 119 of Proceedings of Machine Learning Research, pages 1691–1703. PMLR, 2020. 3
- [7] Nanxin Chen, Yu Zhang, Heiga Zen, Ron J. Weiss, Mo- hammad Norouzi, and William Chan. Wavegrad: Estimat- ing gradients for waveform generation. In ICLR. OpenRe- view.net, 2021. 1
- [8] Lu Chi, Borui Jiang, and Yadong Mu. Fast fourier convolu- tion. In NeurIPS, 2020. 8
- [9] Rewon Child. Very deep vaes generalize autoregressive models and can outperform them on images. CoRR, abs/2011.10650, 2020. 3
- [10] Rewon Child, Scott Gray, Alec Radford, and Ilya Sutskever. Generating long sequences with sparse transformers. CoRR, abs/1904.10509, 2019. 3
- [11] Bin Dai and David P. Wipf. Diagnosing and enhancing VAE models. In ICLR (Poster). OpenReview.net, 2019. 2, 3
- [12] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Fei-Fei Li. Imagenet: A large-scale hierarchical im- age database. In CVPR, pages 248–255. IEEE Computer Society, 2009. 1, 5, 7, 19
- [13] Emily Denton. Ethical considerations of generative ai. AI for Content Creation Workshop, CVPR, 2021. 27
- [14] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: pre-training of deep bidirec- tional transformers for language understanding. CoRR, abs/1810.04805, 2018. 6
- [15] Prafulla Dhariwal and Alex Nichol. Diffusion models beat gans on image synthesis. CoRR, abs/2105.05233, 2021. 1, 2,3,4,6,7,8,15,19,23,24,26
[16] Sander Dieleman. Musings on typicality, 2020. 1, 3
[17] Ming Ding, Zhuoyi Yang, Wenyi Hong, Wendi Zheng, Chang Zhou, Da Yin, Junyang Lin, Xu Zou, Zhou Shao, Hongxia Yang, and Jie Tang. Cogview: Mastering text-to- image generation via transformers. CoRR, abs/2105.13290,
2021. 6
[18] Laurent Dinh, David Krueger, and Yoshua Bengio. Nice:
Non-linear independent components estimation, 2015. 3 [19] Laurent Dinh, Jascha Sohl-Dickstein, and Samy Ben- gio. Density estimation using real NVP. In 5th Inter- national Conference on Learning Representations, ICLR 2017, Toulon, France, April 24-26, 2017, Conference Track
Proceedings. OpenReview.net, 2017. 1, 3
[20] Alexey Dosovitskiy and Thomas Brox. Generating images
with perceptual similarity metrics based on deep networks. In Daniel D. Lee, Masashi Sugiyama, Ulrike von Luxburg, Isabelle Guyon, and Roman Garnett, editors, Adv. Neural Inform. Process. Syst., pages 658–666, 2016. 3
[21] Patrick Esser, Robin Rombach, Andreas Blattmann, and Bjo ̈rn Ommer. Imagebart: Bidirectional context with multi- nomial diffusion for autoregressive image synthesis. CoRR, abs/2108.08827, 2021. 6, 19
[22] Patrick Esser, Robin Rombach, and Bjo ̈rn Ommer. A note on data biases in generative models. arXiv preprint arXiv:2012.02516, 2020. 27
[23] Patrick Esser, Robin Rombach, and Bjo ̈rn Ommer. Taming transformers for high-resolution image synthesis. CoRR, abs/2012.09841, 2020. 2, 3, 4, 6, 7, 18, 19, 27, 32, 34
[24] Mary Anne Franks and Ari Ezra Waldman. Sex, lies, and videotape: Deep fakes and free speech delusions. Md. L. Rev., 78:892, 2018. 27
[25] KevinFrans,LisaB.Soros,andOlafWitkowski.Clipdraw: Exploring text-to-drawing synthesis through language- image encoders. ArXiv, abs/2106.14843, 2021. 3
[26] Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron C. Courville, and Yoshua Bengio. Generative adversarial networks. CoRR, 2014. 1, 2
[27] Ishaan Gulrajani, Faruk Ahmed, Martin Arjovsky, Vincent Dumoulin, and Aaron Courville. Improved training of wasserstein gans, 2017. 3
[28] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equi- librium. In Adv. Neural Inform. Process. Syst., pages 6626– 6637, 2017. 1, 6, 24
[29] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising dif- fusion probabilistic models. In NeurIPS, 2020. 1, 2, 3, 4, 6, 14
[30] Jonathan Ho, Chitwan Saharia, William Chan, David J. Fleet, Mohammad Norouzi, and Tim Salimans. Cascaded diffusion models for high fidelity image generation. CoRR, abs/2106.15282, 2021. 1, 3, 19
[31] Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. In NeurIPS 2021 Workshop on Deep Generative Models and Downstream Applications, 2021. 6, 7, 19, 26, 35, 36
- [32] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A. Efros. Image-to-image translation with conditional adver- sarial networks. In CVPR, pages 5967–5976. IEEE Com- puter Society, 2017. 3, 4
- [33] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A. Efros. Image-to-image translation with conditional adver- sarial networks. 2017 IEEE Conference on Computer Vi- sion and Pattern Recognition (CVPR), pages 5967–5976, 2017. 4
- [34] Andrew Jaegle, Sebastian Borgeaud, Jean-Baptiste Alayrac, Carl Doersch, Catalin Ionescu, David Ding, Skanda Koppula, Daniel Zoran, Andrew Brock, Evan Shelhamer, Olivier J. He ́naff, Matthew M. Botvinick, Andrew Zisserman, Oriol Vinyals, and Joa ̃o Carreira. Perceiver IO: A general architecture for structured inputs &outputs. CoRR, abs/2107.14795, 2021. 4
- [35] Andrew Jaegle, Felix Gimeno, Andy Brock, Oriol Vinyals, Andrew Zisserman, and Joa ̃o Carreira. Perceiver: General perception with iterative attention. In Marina Meila and Tong Zhang, editors, Proceedings of the 38th International Conference on Machine Learning, ICML 2021, 18-24 July 2021, Virtual Event, volume 139 of Proceedings of Machine Learning Research, pages 4651–4664. PMLR, 2021. 4
- [36] Manuel Jahn, Robin Rombach, and Bjo ̈rn Ommer. High- resolution complex scene synthesis with transformers. CoRR, abs/2105.06458, 2021. 17, 18, 25
- [37] Niharika Jain, Alberto Olmo, Sailik Sengupta, Lydia Manikonda, and Subbarao Kambhampati. Imperfect ima- ganation: Implications of gans exacerbating biases on fa- cial data augmentation and snapchat selfie lenses. arXiv preprint arXiv:2001.09528, 2020. 27
- [38] Tero Karras, Timo Aila, Samuli Laine, and Jaakko Lehti- nen. Progressive growing of gans for improved quality, sta- bility, and variation. CoRR, abs/1710.10196, 2017. 5, 6
- [39] Tero Karras, Samuli Laine, and Timo Aila. A style-based generator architecture for generative adversarial networks. In IEEE Conf. Comput. Vis. Pattern Recog., pages 4401– 4410, 2019. 1
- [40] T. Karras, S. Laine, and T. Aila. A style-based gener- ator architecture for generative adversarial networks. In 2019 IEEE/CVF Conference on Computer Vision and Pat- tern Recognition (CVPR), 2019. 5, 6
- [41] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, and Timo Aila. Analyzing and improv- ing the image quality of stylegan. CoRR, abs/1912.04958, 2019. 2, 6, 26
- [42] Dongjun Kim, Seungjae Shin, Kyungwoo Song, Wanmo Kang, and Il-Chul Moon. Score matching model for un- bounded data score. CoRR, abs/2106.05527, 2021. 6
- [43] Durk P Kingma and Prafulla Dhariwal. Glow: Generative flow with invertible 1x1 convolutions. In S. Bengio, H. Wal- lach, H. Larochelle, K. Grauman, N. Cesa-Bianchi, and R. Garnett, editors, Advances in Neural Information Process- ing Systems, 2018. 3
- [44] Diederik P. Kingma, Tim Salimans, Ben Poole, and Jonathan Ho. Variational diffusion models. CoRR, abs/2107.00630, 2021. 1, 3, 14
[45] Diederik P. Kingma and Max Welling. Auto-Encoding Vari- ational Bayes. In 2nd International Conference on Learn- ing Representations, ICLR, 2014. 1, 3, 4, 27
[46] Zhifeng Kong and Wei Ping. On fast sampling of diffusion probabilistic models. CoRR, abs/2106.00132, 2021. 3
[47] Zhifeng Kong, Wei Ping, Jiaji Huang, Kexin Zhao, and
Bryan Catanzaro. Diffwave: A versatile diffusion model
for audio synthesis. In ICLR. OpenReview.net, 2021. 1 [48] Alina Kuznetsova, Hassan Rom, Neil Alldrin, Jasper R. R. Uijlings, Ivan Krasin, Jordi Pont-Tuset, Shahab Kamali, Stefan Popov, Matteo Malloci, Tom Duerig, and Vittorio Ferrari. The open images dataset V4: unified image classi- fication, object detection, and visual relationship detection
at scale. CoRR, abs/1811.00982, 2018. 6, 17, 18
[49] Tuomas Kynka ̈a ̈nniemi, Tero Karras, Samuli Laine, Jaakko Lehtinen, and Timo Aila. Improved precision and re- call metric for assessing generative models. CoRR,
abs/1904.06991, 2019. 6, 24
[50] Tsung-Yi Lin, Michael Maire, Serge J. Belongie,
Lubomir D. Bourdev, Ross B. Girshick, James Hays, Pietro Perona, Deva Ramanan, Piotr Dolla ́r, and C. Lawrence Zit- nick. Microsoft COCO: common objects in context. CoRR, abs/1405.0312, 2014. 6, 25
[51] Yuqing Ma, Xianglong Liu, Shihao Bai, Le-Yi Wang, Ais- han Liu, Dacheng Tao, and Edwin Hancock. Region-wise generative adversarial imageinpainting for large missing ar- eas. ArXiv, abs/1909.12507, 2019. 8
[52] Chenlin Meng, Yang Song, Jiaming Song, Jiajun Wu, Jun- Yan Zhu, and Stefano Ermon. Sdedit: Image synthesis and editing with stochastic differential equations. CoRR, abs/2108.01073, 2021. 1
[53] LarsM.Mescheder.OntheconvergencepropertiesofGAN training. CoRR, abs/1801.04406, 2018. 3
[54] Luke Metz, Ben Poole, David Pfau, and Jascha Sohl- Dickstein. Unrolled generative adversarial networks. In 5th International Conference on Learning Representations, ICLR 2017, Toulon, France, April 24-26, 2017, Conference Track Proceedings. OpenReview.net, 2017. 3
[55] Mehdi Mirza and Simon Osindero. Conditional generative adversarial nets. CoRR, abs/1411.1784, 2014. 4
[56] Gautam Mittal, Jesse H. Engel, Curtis Hawthorne, and Ian Simon. Symbolic music generation with diffusion models. CoRR, abs/2103.16091, 2021. 1
[57] Kamyar Nazeri, Eric Ng, Tony Joseph, Faisal Z. Qureshi, and Mehran Ebrahimi. Edgeconnect: Generative im- age inpainting with adversarial edge learning. ArXiv, abs/1901.00212, 2019. 8
[58] Anton Obukhov, Maximilian Seitzer, Po-Wei Wu, Se- men Zhydenko, Jonathan Kyl, and Elvis Yu-Jing Lin. High-fidelity performance metrics for generative models in pytorch, 2020. Version: 0.3.0, DOI: 10.5281/zen- odo.4957738. 24, 25
[59] Taesung Park, Ming-Yu Liu, Ting-Chun Wang, and Jun- Yan Zhu. Semantic image synthesis with spatially-adaptive normalization. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019. 4, 7
- [60] Taesung Park, Ming-Yu Liu, Ting-Chun Wang, and Jun- Yan Zhu. Semantic image synthesis with spatially-adaptive normalization. In Proceedings of the IEEE/CVF Confer- ence on Computer Vision and Pattern Recognition (CVPR), June 2019. 18
- [61] Gaurav Parmar, Dacheng Li, Kwonjoon Lee, and Zhuowen Tu. Dual contradistinctive generative autoencoder. In IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2021, virtual, June 19-25, 2021, pages 823–832. Computer Vision Foundation / IEEE, 2021. 6
- [62] Gaurav Parmar, Richard Zhang, and Jun-Yan Zhu. On buggy resizing libraries and surprising subtleties in fid cal- culation. arXiv preprint arXiv:2104.11222, 2021. 24
- [63] David A. Patterson, Joseph Gonzalez, Quoc V. Le, Chen Liang, Lluis-Miquel Munguia, Daniel Rothchild, David R. So, Maud Texier, and Jeff Dean. Carbon emissions and large neural network training. CoRR, abs/2104.10350, 2021. 2
- [64] Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, and Ilya Sutskever. Zero-shot text-to-image generation. CoRR, abs/2102.12092, 2021. 1, 2, 3, 4, 6, 18, 25
- [65] Ali Razavi, Aa ̈ron van den Oord, and Oriol Vinyals. Gen- erating diverse high-fidelity images with VQ-VAE-2. In NeurIPS, pages 14837–14847, 2019. 1, 2, 3, 19
- [66] ScottE.Reed,ZeynepAkata,XinchenYan,LajanugenLo- geswaran, Bernt Schiele, and Honglak Lee. Generative ad- versarial text to image synthesis. In ICML, 2016. 4
- [67] Danilo Jimenez Rezende, Shakir Mohamed, and Daan Wierstra. Stochastic backpropagation and approximate in- ference in deep generative models. In Proceedings of the 31st International Conference on International Conference on Machine Learning, ICML, 2014. 1, 4, 27
- [68] Robin Rombach, Patrick Esser, and Bjo ̈rn Ommer. Network-to-network translation with conditional invertible neural networks. In NeurIPS, 2020. 3
- [69] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U- net: Convolutional networks for biomedical image segmen- tation. In MICCAI (3), volume 9351 of Lecture Notes in Computer Science, pages 234–241. Springer, 2015. 2, 3, 4
- [70] Chitwan Saharia, Jonathan Ho, William Chan, Tim Sal- imans, David J. Fleet, and Mohammad Norouzi. Im- age super-resolution via iterative refinement. CoRR, abs/2104.07636, 2021. 1, 4, 7, 19, 20, 21, 25
- [71] Tim Salimans, Andrej Karpathy, Xi Chen, and Diederik P. Kingma. Pixelcnn++: Improving the pixelcnn with dis- cretized logistic mixture likelihood and other modifications. CoRR, abs/1701.05517, 2017. 1, 3
- [72] Dave Salvator. NVIDIA Developer Blog. https : / / developer . nvidia . com / blog / getting - immediate-speedups-with-a100-tf32, 2020. 26
[75] Edgar Scho ̈nfeld, Bernt Schiele, and Anna Khoreva. A u- net based discriminator for generative adversarial networks. In 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2020, Seattle, WA, USA, June 13-19, 2020, pages 8204–8213. Computer Vision Founda- tion / IEEE, 2020. 6
[76] Christoph Schuhmann, Richard Vencu, Romain Beaumont, Robert Kaczmarczyk, Clayton Mullis, Aarush Katta, Theo Coombes, Jenia Jitsev, and Aran Komatsuzaki. Laion- 400m: Open dataset of clip-filtered 400 million image-text pairs, 2021. 6
[77] Karen Simonyan and Andrew Zisserman. Very deep con- volutional networks for large-scale image recognition. In Yoshua Bengio and Yann LeCun, editors, Int. Conf. Learn. Represent., 2015. 27, 41, 42, 43
[78] Charlie Snell. Alien Dreams: An Emerging Art Scene.
https://ml.berkeley.edu/blog/posts/ clip-art/, 2021. [Online; accessed November-2021]. 2
[79] Jascha Sohl-Dickstein, Eric A. Weiss, Niru Mah- eswaranathan, and Surya Ganguli. Deep unsupervised learning using nonequilibrium thermodynamics. CoRR, abs/1503.03585, 2015. 1, 3, 4, 15
[80] Kihyuk Sohn, Honglak Lee, and Xinchen Yan. Learn- ing structured output representation using deep conditional generative models. In C. Cortes, N. Lawrence, D. Lee, M. Sugiyama, and R. Garnett, editors, Advances in Neural Information Processing Systems, volume 28. Curran Asso- ciates, Inc., 2015. 4
[81] Jiaming Song, Chenlin Meng, and Stefano Ermon. Denois- ing diffusion implicit models. In ICLR. OpenReview.net, 2021. 3, 5, 6, 20
[82] Yang Song, Jascha Sohl-Dickstein, Diederik P. Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole. Score- based generative modeling through stochastic differential equations. CoRR, abs/2011.13456, 2020. 1, 3, 4, 15
[83] Emma Strubell, Ananya Ganesh, and Andrew McCallum. Energy and policy considerations for modern deep learn- ing research. In The Thirty-Fourth AAAI Conference on Artificial Intelligence, AAAI 2020, The Thirty-Second In- novative Applications of Artificial Intelligence Conference, IAAI 2020, The Tenth AAAI Symposium on Educational Advances in Artificial Intelligence, EAAI 2020, New York, NY, USA, February 7-12, 2020, pages 13693–13696. AAAI Press, 2020. 2
[84] Wei Sun and Tianfu Wu. Learning layout and style re- configurable gans for controllable image synthesis. CoRR, abs/2003.11571, 2020. 18, 25
[85] Roman Suvorov, Elizaveta Logacheva, Anton Mashikhin, Anastasia Remizova, Arsenii Ashukha, Aleksei Silvestrov, Naejin Kong, Harshith Goka, Kiwoong Park, and Victor S. Lempitsky. Resolution-robust large mask inpainting with fourier convolutions. ArXiv, abs/2109.07161, 2021. 8, 24,
[73] Robin San-Roman, Eliya Nachmani, and Lior Wolf.
Noise estimation for generative diffusion models. CoRR, abs/2104.02600, 2021. 3 30
[74] Axel Sauer, Kashyap Chitta, Jens Mu ̈ller, and An- dreas Geiger. Projected gans converge faster. CoRR, abs/2111.01007, 2021. 6
[86] Tristan Sylvain, Pengchuan Zhang, Yoshua Bengio, R. De- von Hjelm, and Shikhar Sharma. Object-centric image gen- eration from layouts. In Thirty-Fifth AAAI Conference on
10694
Artificial Intelligence, AAAI 2021, Thirty-Third Conference on Innovative Applications of Artificial Intelligence, IAAI 2021, The Eleventh Symposium on Educational Advances in Artificial Intelligence, EAAI 2021, Virtual Event, Febru- ary 2-9, 2021, pages 2647–2655. AAAI Press, 2021. 17, 18, 25
- [87] Patrick Tinsley, Adam Czajka, and Patrick Flynn. This face does not exist... but it might be yours! identity leakage in generative models. In Proceedings of the IEEE/CVF Win- ter Conference on Applications of Computer Vision, pages 1320–1328, 2021. 27
- [88] Antonio Torralba and Alexei A Efros. Unbiased look at dataset bias. In CVPR 2011, pages 1521–1528. IEEE, 2011. 27
- [89] Arash Vahdat and Jan Kautz. NVAE: A deep hierarchical variational autoencoder. In NeurIPS, 2020. 3
[101]
[102]
[103]
gated convolution. 2019 IEEE/CVF International Confer- ence on Computer Vision (ICCV), pages 4470–4479, 2019. 8
K. Zhang, Jingyun Liang, Luc Van Gool, and Radu Timo- fte. Designing a practical degradation model for deep blind image super-resolution. ArXiv, abs/2103.14006, 2021. 21 Richard Zhang, Phillip Isola, Alexei A. Efros, Eli Shecht- man, and Oliver Wang. The unreasonable effectiveness of deep features as a perceptual metric. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recog- nition (CVPR), June 2018. 3, 7, 16
Shengyu Zhao, Jianwei Cui, Yilun Sheng, Yue Dong, Xiao Liang, Eric I-Chao Chang, and Yan Xu. Large scale image completion via co-modulated generative adversarial net- works. ArXiv, abs/2103.10428, 2021. 8
[90] Arash Vahdat, Karsten Kreis, and Jan Kautz. based generative modeling in latent space. abs/2106.05931, 2021. 2, 3, 6
Score- CoRR,
[104]BoleiZhou,A`gataLapedriza,AdityaKhosla,AudeOliva, and Antonio Torralba. Places: A 10 million image database for scene recognition. IEEE Transactions on Pattern Anal- ysis and Machine Intelligence, 40:1452–1464, 2018. 8, 24
[105] Yufan Zhou, Ruiyi Zhang, Changyou Chen, Chunyuan Li, Chris Tensmeyer, Tong Yu, Jiuxiang Gu, Jinhui Xu, and Tong Sun. LAFITE: towards language-free training for text-to-image generation. CoRR, abs/2111.13792, 2021. 6
- [91] Aaron van den Oord, Nal Kalchbrenner, Lasse Espeholt, koray kavukcuoglu, Oriol Vinyals, and Alex Graves. Con- ditional image generation with pixelcnn decoders. In Ad- vances in Neural Information Processing Systems, 2016. 3
- [92] Aa ̈ron van den Oord, Nal Kalchbrenner, and Koray Kavukcuoglu. Pixel recurrent neural networks. CoRR, abs/1601.06759, 2016. 3
- [93] Aa ̈ron van den Oord, Oriol Vinyals, and Koray Kavukcuoglu. Neural discrete representation learning. In NIPS, pages 6306–6315, 2017. 2, 4, 27
- [94] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NIPS, pages 5998–6008, 2017. 3, 4, 5, 6
- [95] Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chau- mond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, Re ́mi Louf, Morgan Funtowicz, and Jamie Brew. Huggingface’s transformers: State-of-the-art natural language processing. CoRR, abs/1910.03771, 2019. 24
- [96] Zhisheng Xiao, Karsten Kreis, Jan Kautz, and Arash Vah- dat. VAEBM: A symbiosis between variational autoen- coders and energy-based models. In 9th International Con- ference on Learning Representations, ICLR 2021, Virtual Event, Austria, May 3-7, 2021. OpenReview.net, 2021. 6
- [97] Wilson Yan, Yunzhi Zhang, Pieter Abbeel, and Aravind Srinivas. Videogpt: Video generation using VQ-VAE and transformers. CoRR, abs/2104.10157, 2021. 3
- [98] Fisher Yu, Yinda Zhang, Shuran Song, Ari Seff, and Jianx- iong Xiao. LSUN: construction of a large-scale image dataset using deep learning with humans in the loop. CoRR, abs/1506.03365, 2015. 5, 6
- [99] JiahuiYu,XinLi,JingYuKoh,HanZhang,RuomingPang, James Qin, Alexander Ku, Yuanzhong Xu, Jason Baldridge, and Yonghui Wu. Vector-quantized image modeling with improved vqgan, 2021. 3, 4
- [100] Jiahui Yu, Zhe L. Lin, Jimei Yang, Xiaohui Shen, Xin Lu, and Thomas S. Huang. Free-form image inpainting with