Stable Diffusion: High-Resolution Image Synthesis with Latent Diffusion Models

High-Resolution Image Synthesis with Latent Diffusion Models

Article: https://ieeexplore.ieee.org/document/9878449
code: https://mp.csdn.net/mp_blog/manage/traffic

在这里插入图片描述
图1所示。以较小的侵略性下采样来提高可实现的质量上限。由于扩散模型为空间数据提供了优秀的归纳偏差,不需要潜空间中相关生成模型的沉重空间下采样,但仍然可以通过合适的自编码模型大大降低数据的维度,参见第3节。图像来自DIV2K[1]验证集,在5122像素下进行评估。用f表示空间下采样因子,在ImageNet-val上计算重建的FIDs、[28]和PSNR[12];参见表8。

摘要

通过将图像形成过程分解为去噪自编码器的顺序应用,扩散模型(DMs)在图像数据等方面取得了最先进的合成结果。此外,它们的表述允许一个指导机制来控制图像生成过程,而无需重新训练。然而,由于这些模型通常直接在像素空间中操作,功能强大的DMs的优化通常会消耗数百个GPU天,并且由于顺序评估,推理成本很高。为了使DM在有限的计算资源上进行训练,同时保持其质量和灵活性,将它们应用于强大的预训练自编码器的潜空间中。与之前的工作相比,在这种表示上训练扩散模型首次允许在降低复杂性和保留细节之间达到一个近乎最佳的点,大大提高了视觉保真度。通过在模型架构中引入交叉注意力层,将扩散模型变成了强大而灵活的生成器,用于一般的条件输入,如文本或边界框,高分辨率合成以卷积方式成为可能。所提出的潜扩散模型(LDMs)在图像修复和类条件图像合成方面取得了新的技术水平分数,并在各种任务上具有高度竞争力的性能,包括无条件图像生成、文本到图像合成和超分辨率,同时与基于像素的DMs相比大大降低了计算需求。

1 引言

图像合成是计算机视觉领域中最近发展最惊人的领域之一,也是计算需求最大的领域之一。特别是复杂自然场景的高分辨率合成目前由基于似然的放大模型主导,在自回归(AR) transformer中可能包含数十亿参数[64,65]。相比之下,GANs的有希望的结果[3,26,39]已被揭示主要局限于可变性相对有限的数据,因为其对抗性学习过程不易扩展到对复杂的多模态分布建模。最近,由去噪自编码器层次构建的扩散模型[79],已经显示出在图像合成[29,82]和[7,44,47,56]中取得了令人印象深刻的结果,并在类条件图像合成[15,30]和超分辨率[70]中定义了最先进的技术。此外,与其他类型的生成模型相比,即使是无条件的DMs也可以很容易地应用于修复和着色[82]或基于笔画的合成[52]等任务[19,45,67]。作为基于似然的模型,它们不像GANs那样表现出模式崩溃和训练不稳定性,并且通过大量利用参数共享,它们可以对自然图像的高度复杂分布进行建模,而无需像AR模型那样涉及数十亿参数[65]。

大众化的高分辨率图像合成

DMs属于基于似然的模型类,其模式覆盖行为使它们容易花费过多的容量(计算资源)来建模数据的难以察觉的细节[16,71]。尽管重加权变分目标[29]旨在通过对初始去噪步骤进行欠采样来解决这个问题,但DMs仍然需要计算量,因为训练和评估这样的模型需要在RGB图像的高维空间中反复进行函数评估(和梯度计算)。例如,训练最强大的DMs通常需要数百个GPU天(例如在[15]中为150 -1000 V100天),在输入空间的有噪声版本上重复评估,渲染推理也很昂贵,因此在单个A100 GPU上产生50k样本大约需要5天[15]。这对研究界和一般用户有两个后果:首先,训练这样的模型需要大量的计算资源,只有该领域的一小部分可用,并留下巨大的碳足迹[63,83]。其次,评估一个已经训练好的模型在时间和内存上也很昂贵,因为相同的模型架构必须连续运行大量的步骤(例如[15]中的25-1000步)。

为了提高这个功能强大的模型类的可访问性,同时减少其显著的资源消耗,需要一种降低训练和采样计算复杂度的方法。因此,在不影响DMs性能的前提下降低其计算需求是提高其可访问性的关键。

隐空间偏离

该方法从分析像素空间中已经训练的扩散模型开始:图2显示了训练模型的率失真权衡。与任何基于似然度的模型一样,学习可以大致分为两个阶段:第一个是感知压缩阶段,它删除了高频细节,但仍然学习不到语义变化。在第二阶段,实际的生成模型学习数据的语义和概念组成(语义压缩)。因此,本文旨在首先找到一个感知上等效的,但计算上更适合的空间,在其中训练高分辨率图像合成的扩散模型。

图2。说明感知和语义压缩:数字图像的大多数比特对应于不易察觉的细节。虽然DMs允许通过最小化负责任的损失项来抑制这种语义上无意义的信息,但梯度(在训练期间)和神经网络主干(训练和推理)仍然需要在所有像素上进行评估,从而导致多余的计算和不必要的昂贵优化和推理。本文提出潜在扩散模型(LDMs),作为一种有效的生成模型和一个单独的轻度压缩阶段,只消除不可察觉的细节。来自[29]的数据和图像。

按照常见做法[11,23,64,65,93],将训练分为两个不同的阶段:首先,训练一个自动编码器,该编码器提供一个低维(从而有效)的表示空间,该空间在感知上与数据空间等效。重要的是,与之前的工作[23,64]相比,我们不需要依赖过度的空间压缩,因为我们在学习的潜空间中训练DMs,就空间维度而言,其表现出更好的缩放特性。降低的复杂性还提供了从潜空间中通过单一网络进行有效的图像生成。将由此产生的模型称为类潜扩散模型(LDMs)。

这种方法的一个显著优势是,我们只需要训练一次通用自编码阶段,因此可以将其用于多次DM训练或探索可能完全不同的任务[78]。这使得可以有效地探索各种图像到图像和文本到图像任务的大量扩散模型。对于后者,本文设计了一种架构,将transformer连接到DM的UNet主干[69],并实现任意类型的基于token的调节机制,请参见第3.3节。

总而言之,本文工作有以下贡献:
(i)与纯粹基于transformer的方法[23,64]相比,本文方法可以更优雅地扩展到更高维的数据,因此(a)在压缩水平上工作,比以前的工作提供更忠实和详细的重建(见图1),(b)可以有效地应用于百万像素图像的高分辨率合成。
(ii)在多个任务(无条件图像合成、修复、随机超分辨率)和数据集上实现了有竞争力的性能,同时显著降低了计算成本。与基于像素的扩散方法相比,还显著降低了推理成本。
(iii)表明,与之前同时学习编码器/解码器架构和基于分数的先验的工作[90]相比,所提出方法不需要对重建和生成能力进行微妙的加权。这确保了极其忠实的重建,并且只需要对潜空间进行很少的正则化。
对于超分辨率、修复和语义合成等密集条件任务,该模型可以以卷积方式应用,并渲染大而一致的图像~ 10242 px。
(v)设计了一种基于交叉注意力的通用条件作用机制,实现了多模态训练。我们用它来训练类条件、文本到图像和布局到图像的模型。
(vi)最后,在github上发布了预训练的潜扩散和自编码模型。除训练DMs外,还可用于各种任务[78]。

2 相关工作

图像合成的生成模型

图像的高维性对生成建模提出了明显的挑战。生成对抗网络(GAN)[26]允许对具有良好感知质量的高分辨率图像进行有效采样[3,41],但难以优化[2,27,53],并难以捕捉完整的数据分布[54]。相比之下,基于似然估计的方法强调良好的密度估计,这使得优化更加良好。变分自编码器(VAE)[45]和基于流的模型[18,19]能够有效地合成高分辨率图像[9,43,89],但样本质量与gan不一样。虽然自回归模型(ARM)[6,10,91,92]在密度估计方面取得了强大的性能,但对计算要求高的架构[94]和顺序采样过程限制了它们只能用于低分辨率图像。由于基于像素的图像表示包含几乎察觉不到的高频细节[16,71],最大似然训练在建模它们上花费了不成比例的容量,导致训练时间很长。为了扩展到更高的分辨率,几种两阶段方法[23,65,97,99]使用ARMs对压缩的潜在图像空间进行建模,而不是原始像素。

最近,扩散概率模型(DM)[79]在密度估计[44]和样本质量[15]方面取得了最先进的结果。当它们的基础神经骨干被实现为UNet[15, 29, 69, 82]时,这些模型的生成能力来自于对图像类数据归纳偏差的自然拟合。当使用重加权目标[29]进行训练时,通常可以获得最佳的合成质量。在这种情况下,DM对应于一个有损压缩器,允许以图像质量换取压缩能力。然而,在像素空间中评估和优化这些模型具有推理速度慢和训练成本高的缺点。虽然前者可以通过高级采样策略[46,73,81]和分层方法[30,90]来部分解决,但在高分辨率图像数据上进行训练总是需要计算昂贵的梯度。用所提出的LDMs解决了这两个缺点,在低维度的压缩潜空间上工作。这使得训练的计算成本更低,并加快了推理速度,几乎没有降低合成质量(见图1)。

两阶段图像合成为了缓解单个生成方法的缺点,许多研究[11,23,65,68,97,99]已经通过两阶段方法将不同方法的优点结合到更高效和性能的模型中。VQ-VAEs[65,97]使用自回归模型来学习离散潜空间上的表达性先验。[64]通过学习离散图像和文本表示的联合分布,将这种方法扩展到文本到图像的生成。更一般地说,[68]使用条件可逆网络来提供不同域潜空间之间的通用迁移。与VQ-VAEs不同,VQGANs[23,99]采用具有对抗性和感知目标的第一阶段,将自回归transformer扩展到更大的图像。然而,可行的ARM训练所需的高压缩率,引入了数十亿的可训练参数[23,64],限制了此类方法的整体性能,而较少的压缩是以高计算成本为代价的[23,64]。本文工作防止了这种权衡,因为所提出的LDMs由于其卷积主干,更温和地扩展到更高维的潜空间。因此,我们可以自由选择在学习强大的第一阶段之间进行最佳调解的压缩水平,在保证高保真重建的同时,不会给生成扩散模型留下太多的感知压缩(见图1)。虽然存在联合学习编码/解码模型与基于分数的先验的方法[90],它们仍然需要在重建和生成能力[11]之间进行困难的加权,并被我们的方法所超越(第4节)。

3 方法

为了降低训练扩散模型对高分辨率图像合成的计算需求,尽管扩散模型允许通过对相应的损失项[29]欠采样来忽略感知上不相关的细节,但它们仍然需要在像素空间进行昂贵的函数评估,这导致了巨大的计算时间和能量资源需求。

本文建议通过引入压缩与生成学习阶段的显式分离来规避这一缺点(见图2)。为了实现这一目标,本文利用一个自编码模型,该模型学习一个在感知上等同于图像空间的空间,但提供了显著降低的计算复杂度。

这种方法有几个优点:
(i)通过离开高维图像空间,获得了计算效率更高的DMs,因为采样是在低维空间上进行的。
(ii)利用了DMs继承自其UNet架构[69]的归纳偏差,这使它们对具有空间结构的数据特别有效,从而减轻了对之前方法所要求的激进的、降低质量的压缩水平的需求[23,64]。
(iii)得到了通用的压缩模型,其潜空间可用于训练多个生成模型,也可用于其他下游应用,如单图像片段引导的合成[25]。

3.1. 感知图像压缩

我们的感知压缩模型基于之前的工作[23],由一个由感知损失[102]和基于块的[32]对抗目标[20,23,99]组合训练的自编码器组成。这通过加强局部真实感来确保重建被限制在图像流形中,并避免仅依靠像素空间损失(如L2L1目标)而引入的模糊。

更准确地说,在RGB空间中给定图像 x ∈ R H × W × 3 x∈\mathbb{R}^{H ×W ×3} xRH×W×3,编码器 ϵ \epsilon ϵ x x x编码为潜表示 z = ϵ ( x ) z = \epsilon (x) z=ϵ(x),解码器 D D D从潜表示中重建图像,给出 x ′ = D ( z ) = D ( ϵ ( x ) ) x' =D(z)=D( \epsilon (x)) x=D(z)=D(ϵ(x)),其中 z ∈ R h × w × c z∈\mathbb{R}^{h ×w ×c} zRh×w×c。重要的是,编码器通过因子 f = H / h = W / w f = H/ h = W/ w f=H/h=W/w对图像进行下采样,并研究了不同的下采样因子 f = 2 m f =2^{m} f=2m, m ∈ N m∈N mN

为了避免任意的高方差潜空间,我们实验了两种不同类型的正则化。第一种变体KL-reg对学习到的潜函数的标准正态施加轻微的KL惩罚,类似于VA E[45,67],而VQ-reg在解码器中使用矢量量化层[93]。该模型可以解释为VQGAN[23],但量化层被解码器吸收。因为我们后续的DM被设计为处理学习的潜空间 z = ϵ ( x ) z = \epsilon (x) z=ϵ(x)的二维结构,所以我们可以使用相对温和的压缩率并实现非常好的重建。这与之前的工作[23,64]形成对比,后者依赖于学习空间 z z z的任意一维排序来对其分布进行自回归建模,从而忽略了 z z z的许多固有结构。因此,我们的压缩模型更好地保留了 x x x的细节(见表8)。完整的目标和训练细节可以在补充中找到。

3.2. 潜在扩散模型

扩散模型[79]是一种概率模型,旨在通过逐步去噪正态分布变量来学习数据分布 p ( x ) p(x) p(x),这对应于学习长度为T的固定马尔可夫链的反向过程。对于图像合成,最成功的模型[15,29,70]依赖于 p ( x ) p(x) p(x)的变分下界的重加权变体,它反映了去噪分数匹配[82]。这些模型可以解释为等权重的去噪自编码器序列εθ (xt,t) ; t = 1 … T t = 1…T t=1T,ε训练以预测其输入*xt的去噪变体,其中xt*是输入 x x x的噪声版本。相应的目标可以简化为(Sec. A)
请添加图片描述
其中, t t t从{1,…,t}均匀采样。

潜在表示的生成建模通过我们训练过的感知压缩模型,由ε和 D D D组成,我们现在可以访问一个高效的低维潜在空间,其中高频的、难以察觉的细节被抽象掉了。与高维像素空间相比,该空间更适合基于似然的生成模型,因为它们现在可以
(i)专注于数据的重要、语义位,以及
(ii)在低维、计算效率高得多的空间中训练。

与之前依赖于高度压缩的离散潜空间[23,64,99]中基于注意力的自回归transformer模型的工作不同,我们可以利用模型提供的特定于图像的归纳偏差。这包括主要从2D卷积层构建底层UNet的能力,并使用重新加权的边界进一步将目标集中在感知上最相关的比特上,现在读取
在这里插入图片描述
模型的神经骨干εθ (o,t)被实现为时间条件UNet[69]。由于前向过程是固定的,因此可以在训练过程中有效地从\epsilon中获得zt,而 p ( z ) p(z) p(z)中的样本只需经过 D D D即可解码到图像空间。

3.3. 调节机制

与其他类型的生成模型[55,80]类似,扩散模型原则上能够建模形式为 p ( z ∣ y ) p(z|y) p(zy)的条件分布。这可以用条件去噪自编码器εθ (zt,t,y)实现,并为通过输入 y y y(如文本[66],语义映射[32,59])或其他图像到图像翻译任务[33]来控制合成过程铺平了道路。

然而,在图像合成的背景下,将DMs的生成能力与类别标签以外的其他类型的条件相结合,[15]或输入图像的模糊变体[70],迄今为止是一个未被探索的研究领域。

在这里插入图片描述
通过使用交叉注意力机制[94]增强其底层UNet主干,将DMs转变为更灵活的条件图像生成器,该机制对学习各种输入模态的基于注意力的模型很有效[34,35]。为了从各种模态(如语言提示)中预处理 y y y,引入了一个特定领域的编码器τθ,将 y y y映射到中间表示 τθ ( y ) ∈ R M × d τ (y)∈\mathbb{R}^{M ×dτ} (y)RM×dτ,然后通过实现Attention(Q, K, V)的交叉注意力层映射到UNet的中间层。

在这里插入图片描述

基于图像条件对,我们通过以下公式学习条件LDM

在这里插入图片描述
其中τθ ϵ \epsilon ϵθ通过公式3联合优化。这种条件作用机制是灵活的,因为τθ可以由特定领域的专家参数化,例如,当 y y y是文本提示时(见第4.3.1节),(未掩码)transformer[94]。

4 实验

LDMs提供了一种灵活的、计算上可处理的基于扩散的图像合成方法,还包括各种图像模态的高分辨率生成,我们在以下经验中展示。首先,与基于像素的扩散模型相比,分析了该模型在训练和推理方面的收益。有趣的是,在VQ-正则潜空间中训练的LDMs实现了更好的样本质量,即使VQ-正则化第一阶段模型的重建能力略落后于连续的对应模型 c f cf cf.Tab. 8。因此,本文在本文的其余部分对VQ-正则化的LDMs进行了评估,除非另有说明。第一级正则化方案对LDM训练的效果及其对256 2 ^{2} 2以上分辨率的泛化能力的直观比较见附录C.1.在D.2 我们还列出了关于本节中提出的所有结果的架构、实施、培训和评估的细节。

4.1. 关于感知压缩权衡 ( On Perceptual Compression Tradeoffs)

本节分析具有不同下采样因子f∈{1,2,4,8,16,32}的LDMs的行为(缩写为 L D M − f LDM-f LDMf,其中 L D M − 1 LDM-1 LDM1对应于基于像素的DMs)。为了获得可比的测试领域,我们将计算资源固定在一个NVIDIA A100上,用于本节中的所有实验,并以相同的步骤数和相同的参数数训练所有模型。

在图6中,我们比较了在CelebA-HQ[38]和ImageNet上训练的模型,比较了DDIM采样器[81]在不同去噪步骤数下的采样速度,并将其与FID-scores[28]绘制图表。LDM-{4-8}在感知和概念压缩比例不合适的情况下优于模型。特别是与基于像素的LDM-1相比,它们实现了更低的FID得分,同时显著提高了样本吞吐量。像ImageNet这样的复杂数据集需要降低压缩率以避免降低质量。综上所述,我们观察到LDM-4和-8处于表现最佳的区域,以实现高质量的合成结果。
在这里插入图片描述

4.2. 基于潜在扩散的图像生成 (Image Generation with Latent Diffusion)

在CelebA-HQ[38]、FFHQ[40]、LSUN-Churches 和-Bedrooms[98]上训练了256 2 ^{2} 2张图像的无条件模型,并评估了
i)样本质量和ii)使用FID[28]和ii)精确-召回[49]对数据流形的覆盖率(i) sample quality and ii) their coverage of the data manifold using ii) FID [28] and ii) Precision-and-Recall [49]。表1总结了我们的结果。在CelebA-HQ上,我们报告了一个新的最先进的FID为5.11,优于之前的基于似然的模型和GANs。我们的性能也优于LSGM[90],其中潜在扩散模型与第一阶段一起训练。在固定空间中训练扩散模型,避免了权衡重建质量与潜空间上学习先验的困难,见图1-2。

在LSUN-Bedrooms数据集以外的所有数据集上,都优于先前基于扩散的方法,该数据集的分数接近于ADM[15],尽管利用了一半的参数,所需的训练资源减少了4倍(见附录D.3.5)。此外,LDMs在精度和召回率上不断提高基于GAN的方法,从而证实了其基于模式覆盖似然的训练目标比对抗性方法的优势。在图4中,我们还显示了每个数据集的定性结果。

4.3. 条件潜扩散( Conditional Latent Diffusion)

4.3.1 LDMs变压器编码器(Transformer Encoders for LDMs)

通过将基于交叉注意力的调节引入LDMs,为扩散模型打开了各种以前未探索的调节模式。对于文本到图像的图像建模,我们在LAION-400M上训练了一个以语言提示为条件的1.45B参数模型[76]。采用BERT-tokenizer[14]并实现τθ作transformer[94]来推断通过交叉注意力映射到UNet的潜代码(第3.3节)。这种用于学习语言表示和视觉合成的特定领域专家的组合产生了一个强大的模型,该模型很好地泛化到复杂的、用户定义的文本提示,如图7、14。在定量分析方面,遵循之前的工作,并在MS-COCO[50]验证集上评估文本到图像的生成,该模型改进了强大的AR[17,64]和基于GAN的[105]方法,如Tab. 2。应用无分类器扩散指导[31]大大提高了样本质量。为了进一步分析基于交叉注意力的调节机制的灵活性,我们还训练模型在OpenImages[48]上基于语义布局合成图像,在COCO[4]上进行微调,见图7。量化评估和实施细节见C.4节。

最后,根据之前的工作[3,15,21,23],评估了表3、图4和C.5中第4.1节中f∈{4,8}的性能最佳的类条件ImageNet模型。本文优于最先进的扩散模型ADM[15],同时显著减少了计算需求和参数数量,cf . tab18。

4.3.2 256 2 ^{2} 2以上的卷积采样(Convolutional Sampling Beyond 256 2 ^{2} 2

通过将空间对齐的条件信息连接到θ的输入,LDMs可以作为高效的通用图像到图像转换模型。用它来训练模型进行语义合成、超分辨率(第4.4节)和修复(第4.5节)。对于语义合成,我们使用景观图像与语义地图配对[23,59],并将语义地图的下采样版本与f =4模型的潜图像表示(VQ-reg,见Tab. 8)。在256 2 ^{2} 2的输入分辨率上进行训练(来自384 2 ^{2} 2的农作物),但发现所提出模型可以泛化到更大的分辨率,并在以卷积方式评估时可以生成高达百万像素的图像。利用这种行为还可以应用第4.4节中的超分辨率模型和第4.5节的修复模型,以生成512 2 ^{2} 2到1024 2 ^{2} 2之间的大图像。对于这种应用,信噪比(由潜空间的尺度引起)显著影响结果。在C.1节中,我们在(i)由f =4模型(KL-reg,见表8)提供的潜空间上学习LDM时说明了这一点,以及(ii)由分量标准差缩放的重新缩放版本。

4.4. 基于潜在扩散的超分辨率算法(Super-Resolution with Latent Diffusion)

通过级联直接对低分辨率图像进行调节,可以有效地对LDMs进行超分辨率训练(第3.3节)。在第一个实验中,我们遵循SR3[70],并使用4×-downsampling将图像退化固定为双三次插值,并按照SR3的数据处理管道在ImageNet上进行训练。我们使用在OpenImages上预训练的f =4自编码模型(VQ-reg。表8),并将低分辨率条件y和UNet的输入连接起来,即τθ是恒等式。我们的定性和定量结果(见图9和表4)显示了竞争性的性能,LDM-SR在FID上优于SR3,而SR3有更好的IS。一个简单的图像回归模型取得了最高的PSNR和SSIM分数;然而,这些指标不能很好地与人类的感知保持一致[102],并且与不完美对齐的高频细节相比,更倾向于模糊[70]。进行了一项用户研究,将像素基线与LDM-SR进行了比较。我们跟踪了SR3[70],在两幅高分辨率图像之间向人体受试者展示了一张低分辨率图像,并要求他们选择。表5的结果证实了LDM-SR的良好性能。PSNR和SSIM可以通过使用posthoc引导机制[15]来推动,我们通过感知损失实现了这种基于图像的引导,见第C.7节。由于双三次退化过程对不遵循此预处理的图像不能很好地泛化,本文还通过使用更多样化的退化来训练一个通用模型LDM-BSR。结果见C.7.1节。

4.5. 基于潜在扩散的图像修复(Inpainting with Latent Diffusion)

修复是用新内容填充图像的掩码区域的任务,要么是因为图像的部分损坏了,要么是替换图像中现有的但不希望的内容。评估了用于有条件图像生成的通用方法与用于该任务的更专业、最先进的方法的比较。本文的评估遵循LaMa[85]的协议,这是一种最近的修复模型,引入了一种依赖于快速傅里叶卷积[8]的专门架构。我们在第D.2.2节中描述了确切的地点培训和评估协议[104]。

首先分析了不同设计选择对第一阶段的影响;本文比较了LDM-1(即基于像素的条件DM)和LDM-4的修复效率,包括KL和VQ正则化,以及第一阶段没有任何注意的VQ-LDM-4(见表8),其中后者减少了用于高分辨率解码的GPU内存。对于可比性,我们固定了所有模型的参数数量。表6报告了分辨率为2562和5122时的训练和采样吞吐量,每个epoch的总训练时间(小时),以及六个epoch后验证划分的FID得分。总的来说,基于像素和基于潜在的扩散模型之间的速度至少提高了2.7倍,同时将FID分数提高了至少1.6倍。

与表7中其他修复方法的比较表明,我们的attention模型比[85]的整体图像质量(FID)有所提高。未掩码图像与我们的样本之间的LPIPS略高于[85]。我们将这归因于[85]只产生了一个结果,与我们的LDM产生的不同结果相比,该结果倾向于恢复更多的平均图像,图20。此外,在用户研究(表5)中,人类受试者更倾向于我们的结果,而不是那些[85]。

基于这些初始结果,我们还在无注意力的VQ正则化第一阶段的潜空间中训练了一个更大的扩散模型(在表7中较大)。继[15]之后,该扩散模型的UNet在其特征层次的三个层次上使用注意力层,BigGAN[3]残差块进行上下采样,参数为387M,而不是215M。训练后,我们注意到在分辨率256 2 ^{2} 2和512 2 ^{2} 2下产生的样本质量存在差异,假设这是由额外的注意力模块引起的。然而,在分辨率为512 2 ^{2} 2时对模型进行半个epoch的微调,可以使模型调整到新的特征统计量,并在图像修复方面设置新的FID技术水平( b i g , w / o a t t n , w / f t big, w/o attn, w/ ft big,w/oattn,w/ft in Tab. 7, Fig. 10)。

在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

5 结论

本文提出了潜在扩散模型,一种简单有效的方法,可以显著提高去噪扩散模型的训练和采样效率,而不会降低其质量。基于这一点和交叉注意力调节机制,实验可以在广泛的无任务特定架构的条件图像合成任务中,与最先进的方法相比,显示出良好的结果。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值