High-Resolution Image Synthesis with Latent Diffusion Models
公众号:EDPJ(添加 VX:CV_EDPJ 进交流群获取资料)
目录
0. 摘要
通过将图像形成过程分解为去噪自编码器的顺序应用,扩散模型 (DM) 在图像数据及其他方面实现了最先进的合成结果。 此外,他们的公式允许一种指导机制来控制图像生成过程,而无需重新训练。 然而,由于这些模型通常直接在像素空间中运行,因此强大的 DM 的优化通常会消耗数百个 GPU 天,并且由于顺序评估,推理成本很高。 为了在有限的计算资源上进行 DM 训练,同时保持其质量和灵活性,我们将它们应用在强大的预训练自动编码器的潜在空间中。 与之前的工作相比,在这种表示上训练扩散模型首次允许在复杂性降低和细节保留之间达到接近最佳的点,从而极大地提高了视觉保真度。 通过将交叉注意力层引入模型架构中,我们将扩散模型转变为强大而灵活的生成器,用于一般调节输入(例如文本或边界框),并且以卷积方式使高分辨率合成成为可能。 我们的潜在扩散模型 (LDM) 在图像修复和类条件图像合成方面取得了新的最先进分数,并在各种任务上实现了极具竞争力的性能,包括文本到图像合成、无条件图像生成和超分辨率, 与基于像素的 DM 相比,显着降低了计算要求。
1. 简介
图像合成是最近发展最引人注目的计算机视觉领域之一,也是计算需求最大的领域之一。 特别是复杂自然场景的高分辨率合成,目前主要是扩展的基于似然的模型,自回归(AR)transformers 中可能包含数十亿个参数 [66,67]。 相比之下,GAN [3,27,40] 的有希望的结果主要局限于可变性相对有限的数据,因为它们的对抗性学习过程不容易扩展到建模复杂的多模态分布。 最近,由去噪自编码器层次结构构建的扩散模型 [82] 已证明在图像合成 [30,85] 及其他 [7,45,48,57] 方面取得了令人印象深刻的结果,并超越和定义了类别条件图像合成 [15,31] 和超分辨率 [72] 中的最先进技术。 此外,与其他类型的生成模型 [19,46,69] 相比,即使是无条件 DM 也可以轻松应用于修复和着色 [85] 或基于笔画的合成 [53] 等任务。 作为基于似然的模型,它们不会像 GAN 那样表现出模式崩溃和训练不稳定性,并且通过大量利用参数共享,它们可以对自然图像的高度复杂分布进行建模,而无需像 AR 模型那样涉及数十亿个参数 [67]。
大众化高分辨率图像合成。 DM 属于基于似然的模型类别,其模式覆盖行为使它们容易花费过多的容量(以及计算资源)来对数据的难以察觉的细节进行建模 [16, 73]。 尽管重新加权的变分目标[30] 旨在通过对初始去噪步骤进行欠采样来解决这个问题,但 DM 的计算要求仍然很高,因为训练和评估这样的模型需要在 RGB 图像的高维空间中重复进行函数评估(和梯度计算) 。 例如,训练最强大的 DM 通常需要数百个 GPU 天(例如 [15] 中的 150 - 1000 V100 天),并且对输入空间渲染的噪声版本进行重复评估也需要昂贵的推理成本,因此生成 50k 样本大约在单个 A100 GPU 上需要 5 天 [15]。 这对研究界和一般用户有两个后果:首先,训练这样的模型需要大量的计算资源,仅适用于一小部分领域,并留下巨大的碳足迹 [65, 86]。 其次,评估已经训练好的模型在时间和内存方面也很昂贵,因为相同的模型架构必须顺序运行大量步骤(例如 [15] 中的 25 - 1000 个步骤)。
为了提高这个强大模型类的可访问性,同时减少其大量资源消耗,需要一种方法来降低训练和采样的计算复杂性。 因此,在不损害其性能的情况下减少 DM 的计算需求是增强其可访问性的关键。
出发到潜在空间。我们的方法从分析像素空间中已经训练好的扩散模型开始:图 2 显示了训练模型的率失真权衡。 与任何基于似然的模型一样,学习可以大致分为两个阶段:
- 第一个阶段是感知压缩阶段,它删除高频细节,但仍然学习很少的语义变化。
- 在第二阶段,实际的生成模型学习数据的语义和概念组成(语义压缩)。
- 因此,我们的目标是首先找到一个感知上等效但计算上更合适的空间,在其中我们将训练用于高分辨率图像合成的扩散模型。
按照常见做法 1,23,66,67,96],我们将训练分为两个不同的阶段:首先,我们训练一个自动编码器,它提供了一个低维(因而高效)的表示空间,该空间在感知上与数据空间等效 。 重要的是,与之前的工作 [23,66] 相比,我们不需要依赖过度的空间压缩,因为我们在学习到的潜在空间中训练 DM,这在空间维度方面表现出更好的缩放特性。 降低的复杂性还可以通过单次网络传递从潜在空间高效生成图像。 我们将生成的模型类称为“潜在扩散模型”(LDM)。
这种方法的一个显着优点是我们只需要训练通用自动编码阶段一次,因此可以将其重复用于多个 DM 训练或探索可能完全不同的任务 [81]。 这使得能够有效地探索各种图像到图像和文本到图像任务的大量扩散模型。 对于后者,我们设计了一个架构,将 Transformer 连接到 DM 的 UNet 主干 [71],并启用任意类型的基于令牌(token)的调节机制,请参见第 3.3 节。
总而言之,我们的工作做出了以下贡献:
- (i) 与纯粹基于 transformer 的方法 [23, 66] 相比,我们的方法可以更优雅地扩展到更高维度的数据,因此可以 (a) 在压缩级别上工作,比以前的工作提供更忠实和详细的重建(见图 1) 和 (b)可以有效地应用于百万像素图像的高分辨率合成。
- (ii) 我们在多个任务(无条件图像合成、修复、随机超分辨率)和数据集上实现了具有竞争力的性能,同时显着降低了计算成本。 与基于像素的扩散方法相比,我们还显着降低了推理成本。
- (iii) 我们表明,与同时学习编码器/解码器架构和基于分数的先验的先前工作 [93] 相比,我们的方法不需要对重建和生成能力进行精细的加权。 这确保了极其忠实的重建,并且几乎不需要对潜在空间进行正则化。
- (iv) 我们发现,对于超分辨率、修复和语义合成等密集条件任务,我们的模型可以以卷积方式应用并渲染 1024*1024 像素的大而一致的图像。
- (v) 此外,我们设计了一种基于交叉注意力的通用调节机制,从而实现多模态训练。 我们用它来训练类条件、文本到图像和布局到图像模型。
- (vi) 最后,我们在 https://github.com/CompVis/latent-diffusion 发布了预训练的潜在扩散和自动编码模型,除了 DM 的训练之外,这些模型还可以重复用于各种任务 [81]。
2. 相关工作
用于图像合成的生成模型。图像的高维性质给生成建模带来了明显的挑战。 生成对抗网络 (GAN) [27] 允许对具有良好感知质量的高分辨率图像进行有效采样 [3, 42],但难以优化 [2, 28, 54] 并且难以捕获完整的数据分布 [ 55]。 相比之下,基于似然的方法强调良好的密度估计,这使得优化表现得更好。 变分自动编码器 (VAE) [46] 和基于流的模型 [18, 19] 可以有效合成高分辨率图像 [9, 44, 92],但样本质量无法与 GAN 相提并论。 虽然自回归模型 (ARM) [6,10,94,95] 在密度估计方面实现了强大的性能,但计算要求较高的架构 [97] 和顺序采样过程将它们限制在低分辨率图像上。 由于基于像素的图像表示包含几乎不可察觉的高频细节[16,73],因此最大似然训练在对它们进行建模时花费了不成比例的容量,从而导致训练时间较长。 为了扩展到更高分辨率,几种两阶段方法 [23,67,101,103] 使用 ARM 对压缩的潜在图像空间而不是原始像素进行建模。
最近,扩散概率模型(DM)[82] 在密度估计 [45] 以及样本质量 [15] 方面取得了最先进的结果。 当这些模型的底层神经主干被实现为 UNet 时,这些模型的生成能力源于对类图像数据的归纳偏差的自然拟合 [15,30,71,85]。 当使用重新加权的目标 [30] 进行训练时,通常可以实现最佳的合成质量。 在这种情况下,DM 相当于有损压缩器,并允许以图像质量换取压缩能力。 然而,在像素空间中评估和优化这些模型具有推理速度低和训练成本非常高的缺点。 虽然前者可以通过先进的采样策略 [47, 75, 84] 和分层方法 [31, 93] 部分解决,但高分辨率图像数据的训练总是需要计算昂贵的梯度。 我们通过提出的 LDM 解决了这两个缺点,该 LDM 工作在较低维度的压缩潜在空间上。 这使得训练的计算成本更低,推理速度更快,而合成质量几乎没有降低(见图 1)。
两阶段图像合成。为了减轻个别生成方法的缺点,大量研究 [11,23,67,70,101,103] 已经开始通过两阶段将不同方法的优点结合成更高效和性能更高的模型 方法。 VQ-VAE [67, 101] 使用自回归模型来学习离散潜在空间的表达先验。 [66] 通过学习离散图像和文本表示的联合分布,将这种方法扩展到文本到图像的生成。更一般地,[70] 使用条件可逆网络来提供不同域的潜在空间之间的通用迁移。 与 VQ-VAE 不同,VQGAN [23, 103] 采用具有对抗性和感知目标的第一阶段,将自回归 transformers 扩展到更大的图像。 然而,可行的 ARM 训练所需的高压缩率会引入数十亿个可训练参数 [23, 66],限制了此类方法的整体性能,并且较少的压缩是以高计算成本为代价的 [23, 66]。 我们的工作防止了这种权衡,因为我们提出的 LDM 由于其卷积主干可以更温和地扩展到更高维的潜在空间。 因此,我们可以自由选择在学习强大的第一阶段之间进行最佳调节的压缩级别,而不会给生成扩散模型留下太多的感知压缩,同时保证高保真度重建(见图1)。
虽然存在联合 [93] 或单独 [80] 学习编码/解码模型以及基于分数的先验的方法,但前者仍然需要在重建和生成能力之间进行困难的加权 [11],并且我们的方法(第 4 节)优于它,后者侧重于高度结构化的图像,例如人脸。
3. 方法
为了降低训练扩散模型对高分辨率图像合成的计算需求,我们观察到,尽管扩散模型允许通过对相应的损失项进行欠采样来忽略感知上不相关的细节 [30],但它们仍然需要在像素空间中进行昂贵的函数评估,这会导致对计算时间和能源资源的巨大需求。
我们建议通过引入压缩学习阶段和生成学习阶段的明确分离来规避这个缺点(见图 2)。 为了实现这一目标,我们利用自动编码模型,该模型学习感知上与图像空间等效的空间,但显着降低了计算复杂性。
这种方法有几个优点:(i)通过离开高维图像空间,我们获得了计算效率更高的 DM,因为采样是在低维空间上执行的。 (ii) 我们利用从 UNet 架构继承的 DM 的归纳偏差 [71],这使得它们对于具有空间结构的数据特别有效,因此减轻了先前方法所需的激进的、降低质量的压缩级别的需求 [23, 66]。 (iii) 最后,我们获得通用压缩模型,其潜在空间可用于训练多个生成模型,也可用于其他下游应用,例如单图像 CLIP 引导合成 [25]。
3.1 感知图像压缩
我们的感知压缩模型基于之前的工作 [23],由一个通过感知损失 [106] 和基于补丁的 [33] 对抗目标[20,23,103] 相结合训练的自动编码器组成。 这确保了通过强制局部真实性将重建限制在图像流形内,并避免仅依赖像素空间损失(例如 L2 或 L1 目标)而引入的模糊。
更准确地说,给定 RGB 空间中的图像 x ∈ R^H*W*3,编码器 E 将 x 编码为潜在表示 z = E(x),解码器 D 从潜在表示中重建图像,给出 ~x = D(z) = D(E(x)),其中 z ∈ R^h*w*c。 重要的是,编码器按因子 f = H/h = W/w 对图像进行下采样,我们研究了不同的下采样因子 f = 2^m,其中 m ∈ N。
为了避免任意高方差的潜在空间,我们尝试了两种不同类型的正则化。 第一个变体 KL-reg. 对学习潜伏的标准正态施加轻微的 KL 惩罚,类似于 VAE [46, 69],然而 VQ-reg. 在解码器中使用矢量量化层 [96]。 该模型可以解释为 VQGAN [23],但量化层被解码器吸收。 因为我们后续的 DM 被设计为与我们学习的潜在空间 z = E(x) 的二维结构一起工作,所以我们可以使用相对温和的压缩率并实现非常好的重建。 这与之前的作品 [23, 66] 形成鲜明对比,之前的作品依赖于学习空间 z 的任意一维排序来对其分布进行自回归建模,从而忽略了 z 的许多固有结构。 因此,我们的压缩模型更好地保留了 x 的细节(见表 8)。 完整的目标和训练细节可以在补充材料中找到。
3.2 潜在扩散模型
扩散模型 [82] 是概率模型,旨在通过逐渐对正态分布变量进行去噪来学习数据分布 p(x),这对应于学习长度为 T 的固定马尔可夫链的逆过程。对于图像合成,最成功的模型 [15,30,72] 依赖于 p(x) 变分下界的重新加权变体,它反映了去噪分数匹配 [85]。 这些模型可以解释为等权重的去噪自动编码器序列
它们被训练来预测其输入 x_t 的去噪变体,其中 x_t 是输入 x 的噪声版本。 相应的目标可以简化为(附录 B)
t 从 {1, ..., T} 中均匀采样。
潜在表示的生成建模。通过我们训练的由 E 和 D 组成的感知压缩模型,我们现在可以访问一个高效的、低维的潜在空间,其中高频、不可察觉的细节被抛弃。 与高维像素空间相比,该空间更适合基于似然的生成模型,因为它们现在可以(i)专注于数据的重要语义位,以及(ii)在较低维度、计算更高效的空间进行训练。
与之前依赖于高度压缩、离散潜在空间中的自回归、基于注意力的 transformer 模型的工作不同[23,66,103],我们可以利用我们的模型提供的特定于图像的归纳偏差。 这包括主要从 2D 卷积层构建底层 UNet 的能力,并使用重新加权的边界进一步将目标集中在感知上最相关的位上,现在为
我们模型的神经主干
被实现为时间条件 UNet [71]。 由于前向过程是固定的,因此在训练期间可以从 E 中有效地获得 z_t,并且只需通过 D 一次即可将来自 p(z) 的样本解码到图像空间。
3.3 调节机制
与其他类型的生成模型 [56, 83] 类似,扩散模型原则上能够对 p(z|y) 形式的条件分布进行建模。 这可以通过条件去噪自动编码器(z|t, t, y)来实现,并为通过输入 y(例如文本 [68]、语义图 [33, 61] 或其他图像到图像翻译任务[34])控制合成过程铺平道路。
然而,在图像合成的背景下,将 DM 的生成能力与类标签 [15] 或输入图像的模糊变体 [72] 之外的其他类型的条件相结合,迄今为止是一个尚未充分探索的研究领域。
我们通过交叉注意力机制增强其底层 UNet 主干网,将 DM 转变为更灵活的条件图像生成器 [97],这对于学习各种输入模态的基于注意力的模型非常有效 [35,36]。 为了预处理来自各种模态(例如语言提示)的 y,我们引入了一个领域特定编码器 τ_θ,它将 y 投影到中间表示
通过交叉注意力层实现
将其映射到 UNet,其中,
表示 UNet 实现的(扁平化)中间表示,
是可学习的投影矩阵 [36, 97]。 直观描述见图 3。
基于图像调节对,我们然后通过以下方式学习条件 LDM
其中 τ_θ和 ε_θ 均通过等式 3 联合优化。这种调节机制非常灵活,可以通过特定领域的专家进行参数化,例如,当 y 是文本提示时的(未掩蔽的)transformers [97](参见第 4.3.1 节)
4. 实验
LDM 提供了灵活且计算上易于处理的基于扩散的各种图像模态图像合成的方法,我们将在下面凭经验进行展示。 然而,首先,我们分析了我们的模型与基于像素的扩散模型在训练和推理方面的增益。 有趣的是,我们发现在 VQ 正则化潜在空间中训练的 LDM 有时会获得更好的样本质量,尽管 VQ 正则化第一阶段模型的重建能力略低于连续模型的重建能力,参见 表 8。第一阶段正则化方案对 LDM 训练的影响及其对分辨率 > 256*256 的泛化能力的直观比较可以在附录 D.1 中找到。 在 E.2 中,我们列出了本节中呈现的所有结果的架构、实施、训练和评估的详细信息。
4.1 关于感知压缩的权衡
本节分析了具有不同下采样因子 f ∈ {1, 2, 4, 8, 16, 32}(缩写为 LDM-f,其中 LDM-1 对应于基于像素的 DM)的 LDM 的行为。 为了获得可比的测试场,我们将本节中所有实验的计算资源固定为单个 NVIDIA A100,并使用相同数量的步骤和相同数量的参数训练所有模型。
表 8 显示了本节中比较的 LDM 使用的第一阶段模型的超参数和重建性能。 图 6 显示了在 ImageNet [12] 数据集上类条件模型的 2M 步训练进度函数的样本质量。 我们看到,i) LDM-{1,2} 的下采样因子较小会导致训练进度缓慢,而 ii) f 值过大会导致在相对较少的训练步骤后保真度停滞不前。 重新审视上面的分析(图 1 和 2),我们将其归因于 i)将大部分感知压缩留给扩散模型,以及 ii)太强的第一阶段压缩导致信息丢失,从而限制了可实现的质量。 LDM-{4-16} 在效率和感知忠实结果之间取得了良好的平衡,这体现在 2M 训练步骤后基于像素的扩散 (LDM-1) 和 LDM-8 之间存在的显着 FID [29] 差距(38)。
在图 7 中,我们比较了在 CelebAHQ [39] 和 ImageNet 上训练的模型与 DDIM 采样器 [84] 不同数量的去噪步骤的采样速度,并将其与 FID 分数 [29] 进行比较。 LDM-{4-8} 优于感知和概念压缩比率不合适的模型。 特别是与基于像素的 LDM-1 相比,它们实现了低得多的 FID 分数,同时显着提高了样品吞吐量。 ImageNet 等复杂数据集需要降低压缩率以避免质量下降。 总之,LDM-4 和-8为实现高质量合成结果提供了最佳条件。
4.2 使用潜在扩散进行图像生成
我们在 CelebA-HQ [39]、FFHQ [41]、LSUN-Churches 和 -Bedrooms [102] 上训练 256*256 图像的无条件模型,并使用 FID [29] 和 Precision-and-Recall [50] 评估样本质量和数据流形的覆盖范围。表 1 总结了我们的结果。 在 CelebA-HQ 上,我们报告了新的最先进的 FID 为 5.11,优于之前基于可能性的模型以及 GAN。 我们还优于 LSGM [93],其中潜在扩散模型与第一阶段联合训练。 相比之下,我们在固定空间中训练扩散模型,避免了权衡重建质量与学习潜在空间先验的困难,见图 1-2。
除了 LSUN-Bedrooms 数据集之外,我们在所有数据集上都优于先前基于扩散的方法,尽管使用了一半的参数并且需要的训练资源减少了 4 倍,但我们的得分接近 ADM [15](参见附录 E.3.5)。 此外,LDM 在 Precision and Recall 方面不断改进基于 GAN 的方法,从而证实了其基于模式覆盖似然的训练目标相对于对抗性方法的优势。 在图 4 中,我们还显示了每个数据集的定性结果。
4.3 条件潜在扩散
4.3.1 LDM 的 Transformer 编码器
通过将基于交叉注意力的调节引入 LDM,我们为之前未针对扩散模型探索过的各种调节模式打开了大门。 对于文本到图像的图像建模,我们在 LAION-400M [78] 上以语言提示为条件训练了 1.45B 参数 KL 正则化 LDM。 我们采用 BERT-tokenizer [14] 并实现编码器 τ_θ 为 transformer [97] 来推断潜在代码,该代码通过(多头)交叉注意力映射到 UNet(第 3.3 节)。 这种学习语言表示和视觉合成的领域特定专家的结合产生了一个强大的模型,该模型可以很好地推广到复杂的、用户定义的文本提示,参见图 8 和 图 5。
对于定量分析,我们遵循先前的工作并在 MS-COCO [51] 验证集上评估文本到图像的生成,其中我们的模型改进了强大的 AR [17, 66] 和基于 GAN 的 [ 109]方法,参见表 2。我们注意到应用无分类器扩散指导 [32] 极大地提高了样本质量,使得引导的 LDM-KL-8-G 与最近最先进的AR [26] 和用于文本到图像合成的扩散模型 [59] 相当 ,同时大大减少参数数量。 为了进一步分析基于交叉注意力的调节机制的灵活性,我们还训练模型以基于 OpenImages [49] 上的语义布局合成图像,并在 COCO [4] 上进行微调,见图 8。D.3 为定量评价和实施细节。
最后,根据之前的工作 [3,15,21,23],我们在表 3、图 4 和 D.4 使用来自 4.1 节的 f ∈ {4,8} 评估了性能最佳的类条件 ImageNet 模型。 其中,我们超越了最先进的扩散模型 ADM [15],同时显着降低了计算要求和参数数量,参见表 18。
4.3.2 256*256 以上的卷积采样
通过将空间对齐的调节信息连接到 的输入,LDM 可以作为高效的通用图像到图像转换模型。 我们用它来训练语义合成、超分辨率(第 4.4 节)和修复(第 4.5 节)的模型。 对于语义合成,我们使用与语义图配对的风景图像 [23, 61],并将语义图的下采样版本与 f = 4 模型的潜在图像表示连接起来(VQ-reg.,参见表 8)。 我们以 256*256 的输入分辨率(从 3842 开始裁剪)进行训练,但发现我们的模型可以推广到更大的分辨率,并且在以卷积方式评估时可以生成高达百万像素的图像(见图 9)。 我们利用这种行为也应用了第 4.4 节中的超分辨率模型和第 4.5 节中的修复模型生成 512*512 到 1024*1024 之间的大图像。对于此应用,信噪比(由潜在空间的规模引起)会显着影响结果。 在 D.1, 我们在 (i) f = 4 模型(KL-reg.,参见表 8)提供的潜在空间,以及 (ii) 按组件缩放的重新缩放版本的标准差上学习 LDM 时说明了这一点。
后者与无分类器指导 [32] 相结合,还可以为文本条件 LDM-KL-8-G 直接合成 > 256*256 的图像,如图 13 所示。
4.4 使用潜在扩散的超分辨率
通过串联直接调节低分辨率图像,可以有效地训练 LDM 来实现超分辨率(参见第 3.3 节)。 在第一个实验中,我们遵循 SR3 [72],将图像退化修复为具有 4x 下采样的双三次插值,并按照 SR3 的数据处理流程在 ImageNet 上进行训练。 我们使用在 OpenImages 上预训练的 f = 4 自动编码模型(VQ-reg.,参见表 8),并将低分辨率调节 y 和 UNet 的输入连接起来,即,编码器 τ_θ 是同分布的。
我们的定性和定量结果(见图 10 和表 5)显示出具有竞争力的性能,LDM-SR 在 FID 中优于 SR3,而 SR3 具有更好的 IS。 简单的图像回归模型实现了最高的 PSNR 和 SSIM 分数; 然而,这些指标与人类感知并不一致 [106],并且倾向于模糊而不是不完美对齐的高频细节[72]。 此外,我们还进行了一项用户研究,将像素基线与 LDM-SR 进行比较。 我们遵循 SR3 [72],其中向人类受试者展示了两张高分辨率图像之间的低分辨率图像,并询问其偏好。
表 4 的结果肯定 LDM-SR 的良好性能。 PSNR 和 SSIM 可以通过使用事后指导机制 [15] 来推动,我们通过感知损失来实现这种基于图像的指导,请参见 D.6。
由于双三次降级过程不能很好地推广到不遵循此预处理的图像,因此我们还通过使用更多样化的降级来训练通用模型 LDM-BSR。 结果显示在 D.6.1。
4.5 使用潜在扩散的修复
修复是用新内容填充图像的掩蔽区域的任务,因为图像的某些部分已损坏,或者替换图像中现有的但不需要的内容。 我们评估了我们的条件图像生成的一般方法与用于此任务的更专业、最先进的方法相比如何。 我们的评估遵循 LaMa [88] 的协议,这是一种最近的修复模型,引入了依赖于快速傅里叶卷积 [8] 的专门架构。在 Places [108] 上的确切训练和评估协议见 E.2.2。
我们首先分析第一阶段不同设计选择的效果。 特别是,我们比较了 LDM-1(即基于像素的条件 DM)与 LDM-4(对于 KL 和 VQ 正则化)以及 VQ-LDM-4 在第一阶段没有任何注意的情况下的修复效率(参见表 8),后者减少了用于高分辨率解码的 GPU 内存。 为了可比性,我们固定了所有模型的参数数量。
表 6 报告了分辨率 256*256 和 512*512 下的训练和采样吞吐量、每个 epoch 的总训练时间(以小时为单位)以及 6 个 epoch 后验证分割的 FID 分数。 总体而言,我们观察到基于像素的扩散模型和基于潜在的扩散模型之间的速度至少提高了 2.7 倍,同时 FID 分数提高了至少 1.6 倍。
与表中其他修复方法的比较。 图 7 显示,通过 FID 测量,我们的注意力模型比 [88] 提高了整体图像质量。 未掩蔽图像和我们的样本之间的 LPIPS 略高于 [88]。 我们将此归因于 [88] 仅产生单个结果,与我们的 LDM 产生的多样化结果(图 21)相比,该结果往往能够恢复更多的平均图像。 . 此外,在一项用户研究(表 4)中,相比 [88] 的结果,人类受试者更喜欢我们的结果。
基于这些初步结果,我们还在 VQ 正则化第一阶段的潜在空间中训练了一个未使用注意力的更大的扩散模型(表 7 中的大模型)。 遵循 [15],该扩散模型的 UNet 在其特征层次结构的三个级别上使用注意力层,用于上采样和下采样的 BigGAN [3] 残差块,并具有 387M 个参数,而不是 215M。 训练后,我们注意到分辨率 256*256 和 512*512 生成的样本质量存在差异,我们假设这是由额外的注意力模块引起的。 然而,在分辨率 512*512 下对模型进行半个周期的微调允许模型调整到新的特征统计数据,并在图像修复上设置新的最先进的 FID(表 7 和图 11 中的 big、w/o attn、w/ ft)。
5. 局限性和社会影响
局限性。虽然与基于像素的方法相比,LDM 显着降低了计算要求,但它们的顺序采样过程仍然比 GAN 慢。 此外,当需要高精度时,LDM 的使用可能会受到质疑:尽管在我们的 f = 4 自动编码模型中图像质量的损失非常小(见图 1),但它们的重建能力可能成为像素空间中需要精细精度的任务的瓶颈。 我们假设我们的超分辨率模型(第 4.4 节)在这方面已经受到一定的限制。
社会影响。图像等媒体的生成模型是一把双刃剑:一方面,它们支持各种创造性应用,特别是像我们这样降低训练和推理成本的方法,有可能促进这项技术的获取和探索。 另一方面,这也意味着创建和传播受操纵的数据、或传播错误信息和垃圾邮件变得更加容易。 特别是,故意操纵图像(“深度造假”)是这种情况下的一个常见问题,尤其是女性受其影响尤为严重 [13, 24]。
生成模型还可以泄露其训练数据 [5, 90],当数据包含敏感或个人信息并且未经明确同意的情况下收集时,这是非常值得关注的。 然而,这在多大程度上也适用于图像 DM 尚未完全了解。
最后,深度学习模块往往会重现或加剧数据中已经存在的偏差[22,38,91]。 虽然扩散模型比其他模型更好地覆盖了数据分布。 基于 GAN 的方法,我们结合对抗性训练和基于可能性的目标的两阶段方法在多大程度上歪曲了数据仍然是一个重要的研究问题。
有关深度生成模型的伦理考虑的更一般、更详细的讨论,请参见 [13]。
6. 结论
我们提出了潜在扩散模型,这是一种简单有效的方法,可以显着提高去噪扩散模型的训练和采样效率,而不会降低其质量。 基于这一点和我们的交叉注意力调节机制,与最先进的方法相比,我们的实验可以在没有特定任务架构的广泛条件图像合成任务中展示出良好的结果。
参考
Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022: 10684-10695.
S. 总结
S.1 主要思想
扩散模型(DM)用一种指导机制来控制图像生成过程,而无需重新训练。然而,这些模型通常在像素空间中运行,因此需要大量的计算资源。为了在有限的计算资源上进行训练,同时保持其质量和灵活性,可将它们应用在预训练自动编码器的潜在空间中,即潜在扩散模型(LDM)。
本文主要贡献:
- (i) 与纯粹基于 transformer 相比,LDM 可扩展到更高维度的数据,因此可在压缩级别上工作,比以前的工作提供更忠实和详细的重建,还可以应用于百万像素图像的高分辨率合成。
- (ii) LDM 在多个任务(无条件图像合成、修复、随机超分辨率)和数据集上实现了具有竞争力的性能,同时显着降低了计算成本。 与基于像素的扩散方法相比,显着降低了推理成本。
- (iii) 与同时学习编码器/解码器架构和基于分数的先验的先前工作 [93] 相比,LDM 不需要对重建和生成能力进行精细的加权。 这确保了极其忠实的重建,并且几乎不需要对潜在空间进行正则化。
- (iv) 对于超分辨率、修复和语义合成等密集条件任务,LDM 可以以卷积方式应用,并渲染 1024*1024 像素的大而一致的图像。
- (v) 设计了一种基于交叉注意力的通用调节机制,从而实现多模态训练。可用它来训练类条件、文本到图像和布局到图像模型。
S.2 架构
网络架构如图 3 所示:
- 编码器 E 将输入图像 x 编码为潜在表示,解码器 D 从潜在表示中重建图像。
- τ_θ 是领域特定编码器,把(多模态)提示投影到中间表示,然后通过交叉注意力层引导去噪过程。