（2022|NIPS，Imagen，动态阈值，DrawBench，高效 U-Net）具有深度语言理解的真实感文本到图像扩散模型

最新推荐文章于 2024-09-18 14:35:35 发布

EDPJ，公众号（EDPJ）

最新推荐文章于 2024-09-18 14:35:35 发布

阅读量959

点赞数

分类专栏：论文笔记文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/qq_44681809/article/details/133141724

版权

论文笔记专栏收录该内容

359 篇文章

订阅专栏

Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding

公众号：EDPJ（添加 VX：CV_EDPJ 或直接进 Q 交流群：922230617 获取资料）

D.3.2 U-Net 与 Efficient U-Net 的比较

E. 与 GLIDE 和 DALL-E 2 的比较

S. 总结

S.1 主要贡献

S.2 架构

0. 摘要

我们推出 Imagen，一种文本到图像的扩散模型，具有前所未有的照片真实感和深层次的语言理解。 Imagen 建立在大型 Transformer 语言模型在理解文本方面的能力之上，并依赖于扩散模型在高保真图像生成方面的能力。我们的关键发现是，在纯文本语料库上进行预训练的通用大型语言模型（例如 T5）在编码文本以进行图像合成方面出奇地有效：增加 Imagen 中语言模型的大小比增加图像扩散模型的尺度提高样本保真度和图像文本对齐效果要好得多。 Imagen 在 COCO 数据集上达到了新的最先进的 FID 分数 7.27，而无需在 COCO 上进行训练，并且人类评估者发现 Imagen 样本在图像文本对齐方面与 COCO 数据本身相当。为了更深入地评估文本到图像模型，我们引入了 DrawBench，这是一个全面且具有挑战性的文本到图像模型基准。通过 DrawBench，我们将 Imagen 与最新的方法（包括 VQ-GAN+CLIP、潜在扩散模型、GLIDE 和 DALL-E2）进行比较，发现在并列比较中，人类评分者更喜欢 Imagen，无论是在样本质量还是在文本对齐方面。有关结果的概述，请参阅 imagen.research.google。

1. 简介

多模态学习最近开始受到关注，其中文本到图像合成 [53,12,57] 和图像-文本对比学习 [49,31,74] 处于最前沿。这些模型改变了研究界，并通过创意图像生成 [22, 54] 和编辑应用程序 [21, 41, 34] 吸引了公众的广泛关注。为了进一步研究这一研究方向，我们引入了 Imagen，一种文本到图像的扩散模型，它将 Transformer Language Model (LM) [15, 52] 的强大功能与高保真扩散模型 [28, 29, 16, 41] 结合起来。在文本到图像的合成中提供前所未有的真实感和深层次的语言理解。与之前仅使用图像-文本数据进行模型训练的工作（例如 [53, 41]）相比，Imagen 背后的关键发现是，在纯文本语料库上进行预训练的大型 LM 的文本嵌入 [52, 15] 对于文本到图像合成的效果非常显着。所选样本见图 1。

Imagen （如图 A4 所示）包含：一个冻结的 T5-XXL [52] 编码器，用于将输入文本映射到一个嵌入序列；一个 64*64 图像扩散模型；然后是两个超分辨率扩散模型，用于生成 256*256 和 1024*1024 图像。所有扩散模型都以文本嵌入序列为条件，并使用无分类器指导 [27]。 Imagen 依靠新的采样技术来允许使用较大的指导权重，而不会出现之前工作中观察到的样本质量下降的情况，从而产生比以前更高保真度和更好图像文本对齐的图像。

虽然 Imagen 概念简单且易于训练，但它却产生了令人惊讶的强大结果。

Imagen 在 COCO [36] 上的表现优于其他方法，零样本 FID-30K 为 7.27，显着优于先前的工作，例如 GLIDE [41]（12.4）和 DALL-E 2 [54]（10.4）的并发工作。
我们的零样本 FID 分数也优于在 COCO 上训练的最先进模型，例如 Make-A-Scene [22]（7.6）。
此外，人类评分者表示，从 Imagen 生成的样本在图像文本对齐方面与 COCO 标题上的参考图像不相上下。

我们推出了 DrawBench，这是一套新的结构化文本提示，用于文本到图像的评估。 DrawBench 通过对文本到图像模型的多维评估来实现更深入的见解，并提供旨在探测模型不同语义属性的文本提示。这些包括组合性、基数（cardinality）、空间关系、处理复杂文本提示或罕见单词提示的能力，并且还包括创造性提示，这些提示突破了模型生成远远超出训练数据范围的难以置信的场景的能力的极限。通过 DrawBench，广泛的人类评估表明 Imagen 明显优于其他最新方法 [57,12,54]。我们进一步证明了使用大型预训练语言模型 [52] 相对于多模态嵌入（例如 CLIP [49]）作为 Imagen 的文本编码器的一些明显优势。

该论文的主要贡献包括：

我们发现，仅在文本数据上训练的大型冻结语言模型对于文本到图像的生成来说是非常有效的文本编码器，并且扩展冻结文本编码器的大小比扩展图像扩散模型的大小更能显着提高样本质量。
我们引入了动态阈值处理，这是一种新的扩散采样技术，可以利用高指导权重并生成比以前更加逼真和详细的图像。
我们重点介绍了几个重要的扩散架构设计选择，并提出了 Efficient U-Net，这是一种更简单、收敛速度更快且内存效率更高的新架构变体。
我们实现了新的最先进的 COCO FID 7.27。人类评估者发现 Imagen 在图像文本对齐方面与参考图像不相上下。
我们推出了 DrawBench，这是一个新的全面且具有挑战性的文本转图像任务评估基准。在 DrawBench 人类评估中，我们发现 Imagen 优于所有其他工作，包括同期工作 DALL-E2 [54]。

2. Imagen

2.1 预训练文本编码器

文本到图像模型需要强大的语义文本编码器来捕获任意自然语言文本输入的复杂性和组合性。在配对的图像文本数据上训练的文本编码器是当前文本到图像模型的标准配置；它们可以从头开始训练 [41, 53] 或对图像-文本数据进行预训练 [54]（例如 CLIP [49]）。图像文本训练目标表明，这些文本编码器可以对视觉语义和有意义的表示进行编码，尤其与文本到图像生成任务相关。大型语言模型可以是对文本进行编码以生成文本到图像的另一种选择模型。大型语言模型（例如 BERT [15]、GPT [47,48,7]、T5 [52]）的最新进展导致了文本理解和生成能力的飞跃。语言模型是在比图像文本配对数据大得多的纯文本语料库上进行训练的，因此会接触到非常丰富且广泛分布的文本。这些模型通常也比当前图像-文本模型中的文本编码器大得多 [49,31,80]（例如 PaLM [11]有 540B 参数，而 CoCa [80] 有一个大约1B 参数的文本编码器）。

因此，探索用于文本到图像任务的两个文本编码器系列就变得很自然了。 Imagen 探索预训练的文本编码器：BERT [15]、T5 [51] 和 CLIP [46]。为了简单起见，我们冻结这些文本编码器的权重。冻结有几个优点，例如嵌入的离线计算，导致在文本到图像模型的训练期间可以忽略不计的计算或内存占用。在我们的工作中，我们发现有一个明确的信念：缩放文本编码器大小可以提高文本到图像生成的质量。我们还发现，虽然 T5-XXL 和 CLIP 文本编码器在 MS-COCO 等简单基准测试上表现相似，但在 DrawBench 上的图像文本对齐和图像保真度方面，人类评估者更喜欢 T5-XXL 编码器而不是 CLIP 文本编码器，DrawBench 是一组具有挑战性和组合提示。我们建议读者参阅第 4.4 节来了解我们的研究结果摘要，并参考附录 D.1 来了解详细的消融研究。

2.2 扩散模型和无分类器引导

这里我们简单介绍一下扩散模型；准确的描述在附录 A 中。扩散模型 [63,28,65] 是一类生成模型，它通过迭代去噪过程将高斯噪声转换为来自学到的数据分布的样本。这些模型可以是有条件的，例如类标签、文本或低分辨率图像 [例如 16、29、59、58、75、41、54]。扩散模型 ^x_θ 在以下形式的去噪目标上进行训练：

其中 (x,c) 是数据调节对，t~U([0,1])、ε~N(0,I)，α_t，σ_t，w_t 是 t 的函数，可影响样本质量。直观上，^x_θ 被训练为使用平方误差损失将

去噪为 x，并加权以强调 t 的某些值。ancestral sampler [28] 和 DDIM [64] 等采样从纯噪声 z1~N(0,I) 开始，迭代生成点

噪声含量逐渐减少。这些点是如下 x 预测的函数。

分类器指导 [16] 是一种在采样期间使用预训练模型 p(c|z_t) 的梯度来提高样本质量同时减少条件扩散模型多样性的技术。无分类器指导 [27] 是一种替代技术，它通过在训练期间随机删除 c（例如，以 10% 的概率）在条件和无条件目标上联合训练单个扩散模型，从而避免了这种预训练模型。使用调整后的 x 预测

进行采样，其中

这里，ε_θ(z_t, c) 和 ε_θ(z_t) 是有条件和无条件的预测，由

给出，w 是指导权重。设置 w = 1 将禁用无分类器指导，而增加 w > 1 可增强指导效果。 Imagen 很大程度上依赖于无分类器的指导来实现有效的文本调节。

2.3 大指导加权采样器

我们证实了最近文本引导扩散工作的结果 [16,41,54]，并发现增加无分类器引导权重可以改善图像文本对齐，但会损害图像保真度，产生高度饱和和不自然的图像 [27]。我们发现这是由于高指导权重引起的训练与测试不匹配造成的。在每个采样步骤 t，x 预测

必须在与训练数据 x 相同的范围内，即在 [-1,1]，但我们根据经验发现，高指导权重会导致 x 预测超出这些界限。这是训练与测试的不匹配，并且由于扩散模型在整个采样过程中迭代地应用于其自身的输出，因此采样过程会产生不自然的图像，有时甚至会发散。为了解决这个问题，我们研究了静态阈值和动态阈值。有关技术的参考实现，请参阅附录图 A.31；有关其效果的可视化，请参阅附录图 A.9。

静态阈值。我们指的是按元素将 x 预测裁剪为 [-1，1]作为静态阈值。事实上，这种方法在之前的工作中已被使用，但并未得到强调 [28]，而且据我们所知，其重要性尚未在引导抽样的背景下得到研究。我们发现静态阈值对于具有大引导权重的采样至关重要，并且可以防止生成空白图像。尽管如此，随着引导权重进一步增加，静态阈值处理仍然会导致图像过饱和且细节较少。

动态阈值。我们引入了一种新的动态阈值处理方法：在每个采样步骤中，我们将 s 设置为 x 预测

中的某个百分位数绝对像素值，如果 s > 1，则将 x 预测阈值设置为范围 [-s，s]，然后除以 s。动态阈值将饱和像素（接近 -1 和 1 的像素）向内推，从而在每一步主动防止像素饱和。我们发现动态阈值处理可以显着提高照片真实感以及更好的图像文本对齐效果，特别是在使用非常大的指导权重时。

2.4 鲁棒级联扩散模型

Imagen 利用基 64*64 模型和两个文本条件超分辨率扩散模型的管道，将 64*64 生成图像上采样为 256*256 图像，然后上采样为 1024*1024 图像。具有噪声条件增强（noise conditioning augmentation）功能的级联扩散模型 [29] 在逐步生成高保真图像方面非常有效。此外，通过以噪声水平为条件使超分辨率模型意识到添加的噪声量，可以显着提高样本质量，并有助于提高超分辨率模型处理较低分辨率模型生成的伪影的鲁棒性[29]。 Imagen 对两种超分辨率模型都使用了噪声条件增强。我们发现这对于生成高保真图像至关重要。

给定条件低分辨率图像和增强级别（简写为 aug_level）（例如，高斯噪声或模糊的强度），我们用增强（对应于 aug_level）破坏低分辨率图像，并以 aug_level 为条件扩散模型。在训练过程中，aug_level 是随机选择的，而在推理过程中，我们会遍历它的不同值以找到最佳样本质量。在我们的例子中，我们使用高斯噪声作为增强形式，并应用方差保留高斯噪声增强，类似于扩散模型中使用的前向过程（附录 A）。使用指定增强级别 aug_level ∈ [0，1]。参考伪代码参见 A.32。

2.5 神经网络架构

基模型：我们将 [40] 中的 U-Net 架构改编为我们的基本 64*64 文本到图像扩散模型。该网络通过池化嵌入向量以文本嵌入为条件，添加到扩散时间步长嵌入，类似于 [16, 29] 中使用的类别嵌入条件方法。我们通过在多种分辨率下的文本嵌入上添加交叉注意力 [57]，进一步以整个文本嵌入序列为条件。我们在附录 D.3.1 中研究了各种文本条件方法。此外，我们发现注意力层和池化层中文本嵌入的层归一化（Layer Normalization） [2] 有助于显着提高性能。

超分辨率模型：对于 64*64 → 256*256 的超分辨率，我们使用改编自 [40, 58] 的U-Net模型。我们对此 U-Net 模型进行了一些修改，以提高内存效率、推理时间和收敛速度（我们的变体的步数/秒比 [40, 58] 中使用的 U-Net 快 2-3 倍）。我们将此变体称为 Efficient U-Net（更多详细信息和比较，请参阅附录 B.1）。我们的 256*256 → 1024*1024 超分辨率模型在 64*64 → 1024*1024 图像的 256*256 裁剪上训练。为了实现这一点，我们删除了自注意力层，但保留了我们认为至关重要的文本交叉注意力层。在推理过程中，模型接收完整的 256*256 低分辨率图像作为输入，并返回上采样的 1024*1024 个图像作为输出。请注意，我们对两个超分辨率模型都使用文本交叉注意。

3. 评估文本到图像模型

COCO [36] 验证集是评估监督 [82, 22] 和零样本设置 [53, 41] 的文本到图像模型的标准基准。使用的关键自动化性能指标是用于测量图像保真度的 FID [26] 和用于测量图像文本对齐的 CLIP 分数 [25, 49]。与之前的工作一致，我们报告了零样本 FID-30K，其中从验证集中随机抽取 30K 提示，并将这些提示生成的模型样本与完整验证集中的参考图像进行比较。由于引导权重是控制图像质量和文本对齐的重要因素，因此我们使用一系列引导权重的 CLIP 和 FID 分数之间的权衡（或帕累托，pareto）曲线来报告大部分消融结果。

FID 和 CLIP 分数都有局限性，例如 FID 与感知质量不完全一致 [42]，而 CLIP 在计数方面无效 [49]。由于这些限制，我们使用人工评估来评估图像质量和标题相似性，并以真实的参考标题-图像对作为基线。我们使用两种实验范例：

为了探究图像质量，要求评估者使用以下问题在生成图像和参考图像之间进行选择：“哪张图像更逼真（看起来更真实）？”。我们报告评估者选择生成图像而不是参考图像的次数百分比（偏好率）。
为了探测对齐情况，人类评估者会看到一张图像和一个提示，并询问 “标题是否准确地描述了上面的图像？”。他们必须回答 “是”、“某种程度上” 或 “不是”。这些回答的得分分别为 100、50 和 0。这些评级是针对生成图像和参考图像独立获得的，并且均进行报告。

对于这两种情况，我们使用从 COCO 验证集中随机选择的 200 个图像标题对。向受试者展示了 50 张图像。我们还使用了交错的 “对照” 试验，并且仅包含正确回答了至少 80% 对照问题的评分者数据。对于图像质量和图像文本对齐评估，每幅图像分别获得了 73 和 51 的评分。

DrawBench：虽然 COCO 是一个有价值的基准，但越来越明显的是，它的提示范围有限，无法轻易提供对模型之间差异的洞察（例如，参见第 4.2 节）。 [10] 最近的工作提出了一个名为 PaintSkills 的新评估集，用于系统地评估 COCO 之外的视觉推理技能和社会偏见。出于类似的动机，我们引入了 DrawBench，这是一套全面且具有挑战性的提示，支持文本到图像模型的评估和比较。 DrawBench 包含 11 类提示，测试模型的不同功能，例如忠实渲染不同颜色的能力、对象的数量、空间关系、场景中的文本以及对象之间不寻常的交互。类别还包括复杂的提示，包括长而复杂的文本描述、生僻单词以及拼写错误的提示。我们还包括从 DALL-E [53]、Gary Marcus 等人 [38] 和 Reddit 收集的提示集。在这 11 个类别中，DrawBench 总共包含 200 个提示，在对大型、全面的数据集的需求与足够小以便人类评估仍然可行的需求之间取得了良好的平衡。（附录 C 提供了 DrawBench 的更详细描述。图 2 显示了来自包含 Imagen 样本的 DrawBench 的示例提示。）

我们使用 DrawBench 直接比较不同的模型。为此，人类评估者会看到两组图像，一组来自模型 A，一组来自模型 B，每组图像都有 8 个样本。人类评估者被要求在样本保真度和图像文本对齐方面比较模型 A 和模型 B。他们会做出以下三个选择之一的回应：更喜欢模型 A；冷漠; 或者更喜欢模型 B。

4. 实验

第 4.1 节描述了训练细节，第 4.2 节和 4.3 节分析了 MS-COCO 和 DrawBench 上的结果，第 4.4 节总结了我们的消融研究和主要发现。对于下面的所有实验，图像都是来自 Imagen 的公平随机样本，没有经过后处理或重新排序。

4.1 训练细节

除非另有说明，我们为 64*64 文本到图像合成训练 2B 参数模型，分别为 64*64 → 256*256 和 256*256 → 1024*1024 超分辨率训练 600M 和 400M 参数模型。我们对所有模型使用 2048 的批量大小和 250 万个训练步骤。我们为基本 64*64 模型使用 256 个 TPU-v4 芯片，为两种超分辨率模型使用 128 个 TPU-v4 芯片。我们不认为过度拟合是一个问题，并且我们相信进一步的训练可能会提高整体表现。我们将 Adafactor 用于我们的基本 64*64 模型，因为与 Adam 的初步比较表明 Adafactor 具有相似的性能，但内存占用要小得多。对于超分辨率模型，我们使用 Adam，因为我们发现 Adafactor 在我们的初始消融中会损害模型质量。对于无分类器指导，我们通过将所有三个模型的文本嵌入以 10% 的概率归零来无条件联合训练。我们结合内部数据集（包含大约 4.6 亿图像-文本对）和公开可用的 Laion 数据集 [61]（包含大约 4 亿图像-文本对）进行训练。我们的训练数据存在局限性，请读者参阅第 6 节了解详细信息。有关更多实施细节，请参阅附录 F。

4.2 COCO 的结果

我们使用 FID 评分在 COCO 验证集上评估 Imagen，类似于 [53, 41]。表 1 显示了结果。 Imagen 在 COCO 上以 7.27 的速度实现了最先进的零样本 FID，优于同时期的 DALL-E2 [54]，甚至优于在 COCO 上训练的模型。表 2 报告了在 COCO 验证集上测试图像质量和对齐情况的人工评估。我们报告原始 COCO 验证集的结果，以及过滤后的版本，其中所有与人相关的参考数据都已被删除。对于逼真度，Imagen 达到了 39.2% 的偏好率，表明生成了高图像质量。在没有人物的场景中，Imagen 的偏好率上升至 43.6%，这表明 Imagen 生成逼真人物的能力有限。在标题相似度方面，Imagen 的得分与原始参考图像持平，这表明 Imagen 能够生成与 COCO 标题非常匹配的图像。

4.3 DrawBench 上的结果

使用 DrawBench，我们将 Imagen 与 DALL-E 2（公共版本）[54]、GLIDE [41]、Latent Diffusion [57] 和 CLIP-guided VQ-GAN [12] 进行比较。图 3 显示了 Imagen 与三个模型中每一个的成对比较的人类评估结果。我们报告了评估者更喜欢模型 A、模型 B 或对图像保真度和图像文本对齐不感兴趣的百分比。我们汇总所有类别和评分者的分数。我们发现，在图像文本对齐和图像保真度方面，相比所有其他模型人类评分者都更喜欢 Imagen。我们建议读者参阅附录 E 进行更详细的类别比较和定性比较。

4.4 Imagen分析

有关 Imagen 的详细分析，请参阅附录 D。主要结果将在图 4 及下文中讨论。

扩展文本编码器大小非常有效。我们观察到，扩展文本编码器的大小可以导致图像文本对齐和图像保真度的持续改进。使用我们最大的文本编码器 T5-XXL（4.6B 参数）训练的 Imagen 产生了最佳结果（图 4a）。

扩展文本编码器大小比扩展 U-Net 大小更重要。虽然扩展扩散模型 U-Net 的大小可以提高样本质量，但我们发现扩展文本编码器大小比 U-Net 大小的影响要大得多（图 4b）。

动态阈值至关重要。我们表明，与静态阈值处理或无阈值处理相比，动态阈值处理使样本具有明显更好的照片真实性和与文本的对齐，特别是在存在大的无分类器指导权重的情况下（图4c）。

在 DrawBench 上，与 CLIP 相比，人类评分者更喜欢 T5-XXL。使用 T5-XXL 和 CLIP 文本编码器训练的模型在 COCO 验证集上的 CLIP 和 FID 分数方面表现相似。然而，我们发现在 DrawBench 上的所有 11 个类别中，人类评分者更喜欢 T5-XXL，而不是 CLIP。

噪声条件增强至关重要。我们表明，通过噪声条件增强训练超分辨率模型可以获得更好的 CLIP 和 FID 分数。我们还表明，噪声调节增强可以为超分辨率模型提供更强的文本条件，从而在更高的指导权重下提高 CLIP 和 FID 分数。在推理过程中向低分辨率图像添加噪声并使用大引导权重，使超分辨率模型能够生成不同的上采样输出，同时消除低分辨率图像中的伪影。

文本条件方法很关键。我们观察到，在样本保真度和图像文本对齐方面，以文本嵌入序列为条件使用交叉注意力的效果明显优于简单均值或基于注意力的池化，并具有更好的样本质量和更快的推理速度。

5. 相关工作

扩散模型在图像生成方面取得了广泛的成功 [28,40,59,16,29,58]，在保真度和多样性方面优于 GAN，并且没有训练不稳定和模式崩溃问题 [6,16,29]。

自回归模型 [37]、GAN [76, 81]、基于 VQ-VAE Transformer 的方法 [53, 22] 和扩散模型在文本到图像 [57, 41, 57] 方面取得了显着进展，包括同时期模型 DALL-E 2 [54]，它使用 CLIP 文本潜在的扩散先验和级联扩散模型来生成高分辨率 1024*1024 图像；我们认为 Imagen 更简单，因为 Imagen 不需要学习潜在的先验，但在 MS-COCO FID 和 DrawBench 上的人类评估中都取得了更好的结果。

GLIDE [41] 也使用级联扩散模型进行文本到图像，但我们使用大型预训练的冻结语言模型，我们发现这对于图像保真度和图像文本对齐都有帮助。

XMC-GAN [81] 也使用 BERT 作为文本编码器，但我们扩展到更大的文本编码器并证明了其有效性。

级联模型的使用在文献中也很流行 [14, 39]，并且已成功用于扩散模型来生成高分辨率图像 [16, 29]。

6. 结论、局限性和社会影响

Imagen 展示了冻结大型预训练语言模型作为文本编码器的有效性，用于使用扩散模型生成文本到图像。我们观察到，扩展这些语言模型的大小比扩展 U-Net 大小对整体性能的影响要大得多，这鼓励了未来探索更大的语言模型作为文本编码器的研究方向。此外，通过 Imagen，我们重新强调了无分类器指导的重要性，并且引入了动态阈值，这允许使用比以前的工作中更高的指导权重。借助这些新颖的组件，Imagen 可以生成 1024*1024 样本，具有前所未有的照片级真实感并与文本对齐。

我们使用 Imagen 的主要目标是使用文本到图像合成作为测试平台，推进生成方法的研究。虽然生成方法的最终用户应用很大程度上超出了范围，但我们认识到这项研究的潜在下游应用是多种多样的，并且可能以复杂的方式影响社会。一方面，生成模型具有补充、扩展和增强人类创造力的巨大潜力 [30]。特别是文本到图像生成模型有潜力扩展图像编辑功能，并为创意从业者开发新工具。另一方面，生成方法可用于恶意目的，包括骚扰和错误信息传播 [20]，并引发许多关于社会和文化排斥和偏见的担忧 [67,62,68]。这些考虑因素决定我们不发布代码或公开演示。在未来的工作中，我们将探索一个负责任的外部化框架，平衡外部审计的价值与不受限制的开放获取的风险。

另一个道德挑战涉及文本到图像模型的大规模数据要求，这导致研究人员严重依赖大型且大多未经整理的网络抓取数据集。尽管这种方法近年来使算法取得了快速进步，但这种性质的数据集已经受到各种伦理维度的批评和争议。例如，关于适当使用公共数据的公共和学术讨论引起了对数据主体意识和同意的担忧 [24,18,60,43]。数据集审计表明，这些数据集往往反映社会刻板印象、压迫性观点以及对边缘化身份群体的贬义或其他有害的关联 [44, 4]。根据这些数据训练文本到图像模型可能会重现这些关联，并造成重大的代表性损害，这将对已经在社会中经历边缘化、歧视和排斥的个人和社区产生不成比例的影响。因此，在像 Imagen 这样的文本到图像模型可以安全地集成到面向用户的应用程序中之前，必须解决许多数据挑战。虽然我们在这项工作中没有直接解决这些挑战，但对训练数据局限性的认识指导我们决定不发布 Imagen 供公众使用。我们强烈警告，在不密切关注和关注训练数据集的内容时，不要在任何面向用户的工具中使用文本到图像的生成方法。

Imagen 的训练数据取自几个预先存在的图像和英文替代文本对数据集。该数据的子集经过过滤，以消除噪音和不良内容，例如色情图像和有毒语言。然而，最近对我们的数据源之一 LAION-400M [61] 的审计发现了广泛的不当内容，包括色情图像、种族主义诽谤和有害的社会刻板印象 [4]。这一发现告诉我们，Imagen 目前不适合公众使用，并且还证明了严格的数据集审核和全面的数据集文档（例如 [23, 45]）在为后续有关模型的适当和安全使用的决策提供信息方面的价值。 Imagen 还依赖于在未经整理的网络规模数据上训练的文本编码器，因此继承了大型语言模型的社会偏见和局限性 [5,3,50]。

虽然我们将对 Imagen 编码的社会和文化偏见进行深入的实证分析留待未来的工作，但我们的小规模内部评估揭示了一些限制，这些限制指导我们决定目前不发布 Imagen。首先，所有生成模型，包括 Imagen，都可能面临丢弃数据分布模式的危险，这可能会进一步加剧数据集偏差的社会后果。其次，Imagen 在生成描绘人物的图像时表现出严重的局限性。我们的人类评估发现，当对不描绘人物的图像进行评估时，Imagen 获得了明显更高的偏好率，这表明图像保真度有所下降。最后，我们的初步评估还表明 Imagen 编码了多种社会偏见和刻板印象，包括生成肤色较浅的人的图像的整体偏见，以及描绘不同职业的图像倾向于与西方性别刻板印象保持一致。即使我们关注的是远离人群的生成，我们的初步分析也表明 Imagen 在生成活动、事件和物体的图像时编码了一系列社会和文化偏见。

虽然已经有大量工作审核图像到文本和图像标记模型的社会偏见形式（例如[8,9,68]），但关于文本到图像模型的社会偏见评估方法的工作相对较少，最近的例外是 [10]。我们相信这是未来研究的一个重要途径，我们打算在未来的工作中探索社会和文化偏见的基准评估——例如，探索是否可以将归一化的逐点互信息度量 [1] 推广到在图像生成模型中的偏见测量。还非常需要围绕文本到图像模型的潜在危害开发概念词汇，以指导评估指标的开发并为负责任的模型发布提供信息。我们的目标是在未来的工作中应对这些挑战。

参考

Saharia C, Chan W, Saxena S, et al. Photorealistic text-to-image diffusion models with deep language understanding[J]. Advances in Neural Information Processing Systems, 2022, 35: 36479-36494.

附录

B. 架构细节

B.1 Efficient U-Net

我们为我们的超分辨率模型引入了一种新的架构变体，我们称之为 Efficient U-Net。我们发现，与之前的一些实现相比，我们的 Efficient U-Net 更简单，收敛速度更快，并且内存效率更高 [40]，尤其是对于高分辨率而言。我们对 U-Net 架构进行了几项关键修改，例如将模型参数从高分辨率块转移到低分辨率、类似于 [66, 59] 将跳跃连接缩放 1/√2 以及反转下采样/上采样操作的顺序以提高前传速度。 Efficient U-Net 对 [16, 58] 中使用的典型 U-Net 模型进行了几处关键修改：

我们通过为较低分辨率添加更多残差块，将模型参数从高分辨率块转移到低分辨率块。由于较低分辨率的块通常具有更多的通道，这使我们能够通过更多的模型参数来增加模型容量，而无需过多的内存和计算成本。
当以较低分辨率使用大量残差块时（例如，与标准 U-Net 架构中使用的典型 2-3 个残差块相比，我们以较低分辨率使用 8 个残差块 [16, 59]），我们发现，类似于 [66, 59] 将跳跃连接缩放 1/√2 显着提高收敛速度。
在典型的 U-Net 下采样块中，下采样操作发生在卷积之后，而在上采样块中，上采样操作发生在卷积之前。我们颠倒了下采样和上采样块的顺序，以显着提高 U-Net 前向传播的速度，并且没有发现性能下降。

通过这些关键的简单修改，与之前的一些 U-Net 实现相比，Efficient U-Net 更加简单，收敛速度更快，并且内存效率更高。图 A.30 显示了 Efficient U-Net 的完整架构，而图 A.28 和 A.29 分别显示了 Efficient U-Net 的下采样和上采样模块的详细描述。结果参见附录 D.3.2。

C. DrawBench

在本节中，我们将描述用于文本到图像模型细粒度分析的新基准，即 DrawBench。 DrawBench 包含 11 个类别，大约有 200 个文本提示。它足够大，可以很好地测试模型，同时又足够小，可以轻松地与人类评估者一起进行试验。表 A.1 列举了这些类别以及说明和一些示例。

D. Imagen 详细的消融和分析

D.1 预训练的文本编码器

我们探索了几个预训练文本编码器系列：BERT [15]、T5 [52] 和 CLIP [49]。这些编码器之间有几个关键区别。 BERT 在较小的纯文本语料库（大约 20 GB，维基百科和 BooksCorpus [84]）上进行训练，具有掩蔽目标，并且具有相对较小的模型变体（最多 340M 参数）。 T5 在更大的 C4 纯文本语料库（约 800 GB）上进行训练，具有去噪目标，并且具有更大的模型变体（最多 11B 个参数）。 CLIP 模型（https://github.com/openai/CLIP/blob/main/model-card.md）在具有图像文本对比目标的图像文本语料库上进行训练。对于 T5，我们使用编码器部分进行上下文嵌入。对于 CLIP，我们使用文本编码器的倒数第二层来获取上下文嵌入。请注意，我们冻结了这些文本编码器的权重（即，我们使用现成的文本编码器，而不对文本到图像生成任务进行任何微调）。我们探索了这些文本编码器的各种模型大小。

我们训练一个 64*64、300M 参数扩散模型，以 BERT（基本和大）、T5（小、基本、大、XL 和 XXL）和 CLIP (ViT-L/14) 生成的文本嵌入为条件。我们观察到，缩放语言模型文本编码器的大小通常会导致更好的图像文本对齐，如 CLIP 分数作为训练步骤数的函数捕获的那样（见图 A.6）。可以看到，使用 T5-XXL 文本编码器获得了最佳 CLIP 分数。

由于引导权重用于控制图像质量和文本对齐，因此我们还使用曲线报告消融结果，这些曲线显示了 CLIP 和 FID 分数之间作为引导权重函数的权衡（见图 A.5a）。我们观察到 T5 编码器的较大变体可以带来更好的图像文本对齐和图像保真度。这强调了大型冻结文本编码器对于文本到图像模型的有效性。有趣的是，我们还观察到，在 MS-COCO 上使用 CLIP 和 FID-10K 进行测量时，T5-XXL 编码器与 CLIP 编码器相当。

T5-XXL 与 DrawBench 上的 CLIP：我们进一步在 DrawBench 上比较 T5-XXL 和 CLIP，以对这两种文本编码器的能力进行更全面的比较。在我们的初步评估中，我们观察到 300M 参数模型在 DrawBench 上的表现明显不佳。我们认为这主要是因为 DrawBench 提示比 MS-COCO 提示困难得多。

为了进行有意义的比较，我们使用 T5-XXL 和 CLIP 文本编码器训练 64*64 1B 参数扩散模型进行此评估。图 A.5b 显示了结果。我们发现，与 CLIP 文本编码器相比，评估者更喜欢使用 T5-XXL 编码器训练的模型的生成，尤其是对于图像文本对齐而言。这表明在编码复杂和组合文本提示方面，语言模型比在图像文本对比目标上训练的文本编码器更好。图 A.7 显示了两种模型之间的具体类别比较。我们观察到，在所有 11 个类别中，对于图像文本对齐，人类评分者更喜欢 T5-XXL 样本而不是 CLIP 样本，这证明了大型语言模型作为文本编码器用于文本到图像生成的有效性。

D.2 无分类器指导和对齐保真度权衡

我们观察到，无分类器指导 [27] 是生成具有强图像文本对齐的样本的关键贡献者，这也与 [53, 54] 的观察结果一致。当我们迭代指导权重时，图像保真度和图像文本对齐之间通常需要权衡。虽然之前的工作通常使用相对较小的指导权重，但 Imagen 对所有三个扩散模型使用相对较大的指导权重。我们发现这可以在样本质量和对齐之间取得良好的平衡。然而，天真地使用大的指导权重通常会产生相对较差的结果。为了有效利用更大的指导，我们引入了多项创新，如下所述。

阈值技术：首先，我们比较与无分类器指导一起使用的各种阈值方法。图 A.8 比较了基本文本到图像 64*64 模型的各种阈值方法的 CLIP 与 FID-10K 分数帕累托前沿（pareto frontiers）。我们观察到，对于各种指导权重，我们的动态阈值技术比静态阈值技术产生显着更好的 CLIP 分数，以及可比或更好的 FID 分数。图 A.9 显示了阈值技术的定性样本。

超分辨率指导：我们进一步分析无分类器指导对我们的 64*64 → 256*256 模型的影响。

图 A.11a 显示了用于 64*64 → 256*256 超分辨率模型的 CLIP 与 FID-10K 得分的帕累托边界。 aug_level 指定在推理过程中应用于输入低分辨率图像的噪声增强级别（aug_level = 0 表示无噪声）。
我们观察到，aug_level = 0 为所有指导权重值提供了最佳 FID 分数。
此外，对于 aug_level 的所有值，我们观察到，随着引导权重增加到 7 - 10 左右，FID 显着提高。
虽然使用较大 aug_level 值的生成会导致 FID 稍差，但它允许 CLIP 分数的范围更加多样化，这表明超分辨率模型的更多样生成。
在实践中，对于我们最好的样本，我们通常使用 aug_level ∈ [0.1，0.3]。
对超分辨率模型使用大的 aug_level 值和高引导权重，Imagen 可以通过更改超分辨率模型的提示来创建给定 64*64 图像的不同变体（示例见图 A.12）。

条件增强的影响：图 A.11b 显示了使用噪声条件增强训练超分辨率模型的影响。没有噪声增强的训练通常会导致更差的 CLIP 和 FID 分数，这表明噪声条件增强对于获得与之前的工作类似的最佳样本质量至关重要 [29]。有趣的是，与使用条件增强训练的模型相比，未使用噪声增强训练的模型在不同指导权重下的 CLIP 和 FID 分数变化要小得多。我们假设这主要是因为强噪声增强训练大大减少了低分辨率图像条件信号，从而鼓励模型对条件文本的更高程度的依赖。

D.3 模型大小的影响

图 A.13b 绘制了 64*64 文本到图像 U-Net 模型的各种模型大小的 CLIP-FID 分数权衡曲线。我们使用 2048 的批量大小和 400K 的训练步骤来训练每个模型。当我们将 U-Net 模型的参数从 300M 扩展到 2B 参数时，随着模型容量的增加，我们获得了更好的权衡曲线。有趣的是，与缩放 U-Net 模型大小相比，缩放冻结文本编码器模型大小可以在模型质量方面带来更多改进。使用冻结文本编码器进行缩放也更容易，因为可以在训练期间离线计算和存储文本嵌入。

D.3.1 文本条件模式的影响

我们消融了用于条件基本 64*64 文本到图像扩散模型的冻结文本嵌入的各种模式。图 A.13a 比较了平均池化、注意力池化和交叉注意力的 CLIP-FID 帕累托曲线。

我们发现，与关注注意力层中的上下文嵌入序列相比，使用任何池化嵌入配置（均值或注意力池）的性能明显较差。
我们通过将文本嵌入序列连接到基 64*64 和 64*64 → 256*256 模型中每个自注意力层的 key-value 对来实现交叉注意力。
对于我们的 256*256 → 1024*1024 模型，由于我们没有自注意力层，我们只是添加了显式的交叉注意力层来关注文本嵌入。我们发现这可以以最小的计算成本提高保真度和图像文本对齐。

D.3.2 U-Net 与 Efficient U-Net 的比较

我们将 U-Net 与我们新的 Efficient U-Net 在 64*64 → 256*256 超分辨率任务上的性能进行比较。图 A.14 比较了两种架构的训练收敛性。我们观察到 Efficient U-Net 的收敛速度明显快于 U-Net，并且总体性能更好。我们的 Efficient U-Net 采样速度也快了 2 × 3。

E. 与 GLIDE 和 DALL-E 2 的比较

图 A.15 显示了 Imagen 和 DALL-E 2 [54] 在 DrawBench 上的类别比较。我们观察到，在 11 个文本对齐类别中的 7 个类别中，人类评分者显然更喜欢 Imagen 而不是 DALL-E 2。就样本保真度而言，在所有 11 个类别中，他们更喜欢 Imagen，而不是 DALL-E 2。

图 A.17 至 A.21 显示了用于人类评估研究的 Imagen 和 DALL-E 2 样本之间的一些定性比较。 Imagen 比 DALL-E 2 具有更大偏好的一些类别包括颜色、位置、文本、DALL-E 和描述。

[54] 中的作者指出了 DALL-E2 的一些局限性，特别是他们观察到 DALLE-E 2 在将属性绑定到对象（例如颜色）以及从输入提示生成连贯文本方面比 GLIDE [41] 更差（参见[54]中对限制的讨论）。为此，我们还在 DrawBench 上与 GLIDE [41] 进行了定量和定性比较。

Imagen 和 GLIDE 之间的分类人类评估比较见图 A.16。
定性比较见图 A.22 至 A.26。
Imagen 在图像文本对齐的 11 个类别中的 8 个类别中优于 GLIDE，在图像保真度的 11 个类别中的 10 个类别中优于 GLIDE。
我们观察到 GLIDE 在将属性绑定到目标方面比 DALL-E2 好得多，这证实了 [54] 的观察结果。

S. 总结

S.1 主要贡献

本文提出文本到图像扩散模型 Imagen。

关键发现是，增加语言模型大小（在纯文本语料库上进行预训练的通用大型语言模型）比增加图像扩散模型的大小有更好的生成性能。
Imagen 很大程度上依赖于无分类器的指导来实现有效的文本调节。
在编码复杂和组合文本提示方面，语言模型比在图像文本对比目标上训练的文本编码器（例如，CLIP）更好。

本文引入动态阈值处理，这是一种新的扩散采样技术，可以利用高指导权重（且不会因为训练与测试不匹配而产生高度饱和和不自然的图像）并生成比以前更加逼真和详细的图像。

本文引入 DrawBench，包含 11 类提示，测试模型的不同功能，例如忠实渲染不同颜色的能力、对象的数量、空间关系、场景中的文本以及对象之间不寻常的交互。类别还包括复杂的提示，包括长而复杂的文本描述、生僻单词以及拼写错误的提示。在这 11 个类别中，DrawBench 总共包含 200 个提示，在对大型、全面的数据集的需求与足够小以便人类评估仍然可行的需求之间取得了良好的平衡。

本文引入 Efficient U-Net，与以往的 U-Net 相比更简单，收敛速度更快，并且内存效率更高尤其是对于高分辨率而言。

S.2 架构

Imagen （如图 A4 所示）包含：一个冻结的 T5-XXL 编码器，用于将输入文本映射到一个嵌入序列；一个 64*64 图像扩散模型；然后是两个超分辨率扩散模型，用于生成 256*256 和 1024*1024 图像。具有噪声条件增强（noise conditioning augmentation）功能的级联扩散模型在提升逐步生成的质量和鲁棒性方面很有效。

Efficient U-Net 对典型 U-Net 模型进行了几处关键修改：

为较低分辨率添加更多残差块，将模型参数从高分辨率块转移到低分辨率块，从而增加模型容量，降低内存占用和计算成本，并提高收敛速度。
在典型的 U-Net 中，上/下采样分别发生在卷积的前/后。Efficient U-Net 颠倒了下采样和上采样块的顺序，以显着提高 U-Net 前向传播的速度，且没有发现性能下降。