（2024，Imagen 3 模型卡，定性和定量结果，LDM，Gemini）

本文链接：https://blog.csdn.net/qq_44681809/article/details/141187491

Imagen 3

0. 摘要

我们介绍了 Imagen 3，这是一种潜在扩散模型，可以根据文本提示生成高质量的图像。我们描述了模型的质量和责任评估。在评估时，Imagen 3 优于其他先进的（SOTA）模型。此外，我们还讨论了安全性和表示问题，以及我们用来尽量减少模型潜在危害的方法。

1. 引言

文本生成图像（T2I）模型驱动了许多用例，例如图像生成和编辑，以及场景理解。在这份技术报告中，我们概述了 Google 的 Imagen 系列最新模型——Imagen 3 的训练和评估。在默认配置下，Imagen 3 生成的图像分辨率为 1024 × 1024，并且可以通过 2 倍、4 倍或 8 倍的超分辨率采样进行放大。我们描述了与其他最先进的T2I 模型进行对比的评估和分析。我们发现 Imagen 3 比其他模型更受欢迎，尤其是在逼真度以及遵循长而复杂的用户提示方面表现出色。部署 T2I 模型带来了许多新的挑战，我们详细描述了旨在理解与这一模型系列相关的安全性和责任风险的实验，以及我们减少潜在危害的努力。

2. 数据

我们的模型是在一个包含图像、文本和相关注释的大型数据集上进行训练的。为了确保质量和安全标准，我们采用了多阶段过滤过程。这个过程首先去除不安全、暴力或低质量的图像。接着，我们去除 AI 生成的图像，以防止模型学习到这些图像中常见的伪影或偏见。此外，我们还使用去重管道，并降低相似图像的权重，以最大限度地减少输出结果对训练数据中特定元素的过拟合风险。

我们数据集中的每张图像都配有原始的（来自 alt text、人工描述等）和合成的标题（Betker 等，2023）。合成标题是使用 Gemini 模型通过多种提示生成的。我们利用多个 Gemini 模型和指令，最大限度地提高这些合成标题的语言多样性和质量（Garg 等，2024）。我们还应用过滤器去除不安全的标题和个人身份信息。

3. 评估

我们将最高质量配置的 Imagen 3 模型与 Imagen 2 及以下外部模型进行了比较：DALL·E 3（Betker等，2023），Midjourney v6，Stable Diffusion 3 Large（SD3，Esser等，2024），和Stable Diffusion XL 1.0（SDXL 1，Podell等，2023）。通过广泛的人类（第 3.1 节）和自动化（第 3.2 节）评估，我们发现 Imagen 3 在文本生成图像方面设立了新的行业标准。我们在第 3.3 节讨论了整体结果和局限性，第 3.4 节则包括定性结果。需要注意的是，可能将 Imagen 3 纳入的产品在性能上可能与测试配置有所不同。

3.1 人类评估

3.2 自动评估

3.3 结论与局限性

总体而言，Imagen 3 在提示-图像对齐方面明显领先（第3.1.2节，第3.2.1节），特别是在详细提示（第3.1.4节）和计数能力（第3.1.5节）方面；而在视觉吸引力上（第3.1.3节），Midjourney v6占据领先地位，Imagen 3 位居第二。考虑到所有的质量方面，Imagen 3 在总体偏好上明显领先（第3.1.1节），表明它在输出高质量且符合用户意图的结果上达到了最佳平衡。

虽然 Imagen 3 和其他当前的强大模型表现出了令人印象深刻的性能，但它们在某些能力上仍然存在不足。特别是，需要数值推理的任务——从生成确切数量的对象到推理部分内容——对所有模型来说都是一个挑战。此外，涉及规模推理（例如“房子和猫的大小相同”）、组合短语（例如“一个红色帽子和一本黑色玻璃书”）和动作（“一个人投掷橄榄球”）的提示对所有模型来说都是最难的。其次是需要空间推理和复杂语言的提示。

3.4 定性结果

4. 负责任的开发和部署

见原文。

附录

A. Imagen 3 模型卡

A.1 模型信息

描述：Imagen 3 是一种潜在扩散模型，可以根据文本提示生成高质量的图像。Imagen 3 在逼真构图设置中表现出色，并且能够遵循长而复杂的用户提示。

输入：自然语言文本字符串，例如使用视觉描述创建合成图像的指令。

输出：根据文本输入生成高质量的图像。

A.2 模型数据

训练数据集：Imagen 3 模型是在一个包含图像、文本和相关注释的大型数据集上进行训练的。

数据预处理：多阶段的安全和质量过滤过程采用了符合 Google 政策的数据清理和过滤方法。这些方法包括：

安全和质量图像过滤：去除不安全、暴力或低质量的图像。
消除 AI 生成图像：去除 AI 生成的图像，以防止模型学习到 AI 生成图像中的伪影或偏见。
去重图像：使用去重管道，并降低相似图像的权重，以最大限度地减少输出结果对训练数据中过拟合的风险。
合成标题：数据集中的每张图像都配有原始标题和合成标题。合成标题是使用 Gemini 模型生成的，允许模型学习图像的小细节。
过滤不安全的标题：应用过滤器去除不安全的标题或包含个人身份信息（PII）的标题。

A.3 实现和可持续性

硬件：Imagen 3 使用最新一代的张量处理单元（TPU）硬件（TPUv4 和 TPUv5）进行训练。TPU专门设计用于处理训练大型语言模型（LLM）所需的大量计算，与 CPU 相比，可以显著加快训练速度。TPU 通常配备大量的高带宽内存，使其能够在训练过程中处理大型模型和批量数据，从而提高模型质量。TPU Pods（TPU 的集群）还提供了一种可扩展的解决方案，训练可以分布在多个TPU 设备上，以实现更快和更高效的处理。

通过使用 TPU 获得的效率与 Google 致力于可持续运营的承诺是一致的。

软件：训练使用 JAX 进行，这使研究人员能够利用最新一代的硬件（包括 TPU）来更快、更高效地训练大型模型。

论文地址：https://arxiv.org/abs/2408.07009

Huggingface 论文页面：https://huggingface.co/papers/2408.07009

“I cannot find any implementation details. I think Imagen 3 is harmful without control. However, I’m sad not to release the details as an engineer.”

公和众：EDPJ（进 Q 交流群：922230617 或加 VX：CV_EDPJ 进 V 交流群）
加 VX 群请备注学校 / 单位 + 研究方向