【AIGC】2024-arXiv-CtrLoRA：一种可扩展且高效的可控图像生成框架-CSDN博客

本文链接：https://blog.csdn.net/weixin_42475026/article/details/143306616

2024-arXiv-CtrLoRA: An Extensible and Efficient Framework for Controllable Image Generation

CtrLoRA：一种可扩展且高效的可控图像生成框架

CtrLoRA：一种可扩展且高效的可控图像生成框架

作者：Yifeng Xu, Zhenliang He, Shiguang Shan, Xilin Chen
单位：Key Lab of AI Safety, Institute of Computing Technology, CAS, China, University of Chinese Academy of Sciences, China
论文地址：2024-arXiv-CtrLoRA: An Extensible and Efficient Framework for Controllable Image Generation

摘要

最近，大规模扩散模型在文本到图像（T2I）生成方面取得了令人瞩目的进展。为了进一步使这些 T2I 模型具备细粒度的空间控制能力，ControlNet 等方法引入了一个额外的网络来学习遵循条件图像。但是，对于每一种条件类型，ControlNet 都需要对数百万个数据对进行独立训练，耗费数百个 GPU 小时，这非常昂贵，并且使普通用户难以探索和开发新类型的条件。为了解决这个问题，我们提出了 CtrLoRA 框架，该框架训练 Base ControlNet 以从多个基本条件中学习图像到图像生成的常识，同时训练特定于条件的 LoRA 以捕捉每种条件的不同特征。利用我们预先训练的 Base ControlNet，用户可以轻松地将其适应新条件，在大多数情况下，只需 1,000 个数据对和不到一小时的单 GPU 训练即可获得满意的结果。此外，与 ControlNet 相比，我们的 CtrLoRA 将可学习参数减少了 90%，大大降低了分配和部署模型权重的门槛。在各种条件下进行的大量实验证明了我们方法的效率和有效性。代码和模型权重将在 https://github.com/xyfJASON/ctrlora 发布。

图 1

图 1：我们的单条件生成、多条件生成、风格转换的结果。

1. 引言

近年来，扩散模型（Sohl-Dickstein et al., 2015; Song & Ermon, 2019; Ho et al., 2020）已成为视觉生成和编辑任务中最流行的生成模型之一。扩散模型的卓越性能和可扩展性鼓励研究人员在数十亿个文本-图像对上训练大型模型（Schuhmann et al., 2022），从而产生了强大且有影响力的文本到图像（T2I）基础模型（Rombach et al., 2022; Saharia et al., 2022; Ramesh et al., 2022; Betker et al., 2023; Chen et al., 2024; Xue et al., 2024）。此外，通过将这些基础模型与 LoRA（Hu et al., 2022; Ryu, 2022）等参数高效微调（PEFT）方法相结合，用户无需大量训练数据和计算资源即可获得个性化模型，这大大降低了将 T2I 基础模型扩展到各种艺术创作的门槛。利用 “Base + PEFT” 范式，尤其是 “Stable Diffusion + LoRA”，包括艺术家在内的众多技术和非技术背景的个人都采用了这种方法进行艺术创作，形成了一个庞大的社区和技术生态系统。

然而，T2I 模型很难准确控制布局和姿势等空间细节，因为仅靠文本提示不足以精确传达这些细节。为了解决这个问题，ControlNet（Zhang et al., 2023）增加了一个接受条件图像的额外网络，将 T2I 模型转变为图像到图像（I2I）模型。通过这种方式，ControlNet 能够根据特定类型的条件图像（例如 canny edge）生成图像，从而显著提高可控性。然而，对于每种条件类型，都需要使用大量数据和计算资源从头开始训练一个独立的 ControlNet。例如，以 canny edge 为条件的 ControlNet 需要大约 600 个 A100 GPU 小时对 300 万张图像进行训练。如此庞大的预算使得普通用户很难为一种新型条件图像创建 ControlNet，与蓬勃发展的 Stable Diffusion 社区相比，这阻碍了 ControlNet 社区的发展¹。因此，值得寻找一个简单而经济的解决方案来扩展有前景的 ControlNet 来处理新型条件图像。

¹ 截至 2024 年 9 月 24 日，在最受欢迎的 AI 艺术模型存储库之一 civitai.com 上，有 1024 个模型带有 Stable Diffusion 标记，而只有 56 个模型带有 ControlNet 标记。

为了解决这个问题，受 “Base + PEFT” 范式的启发，我们提出了一个 CtrLoRA 框架，使用户可以方便高效地为自定义类型的条件图像建立控制网络。如图 2(a) 所示，我们首先在大规模数据集上跨多个基本条件到图像任务（例如 canny-to-image、depth-to-image 和 Skeleton-to-image）训练一个 Base ControlNet，其中网络参数由所有这些基本条件共享。同时，对于每个基本条件，我们向 Base ControlNet 添加一个特定于条件的 LoRA。通过这种方式，特定于条件的 LoRA 可以捕获相应条件的独特特征，从而使 Base ControlNet 能够专注于同时从多个条件学习图像到图像（I2I）生成的共同知识。因此，通过训练新的 LoRA 层，可以轻松将训练有素且具有通用 I2I 能力的基本控制网络扩展到任何新条件，如图 2(b) 所示。在大多数情况下，借助我们的框架，我们只需 1,000 个训练数据，在单个 GPU 上训练不到一小时，即可学习定制类型的条件。此外，我们的方法每个新条件仅需要 3700 万个 LoRA 参数，与原始 ControlNet 为每个条件所需的 3.61 亿个参数相比，这是一个显着的减少。总之，与原始 ControlNet 相比，我们的方法大大降低了资源需求，如表 1 所示。

图 2

图 2：CtrLoRA 框架概览。“CN” 表示 Base ControlNet，“L” 表示 LoRA。（a）我们首先在包含多个基本条件的大规模数据集上结合条件特定 LoRA 训练共享 Base ControlNet。（b）训练后的 Base ControlNet 可以轻松适应新条件，且所需数据、设备和时间明显更少。

表 1

表 1：模型大小、数据集大小和训练时间成本的比较。对于 $N$ 个条件，ControlNet 的参数总数为 361${\rm M}×N$，而我们的 CtrLoRA 的参数总数为 360${\rm M}$+37${\rm M}×N$。

我们的贡献总结如下：

我们提出了一个有效且高效的可扩展图像到图像生成框架。该框架利用共享的 Base ControlNet 来学习图像到图像生成的常识，同时采用特定于条件的 LoRA 来捕获每个图像到图像任务的独特特征。
通过训练新的 LoRA 层，我们的 Base ControlNet 可以轻松且经济地适应新条件，与原始 ControlNet 相比，这需要的资源要少得多，包括减少训练数据、缩短训练时间和减小模型大小。因此，我们的方法大大降低了普通用户创建自定义 ControlNet 的门槛。
无需额外训练，我们的 Base ControlNet 和 LoRA 就可以无缝集成到公共社区的各种基于 Stable Diffusion 的模型中。此外，针对不同条件训练的 LoRA 可以轻松组合以实现更精细、更复杂的控制。
我们优化了条件嵌入网络的设计和初始化策略，大大加快了训练收敛速度。而且，通过这种方式，我们就不会观察到原始ControlNet中出现的突然收敛现象。

3. 方法

在本节中，我们介绍了可扩展图像到图像（I2I）生成的 CtrLoRA 框架的设计和训练策略。在第 3.1 节中，我们介绍了基本公式并阐明了相关符号。在第 3.2 节中，我们提出了 Base ControlNet，作为各种 I2I 生成任务的基础模型。在第 3.3 节中，我们说明了如何使用 LoRA 有效地将 Base ControlNet 适应新条件。在第 3.4 节中，我们解释了条件嵌入网络的设计，以加速训练收敛。

3.1 准备工作

在扩散模型（Ho et al., 2020; Rombach et al., 2022）中，每个数据样本 $\mathbf{x}_0$ 通过马尔可夫过程扩散到高斯噪声中，而生成模型则经过训练以使用以下损失函数来逆转此过程：

公式 1

其中 $\mathbf{x}_{t}=\sqrt{\bar{\alpha}_{t}}\mathbf{x}_{0}+\sqrt{1-\bar{\alpha}_{t}}\mathbf{\epsilon}$ 表示步骤 $t$ 处的噪声样本， $\mathbf{\epsilon}_{\theta}$ 是用于预测扩散噪声 $\mathbf{\epsilon}$ 的神经网络。

对于条件生成，损失函数可以修改如下（Zhang et al., 2023）：

公式 2

其中 $\mathbf{c}$ 表示条件信号，例如，对于文本到图像生成， $\mathbf{c}$ 表示文本；对于图像到图像（I2I）生成， $\mathbf{c}$ 表示图像。具体来说，用于 I2I 生成的 ControlNet (Zhang et al., 2023) 设计了噪声预测网络 $\mathbf{\epsilon}_{\theta}\left(\mathbf{x}_t,\ \mathbf{c}\right)$ ，如下所示：

公式 3

其中 $\mathcal{E}$ 和 $\mathcal{D}$ 表示在 Stable Diffusion（Rombach et al., 2022）中预训练的 UNet 的编码器和解码器， $\mathcal{C}_\theta$ 表示控制网络， $\mathcal{F}_\theta$ 表示条件嵌入网络。

在原始控制网络（ControlNet）中，等式 (3) 中的 $\mathcal{C}_\theta$ 针对每种类型的条件图像进行独立训练，并且不能在不同条件之间共享，这导致对训练数据和计算资源的需求巨大。在以下部分中，我们将介绍将 $\mathcal{C}_\theta$ 训练为共享且可扩展的 Base ControlNet 的 CtrLoRA 框架，并解释如何以更少的数据和更少的设备将其有效地扩展到各种新条件。

² 下文中，我们重点讨论 I2I 生成，并假设文本条件为默认条件。因此，为了简化符号，我们省略文本条件，并使用 $\mathbf{c}$ 来表示图像条件。

3.2 可扩展 I2I 生成的 Base ControlNet

要为各种图像到图像（I2I）生成任务建立一个通用模型，就需要全面了解 I2I 生成。为此，我们建议同时对多种条件图像进行共享的 Base ControlNet 训练，以获得不同 I2I 任务的共同知识。同时，为了防止 Base ControlNet 因不同条件而混淆，我们建议在 Base ControlNet 的每个线性层中添加特定条件的 LoRA 层。通过这种方式，不同条件特定的 LoRA 负责捕获相应任务的独特特征，因此共享的 Base ControlNet 可以专注于 I2I 生成的共同知识。整个架构如图 3(a) 所示。

图 3

图 3：我们的 CtrLoRA 框架的训练和推理。“SD” 表示 Stable Diffusion，“CN” 表示 Base ControlNet，不同颜色的 “L” 表示不同条件下的 LoRA。

具体来说，假设我们有 $K$ 种不同类型的基本条件 $\left\{\mathbf{c}^{\left (k\right)}\right\}_{k=1}^{K}$ ，其对应的数据子集为 $\left\{\mathcal{D}^{\left (k\right)}\right\}_{k=1}^{K}$ ， $\mathcal{C}_\theta$ 表示基本控制网， $\mathcal{L}_\psi\left(k\right)$ 表示负责第 $k$ 个条件的条件特定 LoRA。在此背景下，我们建议调整等式 (3) 中的噪声预测网络，如下所示：

图 4

实际上，每个训练批次中只选择一个条件，并且不同条件按批次迭代，因此可以使用相同数量的训练迭代来优化所有条件。对于每个批次，将打开并更新与当前条件相对应的 LoRA 层，如图 3(a) 所示。

为了确保 Base ControlNet 的有效性和通用性，训练过程在 9 个基本条件下进行，包含数百万个数据（Qin et al., 2024），大约需要 6000 个 GPU 小时。尽管耗费资源，但该过程为有效适应新条件铺平了道路，如第 3.3 节所示。

3.3 有效适应新条件

由于训练有素的 Base ControlNet 学习了足够的 I2I 生成的一般知识，因此可以通过参数高效的微调有效地适应新条件。与第 3.2 节中针对基本条件的 LoRA 类似，我们也可以在冻结 Base ControlNet 的同时为任何新条件训练新的 LoRA，如图 3(b) 所示。因此，当将 LoRA 等级设置为 128 时，只有 3700 万个可优化参数，与全参数微调的 3.6 亿个参数相比大幅减少。此外，在大多数情况下，只需 1,000 个数据对和在单个 RTX 4090 GPU 上进行不到一小时的训练就足以获得令人满意的结果。

此外，针对不同条件训练的 LoRA 可以组合起来用于多条件生成。具体来说，我们可以通过将配备相应 LoRA 的 Base ControlNet 的输出相加来生成满足多种条件的图像，如图 3© 所示。

3.4 条件嵌入网络的设计

在原始的 ControlNet（Zhang et al., 2023）中，使用一个随机初始化的简单卷积网络将条件图像映射到嵌入中，这被称为条件嵌入网络。然而，随机初始化的网络在训练开始时无法从条件图像中提取任何有用的信息，从而导致收敛速度慢。

为了解决这个问题，我们建议使用 Stable Diffusion 的预训练 VAE（Rombach et al., 2022）作为条件嵌入网络，而不是随机初始化网络，如图 3 和公式 (4) 所示。一方面，由于预训练的 VAE 已被证明能够有效地表示和重建图像（Rombach et al., 2022），它已经可以从条件图像中提取有意义的嵌入而无需额外的学习。另一方面，由于 Base ControlNet 被初始化为 Stable Diffusion 编码器的可训练副本，因此预训练 VAE 的嵌入空间与 Base ControlNet 的初始输入空间无缝匹配。总之，与随机初始化的网络相比，使用预训练 VAE 作为条件嵌入网络不需要额外的努力来学习合适的嵌入空间，因此可以实现更快的收敛。此外，使用这种方法，不再观察到与原始 ControlNet 相关的突然收敛现象。

4. 实验

4.1 实验设置

数据集。为了训练 Base ControlNet，我们使用了大规模数据集 MultiGen-20M（Qin et al., 2024），其中包含 9 个图像到图像任务中的 2000 多万个图像条件对。为了训练 LoRA 以适应新条件，我们基于 COCO2017（Lin et al., 2014）训练集创建了多种类型的图像条件对。对于所有定量评估，我们使用 COCO2017 验证集。此外，我们使用 HazeWorld 数据集（Xu et al., 2023）进行去雾任务，使用 Raindrop 数据集（Qian et al., 2018）进行去雨滴任务，使用 Yang et al. (2020) 的数据集进行低光图像增强，使用 Danbooru2019 数据集（Branwen et al., 2019）进行动漫生成。

评估指标。我们使用 LPIPS（Zhang et al., 2018）在两种情况下测量生成的图像对条件图像的忠实度。对于包括 Canny、HED、Sketch、Depth、Normal、Segmentation、Skeleton、Lineart 和 Densepose 在内的条件，目标是生成与条件图像匹配的图像。因此，我们从生成的图像中重新提取条件并将其与真实条件图像进行比较。对于包括 Outpainting、Inpainting 和 Dehazing 在内的条件，目标是从退化图像中生成高保真图像。因此，我们将生成的图像与真实图像进行比较。此外，我们使用 FID 分数（Heusel et al., 2017）来评估图像质量。

实施细节。为了与其他方法进行公平比较，我们在所有实验中都使用 Stable Diffusion v1.5。在训练基本控制网时，我们将每个基本任务的 LoRA 等级设置为 128。基本控制网使用 AdamW 优化器（Loshchilov & Hutter, 2017）训练，700k 步，学习率为 $1×10^{−5}$ ，批次大小为 32，在 8 个 RTX4090 GPU 上大约需要 6000 GPU 小时。对于所有新条件，LoRA 等级均设置为 128。此外，我们还对规范化层和零卷积进行了微调。我们使用 AdamW 优化器，学习率为 $1×10^{−5}$ ，批次大小为 1。在此阶段，只需要一个 GPU，这比训练原始控制网的要求要便宜得多。对于采样，我们应用 DDIM（Song et al., 2021a）采样器，步长为 50。无分类器指导的权重（Ho & Salimans, 2022）设置为 7.5，ControlNet 的强度设置为 1.0。我们不使用任何额外提示或负面提示进行定量评估。

4.2 与现有方法的比较

基础条件下的性能。为了展示 Base ControlNet 的容量，我们评估了它在基础条件下的性能，如表 2 和图 4 所示。我们将结果与 UniControl（Qin et al., 2024）进行了比较，UniControl 是一种最先进的方法，它训练一个统一的模型来管理所有基础条件，类似于我们的 Base ControlNet。可以看出，对于基础条件，我们的 Base ControlNet 的性能与最先进的 UniControl 相当，展示了其强大的基本能力。此外，我们的 Base ControlNet 可以轻松高效地扩展到新条件，而使用 UniControl 则并非易事。

表 2

表 2：基础条件的定量比较。

图 4

图 4：基准条件下的视觉比较。

适应新条件。对于新条件，我们将我们的方法与 ControlNet（Zhang et al., 2023），ControlNet-LITE（Zhang et al., 2023）和ControlNet-XS（Zhang et al., 2023）进行了比较。后两者是 ControlNet 的轻量级替代品，旨在优化网络架构并加速训练过程。为了评估数据效率和可扩展性，我们分别在 1k 和 100k 训练图像上进行实验，如表 3 和图 5 所示。在有限的训练集（1k）下，CtrLoRA 的表现始终远远优于竞争对手，凸显了其在快速适应新条件方面的优势。在大型训练集（100k）下，CtrLoRA 取得了更好或相当的结果。综上所述，在适应新条件方面，我们的 CtrLoRA 不仅数据效率高，而且随着数据规模的增加也能取得令人满意的性能。

表 3

表 3：新条件下的定量比较。每个单元格代表 “LPIPS↓ / FID↓”。

图 5

图 5：新条件下的视觉比较。

收敛速度。我们根据训练步骤将结果可视化，并在图 6 中绘制收敛曲线。可以看出，我们的 CtrLoRA 仅在 500 个训练步骤后就开始遵循条件，而其他方法需要超过 10,000 步才能达到收敛。

图 6

图 6：收敛速度的视觉比较。

4.3 消融研究

每个组件的效果。我们从原始 ControlNet 开始，逐个添加我们提出的组件，以验证组件的效果，从而得到表 4 中的三个增量设置（A-C）。在表 4 和图 7 的设置（A）中，我们评估了使用预训练 VAE 作为条件嵌入网络的效果，如第 3.4 节所述。可以看出，使用预训练 VAE 可以提高 LPIPS 和 FID 分数，并加快训练收敛速度。在设置（B）中，我们进一步将 ControlNet 的初始化从 Stable Diffusion 切换到训练有素的 Base ControlNet，并执行全参数微调，以验证 Base ControlNet 的通用性。如图所示，我们的 Base ControlNet 可以在有限的训练集（1k 张图像）下更快地适应新条件，并且在大型训练集（100k 张图像）下仍能实现领先的性能。这一结果表明，我们的 Base ControlNet 学习了足够的 I2I 生成常识，确实有助于适应新条件。最后在设置（C）中，我们用条件特定的 LoRA 代替全参数训练，这代表了我们方法的完整实现。如图所示，尽管 LoRA 将可优化参数减少了 90%，但它并没有损失太多性能，并且在大多数情况下保持了第二好的性能，证明了我们的 CtrLoRA 框架的有效性和效率。

表 4

表 4：所提成分的效果。每个单元格代表 “LPIPS↓ / FID↓”。

图 7

图 7：ControlNet 与设置（A）之间的收敛速度比较。

LoRA 等级的影响。我们用 32、64、128 和 256 的 LoRA 等级来评估 CtrLoRA 性能，并且我们还评估全参数训练作为上限。如图 8 所示，LPIPS 随着等级的增加而提高，而 FID 分数在等级 64 时趋于稳定。为了平衡性能和可优化参数的数量，我们在所有条件下选择 128 的等级。

训练集大小的影响。我们分别在包含 1k、3k、5k、10k 和 50k 图像的数据集上训练我们的 CtrLoRA，每个数据集大小运行 5 个 epoch。如图 9 所示，LPIPS 和 FID 都会随着数据集大小的增加而提高。尽管如此，在我们的实践中，对于大多数新条件，少量的训练数据（1k 张图像）通常足以获得令人满意的视觉感知。

图 8

图 8：LoRA 等级的影响。

图 9

图 9：训练集大小的影响。

4.4 其他实验

更多新奇条。件我们在图 10 中提供了更多新奇条件的视觉结果，包括调色板、带颜色提示的线性图、像素、去雨滴、低光图像增强和幻觉。尽管这些条件之间存在显著差异，但我们的方法在所有这些条件下都取得了不错的结果，这证明了我们的 CtrLoRA 对各种条件的普遍性。

集成到社区模型中。我们的 CtrLoRA 可以直接应用于基于 Stable Diffusion 1.5 的社区模型。在图 11(a) 中，我们将我们的 CtrLoRA 集成到四个风格截然不同的社区模型中。结果表现出不同的风格，但与给定的条件保持一致，这表明我们的方法可以灵活地用作即插即用模块，而无需额外的训练。

结合多种条件。通过为 Base ControlNet 配备不同的 LoRA 并对其输出求和，我们可以执行多条件生成而无需额外的训练。可以手动调整分配给每个条件的权重，以控制其对最终结果的影响，在大多数情况下，权重为 1 通常就足够了。如图 11(b) 所示，我们的 CtrLoRA 可以生成同时符合两个条件的视觉吸引力图像。

图 10

图 10：我们的 CtrLoRA 针对各种新条件的视觉结果。

图 11

图 11：无需额外训练，训练有素的 CtrLoRA 可以直接集成到各种社区模型中并组合进行多条件生成。

5. 结论与局限性

在本文中，我们提出了 CtrLoRA，这是一个旨在使用最少的数据和资源为任何新条件开发可控生成模型的框架。在这个框架中，我们首先训练一个 Base ControlNet 以及特定于条件的 LoRA，以捕获图像到图像生成的常识，然后通过训练新的 LoRA 使其适应新条件。与 ControlNet 相比，我们的方法显著降低了对数据和计算资源的要求，并大大加快了训练收敛速度。此外，训练后的模型可以无缝集成到社区模型中，并结合进行多条件生成，而无需进一步训练。通过降低开发门槛，我们希望我们的研究能够鼓励更多人加入社区，促进可控图像生成的发展。

我们通过经验发现，与颜色相关的条件（例如带有颜色提示的 Palette 和 Lineart）往往比仅涉及空间关系的条件收敛得更慢。这种现象似乎是一个常见问题，不仅出现在我们的方法中，也出现在其他基于 ControlNet 的竞争对手中。我们推测这个问题可能源于网络架构的功能，特别是 VAE、基于 UNet 的 Stable Diffusion 和 ControlNet 的架构。为了增强我们框架的功能，值得使用更先进的基于 DiT（Peebles & Xie, 2023）的主干（例如 Stable Diffusion V3（Esser et al., 2024）和 Flux.1）来开发我们的 CtrLoRA，我们将留待将来再研究。

参考文献

Yogesh Balaji, Seungjun Nah, Xun Huang, Arash Vahdat, Jiaming Song, Qinsheng Zhang, Karsten Kreis, Miika Aittala, Timo Aila, Samuli Laine, et al. ediff-i: Text-to-image diffusion models with an ensemble of expert denoisers. arXiv preprint arXiv:2211.01324, 2022.
Fan Bao, Shen Nie, Kaiwen Xue, Yue Cao, Chongxuan Li, Hang Su, and Jun Zhu. All are worth words: A vit backbone for diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 22669–22679, 2023.
James Betker, Gabriel Goh, Li Jing, Tim Brooks, Jianfeng Wang, Linjie Li, Long Ouyang, Juntang Zhuang, Joyce Lee, Yufei Guo, et al. Improving image generation with better captions. Computer Science. https://cdn. openai. com/papers/dall-e-3. pdf, 2(3):8, 2023.
Gwern Branwen, Anonymous, and Danbooru Community. Danbooru2019 portraits: A large-scale anime head illustration dataset. https://gwern.net/crop#danbooru2019-portraits, March 2019. URL https://gwern.net/crop#danbooru2019-portraits.
Junsong Chen, Jincheng YU, Chongjian GE, Lewei Yao, Enze Xie, Zhongdao Wang, James Kwok, Ping Luo, Huchuan Lu, and Zhenguo Li. Pixart-α: Fast training of diffusion transformer for photorealistic text-to-image synthesis. In The Twelfth International Conference on Learning Representations, 2024.
Prafulla Dhariwal and Alexander Nichol. Diffusion models beat gans on image synthesis. Advances in neural information processing systems, 34:8780–8794, 2021.
Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Mu ̈ller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, Dustin Podell, Tim Dockhorn, Zion English, and Robin Rombach. Scaling rectified flow transformers for high-resolution image synthesis. In Forty-first International Conference on Machine Learning, ICML 2024, Vienna, Austria, July 21-27, 2024, 2024.
Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equilibrium. Advances in neural information processing systems, 30, 2017.
Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598, 2022.
Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. Advances in neural information processing systems, 33:6840–6851, 2020.
Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. LoRA: Low-rank adaptation of large language models. In International Conference on Learning Representations, 2022.
Diederik P Kingma and Max Welling. Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114, 2013.
Yuheng Li, Haotian Liu, Qingyang Wu, Fangzhou Mu, Jianwei Yang, Jianfeng Gao, Chunyuan Li, and Yong Jae Lee. Gligen: Open-set grounded text-to-image generation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 22511–22521, 2023.
Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dolla ́r, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In Computer Vision–ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V 13, pp. 740–755. Springer, 2014.
Ilya Loshchilov and Frank Hutter. Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101, 2017.
Chong Mou, Xintao Wang, Liangbin Xie, Yanze Wu, Jian Zhang, Zhongang Qi, and Ying Shan. T2i-adapter: Learning adapters to dig out more controllable ability for text-to-image diffusion models. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 38, pp. 4296– 4304, 2024.
Alexander Quinn Nichol, Prafulla Dhariwal, Aditya Ramesh, Pranav Shyam, Pamela Mishkin, Bob Mcgrew, Ilya Sutskever, and Mark Chen. GLIDE: Towards photorealistic image generation and editing with text-guided diffusion models. In Kamalika Chaudhuri, Stefanie Jegelka, Le Song, Csaba Szepesvari, Gang Niu, and Sivan Sabato (eds.), Proceedings of the 39th International Conference on Machine Learning, volume 162 of Proceedings of Machine Learning Research, pp. 16784–16804. PMLR, 17–23 Jul 2022.
William Peebles and Saining Xie. Scalable diffusion models with transformers. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 4195–4205, 2023.
Rui Qian, Robby T Tan, Wenhan Yang, Jiajun Su, and Jiaying Liu. Attentive generative adversarial network for raindrop removal from a single image. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 2482–2491, 2018.
Can Qin, Shu Zhang, Ning Yu, Yihao Feng, Xinyi Yang, Yingbo Zhou, Huan Wang, Juan Carlos Niebles, Caiming Xiong, Silvio Savarese, et al. Unicontrol: A unified diffusion model for con- trollable visual generation in the wild. Advances in Neural Information Processing Systems, 36, 2024.
Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In International conference on machine learning, pp. 8748–8763. PMLR, 2021.
Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J Liu. Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of machine learning research, 21(140):1–67, 2020.
Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. Hierarchical text- conditional image generation with clip latents. arXiv preprint arXiv:2204.06125, 1(2):3, 2022.
Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Bjo ̈rn Ommer. High- resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 10684–10695, 2022.
Simo Ryu. Low-rank adaptation for fast text-to-image diffusion fine-tuning, 2022. URL https: //github.com/cloneofsimo/lora.
Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily L Denton, Kam- yar Ghasemipour, Raphael Gontijo Lopes, Burcu Karagol Ayan, Tim Salimans, et al. Photo- realistic text-to-image diffusion models with deep language understanding. Advances in neural information processing systems, 35:36479–36494, 2022.
Christoph Schuhmann, Romain Beaumont, Richard Vencu, Cade Gordon, Ross Wightman, Mehdi Cherti, Theo Coombes, Aarush Katta, Clayton Mullis, Mitchell Wortsman, et al. Laion-5b: An open large-scale dataset for training next generation image-text models. Advances in Neural Information Processing Systems, 35:25278–25294, 2022.
Jascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep unsupervised learning using nonequilibrium thermodynamics. In International conference on machine learning, pp. 2256–2265. PMLR, 2015.
Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. In International Conference on Learning Representations, 2021a.
Yang Song and Stefano Ermon. Generative modeling by estimating gradients of the data distribution. Advances in neural information processing systems, 32, 2019.
Yang Song, Jascha Sohl-Dickstein, Diederik P Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole. Score-based generative modeling through stochastic differential equations. In International Conference on Learning Representations, 2021b.
Arash Vahdat, Karsten Kreis, and Jan Kautz. Score-based generative modeling in latent space. Advances in neural information processing systems, 34:11287–11302, 2021.
Jiaqi Xu, Xiaowei Hu, Lei Zhu, Qi Dou, Jifeng Dai, Yu Qiao, and Pheng-Ann Heng. Video de- hazing via a multi-range temporal alignment network with physical prior. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023.
Zeyue Xue, Guanglu Song, Qiushan Guo, Boxiao Liu, Zhuofan Zong, Yu Liu, and Ping Luo. Raphael: Text-to-image generation via large mixture of diffusion paths. Advances in Neural Information Processing Systems, 36, 2024.
Wenhan Yang, Shiqi Wang, Yuming Fang, Yue Wang, and Jiaying Liu. From fidelity to perceptual quality: A semi-supervised approach for low-light image enhancement. In IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2020.
Denis Zavadski, Johann-Friedrich Feiden, and Carsten Rother. Controlnet-xs: Designing an ef- ficient and effective architecture for controlling text-to-image diffusion models. arXiv preprint arXiv:2312.06573, 2023.
Lvmin Zhang, Anyi Rao, and Maneesh Agrawala. Adding conditional control to text-to-image diffusion models. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 3836–3847, 2023.
Richard Zhang, Phillip Isola, Alexei A Efros, Eli Shechtman, and Oliver Wang. The unreasonable effectiveness of deep features as a perceptual metric. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 586–595, 2018.
Shihao Zhao, Dongdong Chen, Yen-Chun Chen, Jianmin Bao, Shaozhe Hao, Lu Yuan, and Kwan- Yee K Wong. Uni-controlnet: All-in-one control to text-to-image diffusion models. Advances in Neural Information Processing Systems, 36, 2024.