258篇文献！浙大、UB联合发布最新综述：基于扩散模型的条件图像生成-CSDN博客

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/142867286

©PaperWeekly 原创 · 作者 | 詹哲远

单位 | 浙江大学博士生

研究方向 | 生成模型、扩散模型

基于用户给定的控制信息进行条件图像生成（Conditional Image Synthesis）在创建复杂视觉内容中起着关键作用。近年来，扩散模型（Diffusion Models）已经成为图像生成的高效方法，这使得基于扩散的条件图像生成（Diffusion-based Conditional Image Synthesis, DCIS）工作迅速增长。

然而，扩散模型的复杂性、图像生成任务的多样性，以及条件嵌入方法的多元化，给该方向的研究人员深入理解和分析该领域的核心工作带来挑战。

在我们看来，这些工作的核心在于如何将用户给定的条件嵌入扩散模型。因此在本综述中，我们根据条件是如何嵌入扩散建模的两个基本组成部分（即去噪网络（Denoising Network）和采样过程（Sampling process）对现有工作进行了分类，并进一步总结了对扩散模型进行条件嵌入的主要方法。

对于去噪网络，我们着重分析了构建去噪网络的三个阶段：训练阶段（Training Stage）、重用阶段（Re-purposing Stage）以及定制化阶段（Specialization Stage）中不同条件嵌入方法的基本原理、优势以及潜在的挑战。

对于采样过程，我们总结了采样过程中常见的六种主流的条件嵌入方法。此外，我们给出了各类条件生成任务与现有的主要条件嵌入方法之间的关联。我们希望这可以帮助读者为自己所期望的任务设计基于扩散模型条件生成框架，甚至包括尚未被探索的新颖任务。

最后，我们指出了一些尚未解决的重要问题，并提出了可能的解决方案，以供未来研究参考。

论文标题：

Conditional Image Synthesis with Diffusion Models: A Survey

论文地址：

https://arxiv.org/abs/2409.19365

Github链接：

https://github.com/zju-pi/Awesome-Conditional-Diffusion-Models

引言

图像生成是生成式人工智能（Generative Artificial Intellgence）中的一项核心任务。在该领域中，结合用户提供的条件进行可控的图像生成从而精确控制生成符合用户多样化需求的图像在实际应用中尤为重要。早期的研究在多个条件图像生成任务上取得了显著进展，例如通过文本生成图像、图像修复等。

然而，基于早期深度学习生成模型（如生成对抗网络（GANs）和自回归模型（ARMs））的条件图像生成方法的表现并不尽如人意，原因在于这些早期生成模型模型存在固有的局限性：

GANs 易受到模式崩溃（Mode Collapse）以及训练不稳定的影响；
变分自编码器（VAEs）常常生成模糊的图像；
自回归模型（ARMs）则面临序列误差累积（Sequential Error Accumulation）和计算时间长的难题。

近年来，扩散模型（Diffusion Models, DMs）凭借其强大的生成能力和广泛的适用性，逐渐成为最先进的图像生成模型。在扩散模型中，图像通过从高斯噪声出发，经过去噪网络预测引导的多次迭代去噪步骤逐步生成。此独特的多步骤采样过程，使得扩散模型能够实现稳定的训练、生成多样化的输出，同时具备卓越的样本质量。

与单步骤生成模型相比，这一过程也使得扩散模型在条件约束的嵌入上具有独特优势。得益于这些优势，扩散模型已成为条件图像生成中的首选工具，近年来基于扩散的条件图像生成（Diffusion-based Conditional Image Synthesis, DCIS）的研究发展迅速。

随着该领域研究的快速发展，模型架构、训练方法和采样技术的多样化，以及条件生成任务范围的广泛性，使得研究人员难以全面掌握基于扩散模型的条件图像生成（DCIS）领域的全貌。

对于该领域的新进入者而言，这一复杂性尤为突出。因此，亟需一份系统性的综述，能够在提供全方位视角的同时，以结构化的方式对这一不断发展的研究领域进行梳理和介绍。

本综述基于 DCIS 框架中主流的条件嵌入技术对现有的工作进行分类, 旨在提供一个全面且结构化的框架，涵盖当前基于扩散模型的条件图像生成（DCIS）领域的广泛研究。

在本文中, 我们对 DCIS 框架中与条件嵌入相关的组件和设计选择进行清晰且系统的分解。具体而言，我们通过分析条件如何嵌入扩散模型的两个核心组件——去噪网络和采样过程，对现有的 DCIS 方法进行回顾和总结。

对于去噪网络部分，我们将建立条件去噪网络的过程分为三个阶段进行了详细分析。对于采样过程部分，我们归纳了六种主流的条件嵌入方法，详细说明了条件控制如何植入到采样过程的不同组件中。我们的目标是为读者提供一个高层次且易于理解的现有 DCIS 工作的概览，帮助他们为自己所期望的任务设计条件生成框架，甚至包括尚未被探索的新颖任务。

图 1 展示了本综述中提出的 DCIS 分类结构。

▲ 图1 本文的结构

条件图像生成任务

▲ 图2. 主流的条件图像生成任务

一个条件图像生成任务可以定义为从条件分布中采样生成目标图像：

其中，是条件输入的定义域，表示由任务定义的条件分布。

基于条件输入的形式及其与目标图像间构成的条件分布的关联，我们将常见的条件图像生成任务划分为七大类，如图 1 所示：

(a) 图文生成（Text-to-image），根据文本提示生成对应的图像；

(b) 图像修复（Image restoration），从退化的图像中恢复出清晰图像；

(d) 图像编辑（Image editing），基于提供的语义、结构或风格信息对给定的源图像进行编辑；

(e) 个性化定制（Customization），为给定的用户给定的物体生成不同的编辑效果；

(f) 图像生成（Image composition），将来自不同图像中的物体和背景组生成一幅图像；

(g) 布局控制（Layout control），利用提供的前景物和背景的空间信息控制生成图像的布局。

我们在表 1 中整理了各类条件生成任务与现有工作的条件嵌入方法之间的关联。

▲ 表1 主流条件生成任务常用的条件嵌入方法的组合

对于去噪网络的条件植入

▲ 图3 对去噪网络的条件植入

在基于扩散模型的生成框架中，去噪网络是关键组成部分。它通过估计每个前向步骤中添加的噪声，将初始的高斯噪声分布逆向还原为数据分布。在条件图像生成中，实现条件控制的最直接方法是将条件输入植入去噪网络。在本节中，我们将去噪网络中的条件整合过程分为三个阶段：

(a) 训练阶段：从头开始基于成对的条件输入和目标图像训练去噪网络；

(b) 重用阶段：将预训练的去噪网络应用于超出其原始训练任务的条件生成场景；

3.1 训练阶段

对于去噪网络, 植入条件控制信号的最直接的方法是从头开始进行监督训练，采用以下损失函数：

其中，和表示成对的条件输入和目标图像。通过此机制，学习到的条件去噪网络可以用于从中进行采样。

3.2 重用阶段

▲ 图4 对Denoising Network的重用阶段

当前，扩散模型正被应用于日益多样和复杂的条件生成任务中，如果每次针对每一个条件生成场景都从头训练去噪网络，将对计算资源造成严重负担。

幸运的是，预训练的图文生成（Text-to-image, T2I）扩散模型能够有效地关联文本与其对应的图像，作为一种语义丰富的骨干网络，适用于超越图文生成的广泛条件生成任务。已有研究基于 T2I 骨干设计了任务特定的去噪网络，并通过针对成对的条件输入和图像进行微调，将 T2I 去噪网络重用到目标任务。

在实践中，重任务应用的去噪网络可以细分为三个关键模块：

(a) 条件编码器（Conditional encoder）：将任务特定的条件输入编码为特征嵌入的模块；

(b) 条件注入（Condition injection）：将任务相关的特征嵌入注入到 T2I 骨干模型中的模块；

接下来，我们将总结当前研究在重用阶段对这些组件进行条件植入时的设计选择。图 4 展示了重用阶段去噪网络的模型架构。

3.3 定制化阶段

▲ 图5 对 Denoising Network 的定制化阶段

虽然理论上我们可以在训练和重用阶段将任何形式的条件输入植入到去噪网络中，但在复杂的条件图像生成场景下，将这种控制信号整合到去噪网络的条件空间中面临挑战，主要体现在标注训练数据集的收集难度大以及建模条件输入与期望输出之间复杂关联。这限制了模型在面对零样本或少样本条件输入时的处理能力。

解决这些问题的一个直接思路是通过一个定制化阶段，将给定的条件输入与通用 T2I 骨干的条件空间对齐。如图 5 所示，针对特定条件输入的定制化通常通过以下两种方式实现：

(a) 条件投影（Conditional projection）：该方法通过嵌入优化或视觉-语言预训练（VLP）框架，将给定的条件输入投射到 T2I 骨干的条件空间中；

(b) 模型微调（Testing-time model fine-tuning）：在测试阶段微调去噪网络，以将条件输入插入到 T2I 骨干的先验知识中。

在实际应用中，对去噪模型的定制化阶段往往用于实现图像编辑（Image editing）和定制任务（Customization），旨在对用户指定的视觉主体（包括源图像（image editing）和用户给定的物体（Customization））进行所需的修改，同时保持这些视觉主体的特征和细节。

对于生成过程的条件植入

▲ 图6 对生产过程的条件植入

在基于扩散模型的图像生成框架中，采样过程通过去噪网络的预测，迭代地将含噪声的隐变量逐步还原为目标图像。如在第 3 节中提到的，将条件控制信号植入到去噪网络中通常需要耗时的训练、微调或优化。

为了减轻去噪网络的条件植入所带来的计算负担，许多研究在采样过程中进行条件植入，以确保生成图像与给定的条件输入保持一致，同时避免计算密集型的监督训练或微调过程。

根据条件控制信号如何融入到采样过程中，我们将主流的对于采样过程的条件植入机制划分为六类：(a) 反演（Inversion），(b) 注意力操控（Attention manipulation），(c) 噪声混合（Noise blending），(d) 扩散过程修正（Diffusion process revision），(e) 引导（Guidance），以及 (f) 条件校正（Conditional correction）。

我们在图 6 中通过一个示例性的图像编辑过程详细展示了这些对生成过程的条件植入机制。

未来展望

尽管基于扩散模型的条件图像生产在根据用户提供的多种条件生成高质量图像方面取得了显著进展，但学术领域的突破与实际需求之间仍存在较大差距。在本节中，我们总结了该领域的主要挑战，并提出了潜在的解决方案，以供未来研究探讨和应对。

5.1 采样加速

在基于扩散模型的图像生成中，耗时的采样过程往往成为瓶颈，加速采样过程将有助于模型在实际中的部署。早期关于采样加速的研究，主要通过更高效的数值求解器来减少采样步骤，或通过蒸馏预训练扩散模型以建立能够加速采样的捷径。

然而，蒸馏模型中的去噪步骤过少，可能会削弱采样过程中条件整合的效果。当前另一类关键采样加速研究通过知识蒸馏（Knowledge distillation）和架构搜索（Architecture search）等技术，减少模型参数以降低每一步去噪处理的计算成本。

目前，大多数基于扩散模型的参数压缩方法主要针对文本生成图像模型。分析其他条件生成任务的模型是否也存在类似于文本生成图像模型中的参数冗余，并将这些模型压缩方法扩展到更复杂的下游任务，是未来值得探索的方向。

5.2 采样过程的条件植入引发的伪影问题

如第 4 节所总结的，基于扩散模型的图像生成中对于采样过程条件植入方法，允许在不对去噪网络进行耗时条件整合的情况下，灵活地进行条件注入。然而，这些条件控制机制对扩散框架中的标准采样过程进行了修改，导致生成的图像偏离了模型学习的数据分布，从而产生伪影。大多数相关研究采用复杂的调整机制来解决在采样过程中引入条件时出现的伪影问题。

然而，这些方法通常仅仅针对某些特定的应用场景。我们认为未来一个更具通用性的解决方向是，在包含条件控制机制的采样过程中，基于中间的潜变量对去噪网络进行轻量级微调，并使用扩散损失进行优化。此方法可以平滑掉由采样过程中的条件控制机制引发的伪影，并在相对较低的计算成本下生成期望的图像，相较于直接在去噪网络中进行条件整合，该方法更为高效。

5.3 训练数据集

在众多对于扩散模型条件植入方法中，最基础且最有效的条件植入途径仍然是基于条件输入与图像对的监督学习。尽管在处理单一模态条件输入的生成任务中训练数据集相对充足，但对于处理复杂多模态条件输入的任务获取足够的数据仍然是一个挑战。

随着大型语言模型训练和高效微调技术的不断发展，具备强大多模态表征学习能力和内容生成能力的各种大型模型陆续被开发出来，这使得可以利用这些预训练模型自动生成所需的训练数据集成为可能。我们还可以考虑使用自监督学习或弱监督学习，来减少对大量高质量训练数据的需求。

5.4 鲁棒性

由于某些复杂的条件图像生成任务缺乏客观的、特定任务的评估数据集和评估指标，针对这些任务的研究通常基于一组自定义的条件输入来比较模型性能，从而导致性能看起来过于乐观。

事实上，不少知名的文本生成图像模型在面对特定类别的文本提示时，生成的结果并不理想。例如，Imagen 在生成人脸图像时所暴露的不足便是一个典型例证。我们认为提升模型鲁棒性的潜在方向包括增加训练数据集的多样性、精心设计条件编码器的架构，以及改进条件控制机制以实现更细粒度的控制。

5.5 安全性

由扩散模型驱动的条件生成技术在人工智能生成内容（AI-Generated Content, AIGC）及其下游应用中的卓越表现，导致了在偏见与公平性、版权以及接触有害内容风险等方面的严重安全隐患。基于扩散模型的安全导向条件图像生成旨在通过在生成的图像中嵌入可轻松复制的水印，以检测版权侵权问题，从而缓解这些风险。

此外，安全导向的生成方法还通过经典的条件机制（如微调、引导和条件修正）来增强模型对少数群体的生成倾向，从而减少偏见。同时，一些研究也通过有害提示检测（Harmful prompt detection）、文本修正（Prompt engineering）和安全引导（Safety guidance）来防止文本生成图像任务中产生有害内容。

目前，这些对于扩散模型安全性的工作主要集中在基本的无条件生成和文本条件生成领域。我们认为，对于更复杂的条件生成场景，安全相关的努力可以集中在以下四个方面：(a) 检测有害的条件输入，(b) 过滤和消除训练数据集中的偏见，(c) 为采样过程提供安全导向的引导，(d) 对去噪网络进行以安全为重点的微调。