Tip: 如果你在进行深度学习、自动驾驶、模型推理、微调或AI绘画出图等任务,并且需要GPU资源,可以考虑使用UCloud云计算旗下的Compshare的GPU算力云平台。他们提供高性价比的4090 GPU,按时收费每卡2.6元,月卡只需要1.7元每小时,并附带200G的免费磁盘空间。通过链接注册并联系客服,可以获得20元代金券(相当于6-7H的免费GPU资源)。欢迎大家体验一下~
0. 简介
去噪扩散模型已经成为各类图像生成和编辑任务的强大工具,这种方法无论是在无需先验输入条件下还是在基于输入的条件下,都能够高效地合成视觉内容。这一技术的核心理念在于,通过学习逆向操作——即逐步为图像添加噪声的过程,从而使其能够从复杂的分布中生成高质量的样本。在本次综述《Diffusion Model-Based Image Editing: A Survey》中,我们全面回顾了利用扩散模型进行图像编辑的现有技术,详细探讨了该领域内的理论与实践方面。我们从多个维度对这些方法进行了详尽的分析和分类,涉及学习策略、用户输入条件,以及能够实现的特定编辑任务等方面。特别地,我们重点关注了图像的修复和扩展生成任务,并对比了传统的基于上下文驱动的方法和当下的多模态条件方法,为它们的方法论提供了全面的解析。为了评估文本引导的图像编辑算法的表现,我们设计了一套系统性的基准测试EditEval,并引入了一种创新的评价指标LMM得分。文章最后,我们指出了现有研究的局限性,并对未来的研究方向进行了展望。相关的代码和资源已在以下链接发布:https://github.com/SiatMMLab/Awesome-Diffusion-Model-Based-Image-Editing-Methods。
1. 介绍
在人工智能生成内容(AIGC)的领域中,利用人工智能创建和修改数字内容,图像编辑被认为是创新和实际应用的重要领域。与从最小输入创建新图像的图像生成不同,图像编辑涉及改变图像的外观、结构或内容,包括从微妙调整到重大变革的一系列变化。这项研究在数字媒体、广告和科学研究等多个领域至关重要,其中改变视觉内容是必需的。图像编辑的演变反映了数字技术的进步,从手工的劳动密集型过程发展到基于学习的算法驱动的先进数字技术。在这一演变中的一个关键进步是生成对抗网络(GANs)的引入,显著增强了创造性图像操作的可能性。
最近,扩散模型在AIGC中出现,引领了视觉生成任务的重大突破。扩散模型受非平衡热力学原理的启发,通过逐渐向数据添加噪声然后学习逆转这一过程,从随机噪声生成期望的数据匹配源数据分布。它们大致可以分为去噪扩散基础和分数匹配基础。它们的适应性和有效性导致了在各种任务中的广泛应用,如图像生成、视频生成、图像恢复和图像编辑。
扩散模型在图像编辑中的应用引起了极大的兴趣,近年来在这一领域的研究出版物数量显著增加。这种日益增长的关注凸显了扩散模型在提升图像编辑性能方面相比于之前的工作的潜力和多样性。鉴于这一重大进步,系统地回顾和总结这些贡献是至关重要的。然而,现有关于扩散模型的综述文献集中在其他特定的视觉任务上,如视频应用或图像恢复和增强。一些提到图像编辑的综述往往只提供了一个粗略的概述,缺少对方法的详细和专注的探索。
为了弥补这一差距,我们进行了一项调查,提供了一次专注于图像编辑的深入和全面的分析。我们深入探讨了这一领域内扩散模型实现的方法论、输入条件和广泛的编辑任务。本综述批判性地回顾了100多篇研究论文,将它们根据学习策略分为三个主要类别:基于训练的方法、测试时微调的方法和无需训练和微调的方法。每个类别根据其核心技术进一步划分,详细讨论见第4、5和6节。我们还探索了这些方法中使用的10种不同类型的输入条件,包括文本、遮罩、参考图像、类别、布局、姿势、草图、分割图、音频和拖拽点,显示了扩散模型在多样化图像编辑场景中的适应性。此外,我们的调查提出了一种新的图像编辑任务分类,将其分为三大类:语义编辑、风格编辑和结构编辑,涵盖了12种具体类型。图1直观地表示了研
究在学习策略、输入条件和编辑任务类别方面的统计分布。此外,我们特别关注了修补和外扩生成,它们作为一种独特的编辑类型脱颖而出。我们探索了早期的传统方法和当前的多模态条件方法,第7节提供了它们方法论的全面分析。我们还介绍了EditEval,这是一个旨在评估文本引导图像编辑算法的基准测试,我们还提出了一个有效的评价指标LMM得分,通过利用大型多模态模型的先进视觉语言理解能力。最后,展示了一些当前的挑战和潜在的未来趋势作为展望。
总之,本综述旨在系统地分类和批判性地评估扩散模型基础图像编辑研究的广泛成果。我们的目标是提供一个全面的资源,不仅综合了当前的研究发现,而且还指导了这一迅速发展领域的未来研究方向。
图 1:基于扩散模型的图像编辑研究出版物的统计概览。上图:学习策略。中图:输入条件。下图:编辑任务。
2. 扩散模型
扩散模型在生成式人工智能领域产生了深远的影响,催生了大量的方法归入其范畴。本质上,这些模型基于一个关键分布。扩散模型与早期生成模型的区别在于它们在迭代时间步骤中的动态执行,包括时间的前向和后向运动。对于每个时间步骤 t t t,噪声潜在状态 z t z_t zt描绘了当前状态。在前向扩散过程中,时间步骤 t t t 逐渐增加,在反向扩散过程中减少至0。值得注意的是,文献中缺乏对前向扩散中的 z t z_t zt和反向扩散中的 z t z_t zt之间明确的区分。在前向扩散的上下文中,让 z t ∼ q ( z t ∣ z t − 1 ) z_t \sim q(z_t | z_{t-1}) zt∼q(zt∣zt−1),在反向扩散中,让 z t − 1 ∼ p ( z t − 1 ∣ z t ) z_{t-1} \sim p(z_{t-1} | z_t) zt−1∼p(zt−1∣zt)。这里,我们用 T T T表示最大时间步骤, 0 < t ≤ T 0 < t \leq T 0<t≤T为有限情况。在 t = 0 t = 0 t=0时的初始数据分布由 z 0 ∼ q ( z 0 ) z_0 \sim q(z_0) z0∼q(z0)表示,逐渐被添加噪声污染成 z 0 z_0 z0。扩散模型通过参数化模型 p θ ( z t − 1 ∣ z t ) p_\theta(z_{t-1} | z_t) pθ(zt−1∣zt)在反向时间方向逐步消除噪声。该模型近似于理想的去噪分布 p ( z t − 1 ∣ z t ) p(z_{t-1} | z_t) p(zt−1∣zt)。而如Ho等人所介绍的去噪扩散概率模型(DDPMs),则是有效地利用马尔可夫链在有限系列时间步骤上促进前向和后向过程。
2.1 前向扩散过程
这一过程作为将数据分布转变为预定义分布的过程,如高斯分布。转换表示为:将某个分布的数据样本逐渐添加噪声的原理称为扩散,将它们转换为预定义的通常简单分布,如高斯分布,然后逐步反转这一过程以生成与原始数据匹配的数据。
其中,一组超参数 0 < β 1 : T < 1 0 < \beta_{1:T} < 1 0<β1:T<1 表示在每个连续步骤中引入的噪声方差。这个扩散过程可以通过一个单步骤方程简要表达:
其中, α t = 1 − β t \alpha_t = 1 - \beta_t αt=1−βt 且 α ˉ t = ∏ i = 1 t α i \bar{\alpha}_t = \prod_{i=1}^t \alpha_i αˉt=∏i=1tαi,正如Sohl-Dickstein等人[15]所详细论述的。因此,绕过需要考虑中间时间步骤的需求, z t z_t zt 可以通过以下方式直接采样:
2.2 反向扩散过程
这里的主要目标是学习前向扩散过程的逆过程,旨在生成一个与原始未更改的数据样本 z 0 z_0 z0 紧密对齐的分布。在图像编辑的背景下, z 0 z_0 z0 代表编辑过的图像。实际上,这是通过使用 UNet 架构来学习参数化版本的 p p p 来实现的。考虑到前向扩散过程被近似为 q ( z T ) ≈ N ( 0 , I ) q(z_T) \approx N(0, I) q(zT)≈N(0,I),可学习的转换公式表达为:
在这里,函数 µ θ µ_θ µθ 和 Σ θ Σ_θ Σθ 是可学习的参数。此外,对于条件公式 p θ ( z t − 1 ∣ z t , c ) p_θ (z_{t−1} | z_t, c) pθ(zt−1∣zt,c),它是基于一个外部变量 c c c(在图像编辑中, c c c 可以是源图像)的条件,模型变为 µ θ ( z t , c , α ˉ t ) µ_θ(z_t, c, \bar{α}_t) µθ(zt,c,αˉt) 和 Σ θ ( z t , c , α ˉ t ) Σ_θ(z_t, c, \bar{α}_t) Σθ(zt,c,αˉt)。
2.3 优化
引导逆扩散学习正向过程的优化策略涉及最小化正向序列和逆向序列的联合分布之间的库尔贝克-莱布勒(KL)散度。这些数学上定义为:
导致最小化:
这在 Ho 等人的工作[16]中有详细描述,常数 c c c 对于优化 θ θ θ 是不相关的。等式 7 的 KL 散度代表了数据对数似然 ( l o g p θ ( z 0 ) ) (log p_θ(z_0)) (logpθ(z0))的变分上界。这个 KL 散度作为损失,并在去噪扩散概率模型(DDPMs)中被最小化。实际上,Ho 等人[16]采用了这个损失的一个重新加权版本,作为一个更简单的去噪损失:
其中 λ ( t ) > 0 λ(t) > 0 λ(t)>0 表示一个权重函数, z t z_t zt 通过等式 3 获得, ϵ θ ϵ_θ ϵθ 表示一个旨在根据 z t z_t zt 和 t t t 预测噪声 ϵ ϵ ϵ 的网络。
2.4 DDIM 采样和反演
在处理真实图像 z 0 z_0 z0 时,流行的编辑方法 [84], [85] 最初使用特定的反演方案将这个 z 0 z_0 z0 反演成对应的 z T z_T zT。随后,从这个 z T z_T zT 开始采样,采用一些编辑策略来产生编辑后的结果 z ~ 0 \tilde{z}_0 z~0。在理想情况下,直接从 z T z_T zT 采样,没有任何编辑,应该产生一个与 z 0 z_0 z0 非常相似的 z ~ 0 \tilde{z}_0 z~0。 z ~ 0 \tilde{z}_0 z~0 与 z 0 z_0 z0 的显著偏差,称为重建失败,表明编辑后的图像无法保持 z0 中未更改区域的完整性。因此,使用一个能确保 z ~ 0 ≈ z 0 \tilde{z}_0 ≈ z0 z~0≈z0 的反演方法至关重要。
DDIM 采样方程 [18] 是:
上面的(9)可以替换为(10)
虽然等式 10 看似提供了从 z t − 1 z_{t−1} zt−1 到 z t z_t zt 的理想反演,问题出现在 z t z_t zt 的未知性质上,这也被用作网络 ϵ θ ( z t , t ) ϵ_θ(z_t, t) ϵθ(zt,t) 的输入。为了解决这个问题,DDIM 反演 [18] 在假设 z t − 1 ≈ z t z_{t−1} ≈ z_t zt−1≈zt 的基础上进行,将等式 10 右边的 z t z_t zt 用 z t − 1 z_{t−1} zt−1 替代,导致以下近似:
2.5 文本条件与无分类器引导
文本条件扩散模型旨在从随机噪声 z T z_T zT 出发,在文本提示 P P P 的指导下合成结果。在采样过程的推理中,使用噪声估计网络 ϵ θ ( z t , t , C ) ϵ_θ(z_t, t, C) ϵθ(zt,t,C) 来预测噪声 ϵ,其中 C = ψ ( P ) C = ψ(P) C=ψ(P) 表示文本嵌入。此过程系统地从 z t z_t zt 中移除噪声,跨越 T T T 步骤直到获得最终结果 z 0 z_0 z0。
在文本条件图像生成领域,确保对生成输出有实质性的文本影响和控制至关重要。为此,Ho 等人 [86] 引入了无分类器引导的概念,这是一种结合条件和无条件预测的技术。更具体地说,令 ∅ = ψ ( “” ) 1 ∅ = ψ(“”)1 ∅=ψ(“”)1 表示空文本嵌入。当结合引导比例 w w w 时,无分类器引导预测被形式化为:
在这个公式中,ϵθ(zt, t, C, ∅) 替换了采样方程式 9 中的 ϵθ(zt, t)。w 的值通常在 [1, 7.5] 范围内,如 [26]、[27] 所建议,决定了文本控制的程度。更高的 w 值与生成过程中更强的文本驱动影响相关联。
3. 相关任务
3.1 条件图像生成
虽然我们主要关注图像编辑中的扩散模型,但重要的是要承认相关领域,如条件图像生成。与涉及更改现有图像某些部分的图像编辑不同,条件图像生成涉及从头开始创建新图像,由指定条件指导。早期工作 [31]、[32]、[87]–[90] 通常涉及类条件图像生成,这通常包括通过额外的预训练分类器在采样过程中加入类诱导梯度。然而,Ho 等人 [86] 介绍了无分类器引导,它不依赖外部分类器并允许更多样化的条件,例如文本,作为引导。
文本到图像(T2I)生成。GLIDE [34] 是第一个直接使用文本从高维像素级引导图像生成的工作,替代了类条件扩散模型中的标签。类似地,Imagen [27] 使用级联框架在像素空间中更高效地生成高分辨率图像。不同的研究线先将图像投影到低维空间,然后在这个潜在空间中应用扩散模型。代表性的工作包括稳定扩散(SD)[26]、VQ-扩散 [91] 和 DALL-E 2 [25]。在这些开创性研究之后,大量的工作 [37]、[92]–[97] 被提出,在过去两年中推进了这个领域。
额外的条件。除了文本,更具体的条件也被用来在图像合成中实现更高的保真度和更精确的控制。GLIGEN [98] 在每个块的原始自注意力和交叉注意力层之间插入一个门控自注意力层,用于生成基于定位框的条件图像。Make-A-Scene [99] 和 SpaText [100] 使用分割掩码引导生成过程。除了分割图之外,ControlNet [101] 还可以纳入其他类型的输入,如深度图、法线图、canny 边缘、姿态和草图作为条件。其他方法如 UniControlNet [102]、UniControl [103]、Composer [104] 和 T2I-Adapter [105] 整合了多样的条件输入并添加了额外的层,增强了这些条件控制的生成过程。
定制图像生成。在条件图像生成中与图像编辑紧密相关的任务是创建个性化图像。这个任务侧重于生成保持某种身份的图像,通常由同一主题的几个参考图像指导。通过少量图像解决这种定制生成的两种早期方法是文本反演 [106] 和 DreamBooth [107]。具体来说,文本反演学习一个独特的标识词来代表一个新主题,并将这个词加入到文本编码器的字典中。另一方面,DreamBooth 通过使用几张参考图像对整个 Imagen [27] 模型进行微调,将一个新的稀有词与特定主题绑定。为了有效地结合多个新概念,CustomDiffusion [108] 仅优化稳定扩散 [26] 中的交叉注意力参数,代表新概念并进行多概念组合的联合训练。
3.2 图像恢复和增强
图像恢复(IR)是低级视觉中的一个关键任务,旨在提高被各种退化所污染的图像的质量。扩散模型的最新进展促使研究人员探索它们在图像恢复方面的潜力。开创性的尝试将扩散模型整合到这一任务中,超越了以前基于GAN的方法。
将输入图像作为条件。生成模型已经显著促进了多种图像恢复任务的发展,例如超分辨率(SR)和去模糊 [12]、[13]、[29]、[118]、[119]。通过重复细化的超分辨率(SR3)[57]通过随机的迭代去噪过程,利用DDPM进行条件图像生成。级联扩散模型 [31] 顺序采用多个扩散模型,每个模型生成更高分辨率的图像。SRDiff [118] 紧密地实现了SR3的概念。SRDiff和SR3之间的主要区别在于,SR3直接预测目标图像,而SRDiff预测输入和输出图像之间的差异。