300多篇相关研究,复旦、南洋理工最新多模态图像编辑综述论文

关注公众号,发现CV技术之美

本文转自机器之心。

该文章的第一作者帅欣成,目前在复旦大学FVL实验室攻读博士学位,本科毕业于上海交通大学。他的主要研究方向包括图像和视频编辑以及多模态学习。

前言

本文提出了解决一般性编辑任务的统一框架!近期,复旦大学 FVL 实验室和南洋理工大学的研究人员对于多模态引导的基于文生图大模型的图像编辑算法进行了总结和回顾。综述涵盖 300 多篇相关研究,调研的最新模型截止至今年 6 月!该综述拓展了关于控制条件(自然语言,图像,用户接口)和编辑任务的讨论 (物体 / 属性操作、空间变换、inpainting、风格转换、图像翻译,主体 / 属性客制化),以从更新颖和更一般性的角度全面的探讨编辑方法。此外,该综述提出的统一框架将编辑过程表示为不同算法族的组合,并通过全面的定性和定量实验来说明各种组合的特性以及适应场景。该框架提供了友好的设计空间以满足用户不同的需求,并为研究者们提供了一定的参考以开发新的算法。

摘要

图像编辑旨在根据用户的特定需求编辑给定的合成图像或真实图像。作为人工智能生成内容(AIGC)领域中一个有前景且具有挑战性的领域,图像编辑得到了广泛研究。近期,大规模文生图(T2I)扩散模型驱动了图像编辑技术的发展。这些模型根据文本提示生成图像,展示了惊人的生成能力,已成为图像编辑的常用工具。基于 T2I 的图像编辑方法显著提升了编辑性能,为用户提供了使用多模态条件引导进行内容修改的接口。我们对基于 T2I 扩散模型的多模态引导下的图像编辑技术进行了全面回顾。首先,我们从更一般性的角度定义了图像编辑任务的范围,并详细描述了各种控制信号和编辑场景。然后,我们提出了一个统一框架来形式化编辑过程,将其表示为两个算法族的组合。这个框架为用户提供了一个设计空间,以实现特定目标。接着,我们对该框架内的每个组件进行了深入分析,研究了不同组合的特性和适用场景。由于基于训练的方法直接学习将源图像映射到目标图像,我们对这些方法进行了单独讨论,并介绍了不同场景下源图像的注入方案。此外,我们也回顾了 2D 技术在视频编辑中的应用,重点介绍了解决帧间不一致性的问题。最后,我们也讨论了该领域的开放性挑战,并提出了潜在的未来研究方向。

1146e7e0b675faefb951de22ade26348.png

  • 论文题目:A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models

  • 发表单位:复旦大学 FVL 实验室,南洋理工大学

  • 论文地址:https://arxiv.org/abs/2406.14555

  • 项目地址:https://github.com/xinchengshuai/Awesome-Image-Editing

1.研究动机

1.1,在现实生活中,人们对于可控的、高质量的智能化图像编辑工具的需求日益增加,因此有必要系统地总结与对比这个方向的方法与技术特点。

1.2,当前的编辑算法与相关的综述都将编辑场景局限于保留图像中的大部分与编辑无关的低级语义信息,为此需要扩展编辑任务的范围,从更具有一般性的视角讨论编辑任务。

1.3,由于需求和场景具有多样性,有必要将编辑过程形式化为一个统一框架,并为用户提供一个设计空间来适应不同的编辑目标。

2.综述亮点,与当前编辑综述有何区别?

2.1 关于编辑任务的定义与讨论范围。相比于现有的算法以及此前的编辑综述,本文对于图像编辑任务的定义更加广泛。具体的,本文将编辑任务分为 content-aware 和 content-free 场景组。其中 content-aware 组内的场景为之前的文献所讨论的主要任务,它们的共性是保留图像中的一些低级语义特征,如编辑无关区域的像素内容,或图像结构。此外,我们开创性地将定制化任务(customization)纳入到 content-free 场景组中,将这一类保留高级语义(如主体身份信息,或者其他细粒度属性)的任务作为对常规的编辑场景的补充。

077d33923b066a77e1d460e818e29dd4.png

图 1. Survey 讨论的各种编辑场景

2.2 一般性编辑算法的统一框架。由于编辑场景的多样性,现有的算法无法很好的解决所有的需求。因此我们将现有的编辑过程形式化为一个统一的框架,将其表示为两个算法族的组合。此外我们也通过定性和定量实验分析了不同组合的特性与适应场景,为用户提供了一个良好的设计空间以适应不同的编辑目标。同时,该框架也为研究者们提供了一个较好的参考,以设计出性能更优的算法。

2.3 讨论的全面性。我们调研了 300 多篇的相关论文,系统且全面地阐述了各种模态的控制信号在不同场景下的应用。对于基于训练的编辑方法,本文也提供了在各种场景下将源图像注入到 T2I 模型的策略。此外,我们也探讨了图像编辑技术在视频领域的应用,使得读者能够快速的理解不同领域间编辑算法的联系。

3.一般性编辑算法的统一框架

9a3026b484ca4b4734e9391b996c4f7d.png

图 2. 一般性编辑算法的统一框架

框架包含了两个算法族 Inversion 算法bc7340f239f153a12e9d65662b44977b.png和 Editing 算法a530abef826a5a2e8e67add02e6748f5.png

3.1 Inversion 算法。Inversion 算法1bf95e93310e9b0a624af494e68d8e73.png将源图像集合91f3eed313a0faead669c61b605509bc.png编码到特定的特征或参数空间,得到对应的表征81da515f524b8e3e28a2c8266e0dba91.png(inversion clue),并用对应的源文本描述3953d6dfa5c940e6639dbb572df8b5c4.png作为源图像的标识符。包括 tuning-based57d4a3efa1c2f2f6774ddaba2d14fa3d.png和 forward-basedfc1e0810cd9796d63c9b5045fd7a17d4.png两种类型的 inversion 算法。其可以被形式化为:

424f19748313b58d463015aee61562a8.png

Tuning-based inversion3317998b64ec371ce25f58b4a626fe1d.png通过原有的 diffusion 训练过程将源图像集合植入到扩散模型的生成分布中。形式化过程为:

231e7d754094e715e522cc0e2774e899.png

其中bf65316d83879397dd12acdd958c0333.png为引入的可学习的参数,且3a6019dca63df9187353b34834fe82ec.png

Forward-based inversion313b40f3cd6cc0252214e125e82826e0.png用于在扩散模型的反向过程中(292700b2d59911e310a678bb8fa25ebe.png)还原某一条前向路径中的噪声(9b5a4afba5f36802e10b404ed3f9dbc4.png)。形式化过程为:

7c7bb5202e33d26d9cbafe346675099c.png

其中3436fb105f5f5a68fb6b3c55b7d52086.png为方法中引入的参数,用于最小化4c72a844b43c351d923aaece2a02b714.png,其中,8d94bb79d2963e9df44f65e2d026f7dc.png

3.2.Editing 算法。Editing 算法ab2ee69f5f01fb6fb1ddf900842d74f4.png根据ab2bd4aa0116dda87d4ac040f26c4496.png和多模态引导集合080f1bd32830b40f8b229cc936721892.png来生成最终的编辑结果70d54b5c5c7ec400e745e99445263bdd.png。包含 attention-based33b5684adf7546f3bd85ecde4cfd5a90.png,blending-based518dcbc7e70f5d9a308428f8beec4e5b.png,score-based6016228a7f5f155fd1c9a3df10372e57.png以及 optimization-based643e6fb296f9c18f0f2de7e7e9d20352.png的 editing 算法。其可以被形式化为:

d47ac5249ac75b059e6daa6497c1aafb.png

特别地,对于每一步的反向过程,f23c234894953bf811f854e5e737dc50.png进行了如下操作:

c29406f44b635c446c7046397d0eea1c.png

其中404fab44eef06d882ea0e51e5e27c662.png中的操作表示编辑算法对于扩散模型采样过程e3b8d5201fe6c893ea432dbc5491be26.png的干预,用于保证编辑后的图像1098e0b647bd69dd3dd96dbf60b1cf62.png与源图像集合4f04ebe5ac5b4e5c68c05bab0eea556d.png的一致性,并反应出726b24467928ff2c71d3c07b99214c50.png中引导条件所指明的视觉变换。

特别地,我们将无干预的编辑过程视作为普通版本的编辑算法9eb8fd5a7b3c085fed8a5a87d883b238.png。其形式化为:

ac07b502e07ed594950b30adec45f3ff.png

Attention-based editingb9e9c4843381be972ae688a59a48895f.png的形式化过程:

c0d3af916f56a12e29cd47c87e4051a1.png

Blending-based editinge9f7fcc71bc6b9c4027197200a71fa4c.png的形式化过程:

9336f0a45f1fceda3c7e4b4e0aaf0805.png

Score-based editing01426e5e57c7d89a498ce5e1cb0aff31.png的形式化过程:

47d313817a3a8db0477af4ce7382ef30.png

Optimization-based editing16fd80df02e1cfc8620577dfa19dc389.png的形式化过程:

80acf3190e670462c2524b6b1aa97354.png

3.3 Training-Based 的编辑方法。与 training-free 的方法不同的是,training-based 算法通过在任务特定的数据集中直接学习源图像集合到编辑图像的映射。这一类算法可以看作是 tuning-based inversion 的扩展,即通过额外引入的参数将源图像编码到生成分布中。在这类算法中,最重要的是如何将源图像注入到 T2I 模型中,以下是针对不同编辑场景的注入方案。

Content-aware 任务的注入方案:

dffaf3a5002a7c6bcce706a8318ab706.png

图 3. Content-aware 任务的注入方案

Content-free 任务的注入方案:

d1375f66bcb9ccf634b09788027981fd.png

图 3. Content-free 任务的注入方案

4.统一框架在多模态编辑任务中的应用

本文通过定性实验说明了各个组合在多模态编辑任务中的应用:

453f15e6e76243e0aebde46d923b9536.png

图 4. 关于 attention-based editing955a960950c15f1ba2290be729481f5c.png的算法组合的应用

d5e927a271f18d1af9f60a30074e510f.png

图 5. 关于 blending-based editingca4b075861da7da4c9c6b9dc8c74271d.png的算法组合的应用

e9bd7e4f35a721600e500059af8b986b.png

图 6. 关于 score-based editinga0f786a3df393809d4ad175ad1eeb432.png的算法组合的应用

b078db0ca1cba9d5a37c8b4d009407bd.png

图 7. 关于 optimization-based editing5b1ec4d6f5bdb5fece1be92aeca2d6a7.png的算法组合的应用

详细分析请查阅原始论文。

5.不同组合在文本引导编辑场景下的比较

对于常见的文本引导的编辑任务,本文通过设计了多个具有挑战性的定性实验,以说明不同组合所适合的编辑场景。此外,本文也相应地收集了高质量和具有一定难度的数据集,以定量地说明各种组合中的先进算法在不同场景下的性能。

对于 content-aware 任务,我们主要考虑对象操作(增 / 删 / 替换),属性改变,风格迁移。特别地,我们考虑了具有挑战性的实验设置:1. 多目标编辑。2. 对于图像的语义布局影响较大的用例。我们也收集了这些复杂场景的高质量图片,并对不同组合中的先进算法进行全面定量比较。

cb742bc36705e2b190fb5d17be5abcee.png

 图 8.Content-aware 任务中各个组合的定性比较,从左至右分别是

1b80d288f288636946d478c174a8b9db.png

结果分析以及更多实验结果请查阅原始论文。

对于 content-free 任务,我们主要考虑基于主体驱动的(subject-driven)定制化任务。并考虑了多种场景,如更换背景,与物体交互,行为改变,以及风格改变。我们也定义了大量的文本引导模板,并对各个方法的整体性能进行定量分析。

3ae630cc571472093dd895b5740a320b.png

图 9.Content-free 任务中各个组合的定性比较,从左至右分别是cc9917039d12797565491116b95e2d5c.png

结果分析以及更多实验结果请查阅原始论文。

6.未来可以研究的方向

此外本文也给出了一些关于未来研究方向的分析。这里以 content-aware 任务和 content-free 任务面临的挑战为例。

6.1. Content-aware 任务的挑战。对于 content-aware 编辑任务的挑战,现有方法无法同时处理多种编辑场景和控制信号。这一限制迫使应用在不同任务之间切换合适的后端算法。此外,一些高级方法在易用性方面不友好。某些方法需要用户调整关键参数以获得最佳结果,而其他方法则需要繁琐的输入,例如源和目标提示,或辅助掩码。

6.2.Content-free 任务的挑战。对于 content-free 编辑任务,现有方法在测试时调优过程冗长且存在过拟合问题 。一些研究旨在通过优化少量参数或从头开始训练模型来缓解这一问题。然而,它们常常会丢失个性化主体的细节,或表现出较差的泛化能力。此外,当前方法在从少量图像中提取抽象概念方面也有所不足,它们无法完全将所需概念与其他视觉元素分离开来。

了解更多研究方向内容可以查阅原始论文。

0ec7bc5f2a15d1ac54543ed4532d7c4a.jpeg

END

欢迎加入「计算机视觉交流群👇备注:CV

bd5864bacccb8a0b4e7f29679e740b9b.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值