ECCV 2024 | 基于扩散模型diffusion的通用图像编辑,新方向汇总

1、InstructGIE: Towards Generalizable Image Editing

728f86c4644f05fda1d3a4440ddcdc87.png

最近的图像编辑方法的泛化能力仍受到限制。为应对这一挑战,引入了一种新的图像编辑框架,通过增强上下文学习能力和统一语言指令来提高泛化鲁棒性。

该框架包括一个专门针对图像编辑任务进行优化的模块,利用VMamba模块和编辑位移匹配策略来增强上下文学习。此外,揭示一个特别设计用于纠正生成图像中的损坏细节(如人脸特征)的选择性区域匹配技术,以进一步提高质量。方法的另一个关键创新是整合语言统一技术,该技术将语言嵌入与编辑语义对齐,提升图像编辑的质量。

此外,编制了第一个用于带有视觉提示和编辑说明的图像编辑的数据集,可用于增强上下文能力。在此数据集上训练,方法不仅在训练任务的合成质量方面表现出色,而且通过定制提示展示了对未知视觉任务的稳健泛化能力。https://github.com/cr8br0ze/InstructGIE-Code

2、Photorealistic Object Insertion with Diffusion-Guided Inverse Rendering

fcc2e51659dafbb086c4506a2cd85f8a.png

对真实场景图像中虚拟对象的正确插入需要深入理解场景的光照、几何和材质以及图像形成过程。尽管最近的大规模扩散模型展示出强大的生成和修补能力,但当前模型不足以在单个图片中足够“理解”场景以生成一致的光照效果(阴影、明亮反射等),同时保留合成对象的身份和细节。

提出使用个性化的大规模扩散模型作为物理反渲染过程的指导。方法恢复场景光照和色调映射参数,允许在室内或室外场景的单帧或视频中逼真地组合任意虚拟对象。基于物理的流水线进一步实现了自动材质和色调映射的细化。https://research.nvidia.com/labs/toronto-ai/DiPIR/

3、RegionDrag: Fast Region-Based Image Editing with Diffusion Models

e6f8c9f7e8d606ec8bd01792755f5b62.png

基于点拖动的图像编辑方法,如DragDiffusion,吸引了相当多的关注。然而,点拖动方法存在计算开销大和对用户意图的错误解释问题,这是由于基于点的编辑指令的稀疏性所致。

本文提出一种基于区域的复制粘贴拖动方法RegionDrag,以克服这些局限性。RegionDrag允许用户以处理和目标区域的形式表达其编辑指令,实现更精确的控制并减轻歧义。此外,基于区域的操作可以在一次迭代中完成编辑,比基于点拖动的方法要快得多。

还结合了注意力交换技术,以提高编辑过程的稳定性。为验证方法,用基于区域拖动指令扩展了现有的基于点拖动的数据集。实验证明,RegionDrag在速度、准确性和与用户意图的一致性方面优于现有的基于点拖动的方法。值得注意的是,RegionDrag在512×512分辨率的图像上完成编辑的时间少于2秒,比DragDiffusion快100多倍,并且表现更好。https://github.com/Visual-AI/RegionDrag

4、TurboEdit: Instant text-based image editing

7bba21f99081b0fcbc3e8be9a4dbd507.png

本文在少步扩散模型的背景下解决了精确图像inversion和解耦图像编辑的挑战。引入了一种基于编码器的迭代inversion技术。inversion网络以输入图像和上一步重建图像为条件,允许纠正下一个重建朝向输入图像。演示了在少步扩散模型中如何通过条件生成(自动生成的)详细文本提示轻松实现解耦控制。

为了操纵inversion图像,固定噪声图并修改文本提示中的一个属性(手动或通过基于LLM驱动的指令编辑),产生一个类似于输入图像但只改变一个属性的新图像。它还可以进一步控制编辑强度并接受指导性文本提示。方法实现了实时逼真的基于文本引导的图像编辑,不仅速度快,而且在多步扩散编辑技术上明显优于现有技术。

关注公众号【机器学习与AI生成创作】,更多精彩等你来读

如何跟进 AIGC+CV 视觉前沿技术?

CVPR 2024 | diffusion扩散模型梳理!100+论文、40+方向!

ICCV 2023 | diffusion扩散模型方向!百篇论文

CVPR 2023 | 30个方向130篇!最全 AIGC 论文一口读完

深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读

深入浅出ControlNet,一种可控生成的AIGC绘画生成算法! 

经典GAN不得不读:StyleGAN

82c69ad8d027a09d0063751f88b2fac9.png 戳我,查看GAN的系列专辑~!

最新最全100篇汇总!生成扩散模型Diffusion Models

ECCV2022 | 生成对抗网络GAN部分论文汇总

CVPR 2022 | 25+方向、最新50篇GAN论文

 ICCV 2021 | 35个主题GAN论文汇总

超110篇!CVPR 2021最全GAN论文梳理

超100篇!CVPR 2020最全GAN论文梳理

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

《礼记·学记》有云:独学而无友,则孤陋而寡闻

点击跟进 AIGC+CV视觉 前沿技术,真香!,加入 AI生成创作与计算机视觉 知识星球!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值