ECCV 2024 | 基于扩散模型diffusion的通用图像编辑，新方向汇总-CSDN博客

本文链接：https://blog.csdn.net/lgzlgz3102/article/details/142378235

1、InstructGIE: Towards Generalizable Image Editing

最近的图像编辑方法的泛化能力仍受到限制。为应对这一挑战，引入了一种新的图像编辑框架，通过增强上下文学习能力和统一语言指令来提高泛化鲁棒性。

该框架包括一个专门针对图像编辑任务进行优化的模块，利用VMamba模块和编辑位移匹配策略来增强上下文学习。此外，揭示一个特别设计用于纠正生成图像中的损坏细节（如人脸特征）的选择性区域匹配技术，以进一步提高质量。方法的另一个关键创新是整合语言统一技术，该技术将语言嵌入与编辑语义对齐，提升图像编辑的质量。

此外，编制了第一个用于带有视觉提示和编辑说明的图像编辑的数据集，可用于增强上下文能力。在此数据集上训练，方法不仅在训练任务的合成质量方面表现出色，而且通过定制提示展示了对未知视觉任务的稳健泛化能力。https://github.com/cr8br0ze/InstructGIE-Code

2、Photorealistic Object Insertion with Diffusion-Guided Inverse Rendering

对真实场景图像中虚拟对象的正确插入需要深入理解场景的光照、几何和材质以及图像形成过程。尽管最近的大规模扩散模型展示出强大的生成和修补能力，但当前模型不足以在单个图片中足够“理解”场景以生成一致的光照效果（阴影、明亮反射等），同时保留合成对象的身份和细节。

提出使用个性化的大规模扩散模型作为物理反渲染过程的指导。方法恢复场景光照和色调映射参数，允许在室内或室外场景的单帧或视频中逼真地组合任意虚拟对象。基于物理的流水线进一步实现了自动材质和色调映射的细化。https://research.nvidia.com/labs/toronto-ai/DiPIR/

3、RegionDrag: Fast Region-Based Image Editing with Diffusion Models

基于点拖动的图像编辑方法，如DragDiffusion，吸引了相当多的关注。然而，点拖动方法存在计算开销大和对用户意图的错误解释问题，这是由于基于点的编辑指令的稀疏性所致。

本文提出一种基于区域的复制粘贴拖动方法RegionDrag，以克服这些局限性。RegionDrag允许用户以处理和目标区域的形式表达其编辑指令，实现更精确的控制并减轻歧义。此外，基于区域的操作可以在一次迭代中完成编辑，比基于点拖动的方法要快得多。

还结合了注意力交换技术，以提高编辑过程的稳定性。为验证方法，用基于区域拖动指令扩展了现有的基于点拖动的数据集。实验证明，RegionDrag在速度、准确性和与用户意图的一致性方面优于现有的基于点拖动的方法。值得注意的是，RegionDrag在512×512分辨率的图像上完成编辑的时间少于2秒，比DragDiffusion快100多倍，并且表现更好。https://github.com/Visual-AI/RegionDrag

4、TurboEdit: Instant text-based image editing

本文在少步扩散模型的背景下解决了精确图像inversion和解耦图像编辑的挑战。引入了一种基于编码器的迭代inversion技术。inversion网络以输入图像和上一步重建图像为条件，允许纠正下一个重建朝向输入图像。演示了在少步扩散模型中如何通过条件生成（自动生成的）详细文本提示轻松实现解耦控制。

为了操纵inversion图像，固定噪声图并修改文本提示中的一个属性（手动或通过基于LLM驱动的指令编辑），产生一个类似于输入图像但只改变一个属性的新图像。它还可以进一步控制编辑强度并接受指导性文本提示。方法实现了实时逼真的基于文本引导的图像编辑，不仅速度快，而且在多步扩散编辑技术上明显优于现有技术。

关注公众号【机器学习与AI生成创作】，更多精彩等你来读

如何跟进 AIGC+CV 视觉前沿技术？

CVPR 2024 | diffusion扩散模型梳理！100+论文、40+方向！

ICCV 2023 | diffusion扩散模型方向！百篇论文

CVPR 2023 | 30个方向130篇！最全 AIGC 论文一口读完

深入浅出stable diffusion：AI作画技术背后的潜在扩散模型论文解读

深入浅出ControlNet，一种可控生成的AIGC绘画生成算法！

经典GAN不得不读：StyleGAN

戳我，查看GAN的系列专辑~！