1、InstructGIE: Towards Generalizable Image Editing

最近的图像编辑方法的泛化能力仍受到限制。为应对这一挑战,引入了一种新的图像编辑框架,通过增强上下文学习能力和统一语言指令来提高泛化鲁棒性。
该框架包括一个专门针对图像编辑任务进行优化的模块,利用VMamba模块和编辑位移匹配策略来增强上下文学习。此外,揭示一个特别设计用于纠正生成图像中的损坏细节(如人脸特征)的选择性区域匹配技术,以进一步提高质量。方法的另一个关键创新是整合语言统一技术,该技术将语言嵌入与编辑语义对齐,提升图像编辑的质量。
此外,编制了第一个用于带有视觉提示和编辑说明的图像编辑的数据集,可用于增强上下文能力。在此数据集上训练,方法不仅在训练任务的合成质量方面表现出色,而且通过定制提示展示了对未知视觉任务的稳健泛化能力。https://github.com/cr8br0ze/InstructGIE-Code
2、Photorealistic Object Insertion with Diffusion-Guided Inverse Rendering

对真实场景图像中虚拟对象的正确插入需要深入理解场景的光照、几何和材质以及图像形成过程。尽管最近的大规模扩散模型展示出强大的生成和修补能力,但当前模型不足以在单个图片中足够“理解”场景以生成一致的光照效果(阴影、明亮反射等),同时保留合成对象的身份和细节。
提出使用个性化的大规模扩散模型作为物理反渲染过程的指导。方法恢复场景光照和色调映射参数,允许在室内或室外场景的单帧或视频中逼真地组合任意虚拟对象。基于物理的流水线进一步实现了自动材质和色调映射的细化。https://research.nvidia.com/labs/toronto-ai/DiPIR/
3、RegionDrag: Fast Region-Based Image Editing with Diffusion Models

基于点拖动的图像编辑方法,如DragDiffusion,吸引了相当多的关注。然而,点拖动方法存在计算开销大和对用户意图的错误解释问题,这是由于基于点的编辑指令的稀疏性所致。
本文提出一种基于区域的复制粘贴拖动方法RegionDrag,以克服这些局限性。RegionDrag允许用户以处理和目标区域的形式表达其编辑指令,实现更精确的控制并减轻歧义。此外,基于区域的操作可以在一次迭代中完成编辑,比基于点拖动的方法要快得多。
还结合了注意力交换技术,以提高编辑过程的稳定性。为验证方法,用基于区域拖动指令扩展了现有的基于点拖动的数据集。实验证明,RegionDrag在速度、准确性和与用户意图的一致性方面优于现有的基于点拖动的方法。值得注意的是,RegionDrag在512×512分辨率的图像上完成编辑的时间少于2秒,比DragDiffusion快100多倍,并且表现更好。https://github.com/Visual-AI/RegionDrag
4、TurboEdit: Instant text-based image editing

本文在少步扩散模型的背景下解决了精确图像inversion和解耦图像编辑的挑战。引入了一种基于编码器的迭代inversion技术。inversion网络以输入图像和上一步重建图像为条件,允许纠正下一个重建朝向输入图像。演示了在少步扩散模型中如何通过条件生成(自动生成的)详细文本提示轻松实现解耦控制。
为了操纵inversion图像,固定噪声图并修改文本提示中的一个属性(手动或通过基于LLM驱动的指令编辑),产生一个类似于输入图像但只改变一个属性的新图像。它还可以进一步控制编辑强度并接受指导性文本提示。方法实现了实时逼真的基于文本引导的图像编辑,不仅速度快,而且在多步扩散编辑技术上明显优于现有技术。
关注公众号【机器学习与AI生成创作】,更多精彩等你来读
CVPR 2024 | diffusion扩散模型梳理!100+论文、40+方向!
ICCV 2023 | diffusion扩散模型方向!百篇论文
CVPR 2023 | 30个方向130篇!最全 AIGC 论文一口读完
深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读
深入浅出ControlNet,一种可控生成的AIGC绘画生成算法!
最新最全100篇汇总!生成扩散模型Diffusion Models
附下载 |《TensorFlow 2.0 深度学习算法实战》
《礼记·学记》有云:独学而无友,则孤陋而寡闻
点击跟进 AIGC+CV视觉 前沿技术,真香!,加入 AI生成创作与计算机视觉 知识星球!