027_SSS_Direct Inversion Optimization-Free Text-Driven Real Image Editing with Diffusion Models

最新推荐文章于 2024-09-13 07:16:06 发布

Artificial Idiots

最新推荐文章于 2024-09-13 07:16:06 发布

阅读量516

点赞数

分类专栏：文章阅读笔记文章标签：人工智能计算机视觉深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/D_Trump/article/details/128937997

版权

文章阅读笔记专栏收录该内容

37 篇文章 14 订阅

订阅专栏

Direct Inversion: Optimization-Free Text-Driven Real Image Editing with Diffusion Models

1. Introduction

本文的主要贡献：

本文提出了一种不需要优化，不需要微调的基于文本的语义图像编辑方法（Direct Inversion），这种方法在只给定输入图像和文本提示的条件下可以对全局和局部结构，属性，风格等进行灵活的编辑。
作者实验验证了Direct Inversion在全局的基于风格的编辑和局部的object-level的编辑的能力。
作者用实验证明了Direct Inversion可以对可编辑性和保真度的权衡作微调，以及通过实验对于一般的Diffusion模型的Inversion方法和参数进行了探究。
作者用消融实验探究了不同的参数对图像保真度和编辑强度的影响。

传统文本-图像编辑方法的缺点:

需要大量的per-instance训练或者微调。
受限于特定的图像类型。
需要额外输入mask或者目标物体的多个图像
内在的耦合了编辑强度和任意结构相似性，大大限制了可能的图像编辑类型和范围。

2. Methodology

在这里插入图片描述

2.1 DDIM and Determinism

DDIM提出了determinism的前向过程和反向过程。可以实现Inversion。作者测试了用隐空间DDIM Reconstruction，可以达到比较好的结果。

在这里插入图片描述

2.2 Direct Inversion

classifier-free guidance

就是用加条件的生成的 $\epsilon_t$ 和无条件生成的 $\epsilon_t$ 进行线性组合。

在这里插入图片描述

Direct Inversion

在给定输入图像和文本信息，Direct Inversion先把给定的 $x_0$ 经过DDIM的固定前向过程得到对应的 $\tilde{x}_T$ 。然后利用DDIM的固定反向过程，并使用classifier-free guidance 添加文本条件，并且用U-Net预测的 $\epsilon$ 和前向过程保存的对应步的 $\epsilon$ 线性组合后作为反向用的 $\epsilon$ 。

具体的做法是：
先对文本条件做classifier-free guidance

在这里插入图片描述

然后对前向和反向的 $\epsilon_t$ 再做一次classifier-free guidance

在这里插入图片描述

后边作者会对guidance_scale和noise_merge_lambda作进一步的讨论。

3. Experiments

3.1 Qualitative Results

在这里插入图片描述

3.2 Ablation Study

Effect of Inference and Inversion Steps

作者在固定Inference Step=100的条件下，改变Inversion Step发现存在最优的重建区间。根据这些实验结果，本文作者采用Inversion Step=100， Inference Step=100.

在这里插入图片描述

3.3 Editability-Fidelity Tradeoff

作者用CLIP和LPIPS分别来衡量Editability和fidelity。

在这里插入图片描述

Artificial Idiots

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。