035_SS_Prompt Tuning Inversion for Text-Driven Image Editing Using Diffusion Models

最新推荐文章于 2024-07-13 16:36:20 发布

Artificial Idiots

最新推荐文章于 2024-07-13 16:36:20 发布

阅读量325

点赞数

分类专栏：文章阅读笔记文章标签：计算机视觉人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/D_Trump/article/details/131158680

版权

文章阅读笔记专栏收录该内容

37 篇文章 14 订阅

订阅专栏

035_SSS_Prompt Tuning Inversion for Text-Driven Image Editing Using Diffusion Models

在这里插入图片描述

1. Motivations & Arguments

在这里插入图片描述

本文要利用Diffusion实现高保真高质量的文本-图像编辑，也就是既保证editability，又要保证fidelity。前者要求编辑后的图像应该包含与目标提示中提供的相应文本内容良好对齐的视觉内容，而后者期望编辑部分以外的区域应尽可能接近输入图像的区域。

然而，大多数方法缺乏以下之一：用户友好性（例如，需要额外的掩码或输入图像的精确描述）、对更大域的泛化或对输入图像的高保真度。

2. Contributions

我们提出了一种用户友好的文本驱动的图像编辑方法，它只需要一个输入图像和一个目标文本进行编辑，不需要用户提供的掩码或输入图像的来源描述.
我们提出了一种用于扩散模型的 Prompt Tuning Inversion 方法，可以快速准确地重建原始图像，为对输入进行高保真度的编辑图像采样提供了坚实的基础
我们在定性和定量上与最先进的方法进行比较，表明我们的方法在可编辑性和保真度之间的权衡方面优于这些方法

3. Methodology

3.1 DDIM Inversion 的问题

先来看Classifier Free Guidance对DDIM Inversion的影响

在这里插入图片描述

在这里插入图片描述

可以看出无条件的DDIM Inversion的保真效果是最好的。但是加入条件信息之后，DDIM Inversion就不能保证保真了。因此直接用DDIM Inversion进行图像编辑效果很不好。

3.2 Prompt tuning for inversion

在这里插入图片描述

接下来是本文的方法。在固定网络参数的情况下，优化文本条件的编码。

首先利用无条件的DDIM Inversion将源图像Inversion到对应的噪声上去，得到一个trajactory $\lbrace z_t^* \rbrace_{t=1}^T$ , 然后初始化一系列的条件编码 $c_t$ ，然后通过采样过程与inversion过程对齐来优化这一系列的条件编码 $c_t$ 。因为本文的方法不需要给定源图像的文本描述，所以这一步相当于是在寻找源图像对应的文本编码。而这一系列的条件编码就是在保证所得图像的保真度。

在这里插入图片描述

3.3 Prompt Tuning For Editing

接下来用 $c^*$ 表示目标文本对应的编码，接下来为了在editability和fidelity之间进行权衡，一种直观的思路就是，将条件编码进行线性组合：

在这里插入图片描述

本文作者同样尝试了另外一种方式，也就是将 $z_t$ 进行线性组合，这样不需要Prompt tuning，但是会产生杂乱的图像。

在这里插入图片描述

于是可以得到本文的方法：

在这里插入图片描述

4. Experiments

本文inversion用无条件的，采样用Classifier Free Guidance， $\omega = 7.5$ 。
学习率 $\beta$ 和权重 $\eta$ 的影响：

在这里插入图片描述

以及本文方法的失败情况：

在这里插入图片描述

Artificial Idiots

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
035_SS_Prompt Tuning Inversion for Text-Driven Image Editing Using Diffusion Models

本文要利用Diffusion实现高保真高质量的文本-图像编辑，也就是既保证editability，又要保证fidelity。前者要求编辑后的图像应该包含与目标提示中提供的相应文本内容良好对齐的视觉内容，而后者期望编辑部分以外的区域应尽可能接近输入图像的区域。然而，大多数方法缺乏以下之一：用户友好性（例如，需要额外的掩码或输入图像的精确描述）、对更大域的泛化或对输入图像的高保真度。
复制链接

扫一扫

专栏目录

Artificial Idiots CSDN认证博客专家 CSDN认证企业博客

码龄6年

60: 原创

9万+: 周排名

34万+: 总排名

5万+: 访问

: 等级

770: 积分

89: 粉丝

89: 获赞

13: 评论

208: 收藏

私信

关注

热门文章

分类专栏

最新评论

李沐《动手学深度学习》学习笔记（1）Google Colab下的环境配置
weixin_41532377: 但是我这样操作后，每次还是需要重新安装。
003_SSS_ Tackling the Generative Learning Trilemma with Denoising Diffusion GANs
niko^__^: 您好！最近我也在研究DDGANs的论文，我有一个疑惑期望跟您探讨一下 1,DDPM假设去噪分布为高斯分布，而随机微分方程理论证明这样的假设只在降噪步长趋于 0 的时候成立，因此扩散模型需要大量重复的降噪步数来保证小的降噪步长，所以生成速度慢。 2,DDGANs则是抛弃去噪分布为高斯的假设，使用一个条件GAN来模拟这个降噪分布。 3,那么DDPM的加速模型（实际上只是修改了采样算法）比如DDIM也是有一个数据分布，去噪时是一个非马尔可夫链，那么用DDGANs里的条件GAN是否能拟合DDIM的去噪分布呢，这样是否会进一步提升生成速度呢我一直想不明白，希望跟您探讨一下
李沐《动手学深度学习》学习笔记（6）第一章预备知识第四节微分
WS_Change: 请问博主，这个f'h={h:.5f}是什么意思
005_SS_ Palette Image-to-Image Diffusion Models
道尔先生: 最后这个金色字体看瞎我眼
002_SSSS_ Denoising Diffusion Implicit Models
Artificial Idiots: 把减一换成减任意一个量就出来了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。