035_SS_Prompt Tuning Inversion for Text-Driven Image Editing Using Diffusion Models

035_SSS_Prompt Tuning Inversion for Text-Driven Image Editing Using Diffusion Models

在这里插入图片描述

1. Motivations & Arguments

在这里插入图片描述

本文要利用Diffusion实现高保真高质量的文本-图像编辑,也就是既保证editability,又要保证fidelity。前者要求编辑后的图像应该包含与目标提示中提供的相应文本内容良好对齐的视觉内容,而后者期望编辑部分以外的区域应尽可能接近输入图像的区域。

然而,大多数方法缺乏以下之一:用户友好性(例如,需要额外的掩码或输入图像的精确描述)、对更大域的泛化或对输入图像的高保真度。

2. Contributions

  1. 我们提出了一种用户友好的文本驱动的图像编辑方法,它只需要一个输入图像和一个目标文本进行编辑,不需要用户提供的掩码或输入图像的来源描述.
  2. 我们提出了一种用于扩散模型的 Prompt Tuning Inversion 方法,可以快速准确地重建原始图像,为对输入进行高保真度的编辑图像采样提供了坚实的基础
  3. 我们在定性和定量上与最先进的方法进行比较,表明我们的方法在可编辑性和保真度之间的权衡方面优于这些方法

3. Methodology

3.1 DDIM Inversion 的问题

先来看Classifier Free Guidance对DDIM Inversion的影响

在这里插入图片描述

在这里插入图片描述

可以看出无条件的DDIM Inversion的保真效果是最好的。但是加入条件信息之后,DDIM Inversion就不能保证保真了。因此直接用DDIM Inversion进行图像编辑效果很不好。

3.2 Prompt tuning for inversion

在这里插入图片描述

接下来是本文的方法。在固定网络参数的情况下,优化文本条件的编码。

首先利用无条件的DDIM Inversion将源图像Inversion到对应的噪声上去,得到一个trajactory { z t ∗ } t = 1 T \lbrace z_t^* \rbrace_{t=1}^T {zt}t=1T, 然后初始化一系列的条件编码 c t c_t ct, 然后通过采样过程与inversion过程对齐来优化这一系列的条件编码 c t c_t ct因为本文的方法不需要给定源图像的文本描述,所以这一步相当于是在寻找源图像对应的文本编码。而这一系列的条件编码就是在保证所得图像的保真度。

在这里插入图片描述

3.3 Prompt Tuning For Editing

接下来用 c ∗ c^* c 表示目标文本对应的编码,接下来为了在editability和fidelity之间进行权衡,一种直观的思路就是,将条件编码进行线性组合:

在这里插入图片描述

本文作者同样尝试了另外一种方式,也就是将 z t z_t zt 进行线性组合,这样不需要Prompt tuning,但是会产生杂乱的图像。

在这里插入图片描述

于是可以得到本文的方法:

在这里插入图片描述

4. Experiments

本文inversion用无条件的,采样用Classifier Free Guidance, ω = 7.5 \omega = 7.5 ω=7.5
学习率 β \beta β 和权重 η \eta η 的影响:

在这里插入图片描述

以及本文方法的失败情况:

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值