UniTune: Text-Driven Image Editing by Fine Tuning a Diffusion Model on a Single Image

40 篇文章 3 订阅
14 篇文章 0 订阅

UniTune: Text-Driven Image Editing by Fine Tuning a Diffusion Model on a Single Image

DANI VALEVSKI, Google Research, Israel, ACM Transactions on Graphics (TOG), 2023, Paper, Code: 无.

1. 前言

文本驱动的图像编辑方法通常需要编辑掩码,难以进行需要显著视觉更改的编辑,并且无法轻松保留编辑部分的特定细节。在本文中,我们观察到,只需在单个图像上对图像生成模型进行微调,就可以将其转换为图像编辑模型。我们还表明,在采样前用基础图像的噪声版本初始化随机采样器,并在采样后从基础图像插值相关细节,进一步提高了编辑操作的质量。结合这些观察结果,我们提出了一种新颖的图像编辑方法UniTune。UniTune获取任意图像和文本编辑描述作为输入,并在保持对输入图像的高保真度的同时执行编辑。UniTune不需要额外的输入,如遮罩或草图,并且可以在不重新训练的情况下对同一图像执行多次编辑。我们在一系列不同的用例中使用Imagen模型来测试我们的方法。我们证明,它具有广泛的适用性,可以执行令人惊讶的广泛的表达性编辑操作,包括那些需要显著视觉变化的操作,而这些操作以前是不可能的。

2. 整体思想

在这里插入图片描述

因为文章中展示的效果确实非常好,但是方法写的不够清楚。最简单来说,用单张图像和稀有tokens对模型微调,这一步很类似Dreambooth。主要的目的是,构建特殊tokens与单张图片的关联。然后利用CFG。注意CFG是扩散两次,也就需要两个Prompt。作者第二步就是利用CFG采样,其中一个Prompt是第一步的稀有tokens,另一个是编辑的文本 c c c。为什么有效?我想是通过第一步微调,稀有tokens能保证整体的一致性,随着CFG中scaling增大,如上图,采样轨迹可能会像 c c c靠近。

3. 方法

  1. Fine-tuning: 我们在 x b x^b xb上对模型进行了固定步数的微调,鼓励它生成接近基本图像的图像。我们在微调阶段使用了一个文本条件, c b c^b cb它由3个稀有标记组成,创建了一个在原始训练数据中找不到的稀有单词。我们使用固定条件和图像的扩散模型去噪损失:

E ϵ , t [ w t ∥ f θ ( α t x ( b ) + σ t ϵ , c ( b ) ) − ϵ ∥ 2 2 ] \mathbb{E}_{\boldsymbol{\epsilon}, t}\left[w_{t}\left\|f_{\theta}\left(\alpha_{t} \boldsymbol{x}^{(\boldsymbol{b})}+\sigma_{t} \boldsymbol{\epsilon}, \boldsymbol{c}^{(b)}\right)-\boldsymbol{\epsilon}\right\|_{2}^{2}\right] Eϵ,t[wt fθ(αtx(b)+σtϵ,c(b))ϵ 22]

  1. Sampling: 为了执行编辑操作,我们通过连接 c c c c b c^b cb(即字符串“[𝑟𝑎𝑟𝑒_𝑡𝑜𝑘𝑒𝑛𝑠] 𝑒𝑑𝑖𝑡_𝑝𝑟𝑜𝑚𝑝𝑡“)。在原始采样的情况下,微调模型对 x b x^b xb的偏差超过了提供的提示 c c c,并且该模型生成的图像与 x b x^b xb非常相似。无分类器引导用于将模型引导concatenated提示,生成的图像在满足 c c c的同时保持对 x b x^b xb的保真度。由于我们使用了高值的无分类器引导权重,因此我们应用了振荡引导和动态阈值。为了提高视觉逼真度,我们从较低的步骤𝑡开始采样,并使用扩散前向过程用适当的噪声版本 x b x^b xb(而不是随机高斯噪声)初始化采样。最后,为了进一步保留源图像的精细细节,我们用像素对生成图像的像素进行线性插值。插值权重由像素邻域的相似性决定,如下图所示:

在这里插入图片描述

4. 实验

在这里插入图片描述

上图展示了fine tuning iterations ("𝐹𝑇 ") and the initial sampling step (“ t 0 t_0 t0”)对结果的影响。可以看到 t t t的距离越大一致性越差,但是微调步数越多可以增强一致性。


在这里插入图片描述


在这里插入图片描述


在这里插入图片描述


在这里插入图片描述


在这里插入图片描述


在这里插入图片描述

  • 28
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值