UniTune: Text-Driven Image Editing by Fine Tuning a Diffusion Model on a Single Image

努力学图像处理的小菜

于 2024-06-13 15:20:17 发布

阅读量625

点赞数 28

分类专栏： Tricks 扩散模型图像处理文章标签：人工智能计算机视觉 prompt 深度学习 stable diffusion

本文链接：https://blog.csdn.net/qq_43800752/article/details/139633769

版权

扩散模型同时被 3 个专栏收录

45 篇文章 19 订阅

订阅专栏

图像处理

40 篇文章 3 订阅

订阅专栏

Tricks

14 篇文章 0 订阅

订阅专栏

UniTune: Text-Driven Image Editing by Fine Tuning a Diffusion Model on a Single Image

DANI VALEVSKI, Google Research, Israel, ACM Transactions on Graphics (TOG), 2023, Paper, Code: 无.

1. 前言

文本驱动的图像编辑方法通常需要编辑掩码，难以进行需要显著视觉更改的编辑，并且无法轻松保留编辑部分的特定细节。在本文中，我们观察到，只需在单个图像上对图像生成模型进行微调，就可以将其转换为图像编辑模型。我们还表明，在采样前用基础图像的噪声版本初始化随机采样器，并在采样后从基础图像插值相关细节，进一步提高了编辑操作的质量。结合这些观察结果，我们提出了一种新颖的图像编辑方法UniTune。UniTune获取任意图像和文本编辑描述作为输入，并在保持对输入图像的高保真度的同时执行编辑。UniTune不需要额外的输入，如遮罩或草图，并且可以在不重新训练的情况下对同一图像执行多次编辑。我们在一系列不同的用例中使用Imagen模型来测试我们的方法。我们证明，它具有广泛的适用性，可以执行令人惊讶的广泛的表达性编辑操作，包括那些需要显著视觉变化的操作，而这些操作以前是不可能的。

2. 整体思想

在这里插入图片描述

因为文章中展示的效果确实非常好，但是方法写的不够清楚。最简单来说，用单张图像和稀有tokens对模型微调，这一步很类似Dreambooth。主要的目的是，构建特殊tokens与单张图片的关联。然后利用CFG。注意CFG是扩散两次，也就需要两个Prompt。作者第二步就是利用CFG采样，其中一个Prompt是第一步的稀有tokens，另一个是编辑的文本 $c$ 。为什么有效？我想是通过第一步微调，稀有tokens能保证整体的一致性，随着CFG中scaling增大，如上图，采样轨迹可能会像 $c$ 靠近。

3. 方法

Fine-tuning: 我们在 $x^b$ 上对模型进行了固定步数的微调，鼓励它生成接近基本图像的图像。我们在微调阶段使用了一个文本条件， $c^b$ ，它由3个稀有标记组成，创建了一个在原始训练数据中找不到的稀有单词。我们使用固定条件和图像的扩散模型去噪损失:

$\mathbb{E}_{\boldsymbol{\epsilon}, t}\left[w_{t}\left\|f_{\theta}\left(\alpha_{t} \boldsymbol{x}^{(\boldsymbol{b})}+\sigma_{t} \boldsymbol{\epsilon}, \boldsymbol{c}^{(b)}\right)-\boldsymbol{\epsilon}\right\|_{2}^{2}\right]$

Sampling: 为了执行编辑操作，我们通过连接 $c$ 和 $c^b$ （即字符串“[𝑟𝑎𝑟𝑒_𝑡𝑜𝑘𝑒𝑛𝑠] 𝑒𝑑𝑖𝑡_𝑝𝑟𝑜𝑚𝑝𝑡“）。在原始采样的情况下，微调模型对 $x^b$ 的偏差超过了提供的提示 $c$ ，并且该模型生成的图像与 $x^b$ 非常相似。无分类器引导用于将模型引导concatenated提示，生成的图像在满足 $c$ 的同时保持对 $x^b$ 的保真度。由于我们使用了高值的无分类器引导权重，因此我们应用了振荡引导和动态阈值。为了提高视觉逼真度，我们从较低的步骤𝑡开始采样，并使用扩散前向过程用适当的噪声版本 $x^b$ （而不是随机高斯噪声）初始化采样。最后，为了进一步保留源图像的精细细节，我们用像素对生成图像的像素进行线性插值。插值权重由像素邻域的相似性决定，如下图所示：

在这里插入图片描述

4. 实验

在这里插入图片描述

上图展示了fine tuning iterations ("𝐹𝑇 ") and the initial sampling step (“ $t_0$ ”)对结果的影响。可以看到 $t$ 的距离越大一致性越差，但是微调步数越多可以增强一致性。

在这里插入图片描述

努力学图像处理的小菜

关注

28
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
UniTune: Text-Driven Image Editing by Fine Tuning a Diffusion Model on a Single Image

文本驱动的图像编辑方法通常需要编辑掩码，难以进行需要显著视觉更改的编辑，并且无法轻松保留编辑部分的特定细节。在本文中，我们观察到，只需在单个图像上对图像生成模型进行微调，就可以将其转换为图像编辑模型。我们还表明，在采样前用基础图像的噪声版本初始化随机采样器，并在采样后从基础图像插值相关细节，进一步提高了编辑操作的质量。结合这些观察结果，我们提出了一种新颖的图像编辑方法UniTune。UniTune获取任意图像和文本编辑描述作为输入，并在保持对输入图像的高保真度的同时执行编辑。
复制链接

扫一扫

专栏目录