DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation——CVPR2023:论文笔记

论文链接:http:// https://doi.org/10.48550/arXiv.2208.12242

官网链接:https://dreambooth.github.io/

1.Background

Existing large-scale text-to-image diffusion models:

优势:从大量图像-文本对集合中学习到的强大语义先验,实现了高质量和多样化的图像生成。

不足:这些模型缺乏在给定的参考集中,对特定主体的外观建模能力,不能在不同情境中合成与参考集中给定主体相同的图像。

不足之处也是这个工作的一个动机。

2.Introduction

本文介绍了一种新的方法,用于“个性化”文本到图像的扩散模型,即让这些模型适应特定用户的图像生成需求。目标是扩展模型的语言-视觉词典,使得新的词汇能与用户希望生成的特定主体绑定。一旦这个新的词典被嵌入到模型中,它就可以使用这些词汇来合成该主体的新颖、逼真的照片,这些照片可以放置在不同的场景中,同时保留关键识别特征。这种效果类似于一个“神奇的照片亭”——只需拍摄几张主题的照片,照片亭就能根据简单直观的文本提示生成该主体在不同条件和场景下的照片。

微调过程中,使用输入图像和包含唯一标识符后跟主体类别名(如“A [V] dog”)的文本提示来训练文本到图像模型。这样,模型就可以利用其对主体类别的先验知识,同时将该类别的特定实例与唯一标识符绑定。为了防止语言漂移(即模型将类别名(如“dog”)与特定实例相关联),作者提出了一种自生的、类别特定的先验保留损失,该损失利用模型中嵌入的类别语义先验,并鼓励其生成与主体相同的类别的多样实例。

3.Method

Text-to-Image diffusion model:

Image generation:

1.initial noise:

2.a conditioning vector:        a text encoder Γ and a text prompt P

Personalization of Text-to-Image Models:

只需要几张主体的图片(通常是3-5张),就可以在文本提示的引导下,在不同的背景下生成大量给定主体的图片,并且与背景自然衔接。

Designing Prompts for Few-Shot Personalization:

为了避免为给定图像集编写详细图像描述的繁琐,作者选择了一种更简单的方法,即对所有输入的主体图像使用标签“a [标识符] [类别名词]”,其中[标识符]是与主体相关联的唯一标识符,[类别名词]是主体的粗略类别描述符(如猫、狗、手表等)。类别描述符可以由用户提供,也可以使用分类器获得。

在句子中使用类别描述符的目的是将类别的先验知识与我们独特的主体联系起来。作者发现,如果使用错误的类别描述符或没有类别描述符,会增加训练时间并导致语言漂移,同时降低性能。本质上,作者希望利用模型对特定类别的先验知识,并将其与主体唯一标识符的嵌入相结合,以便利用视觉先验来生成主体在不同上下文中的新姿态和形态。这种方法旨在通过简化输入标签的方式,有效地将新主体“植入”到模型中,以便模型能够生成与主体相关的多样化图像。

Rare-token Identifiers:

作者指出,直接使用现有的英语单词(如“unique”、“special”)作为标识符是不理想的,因为模型需要学习将这些词从其原始意义中分离出来,并重新与特定主体相关联。因此,需要一个在语言模型和扩散模型中先验知识较弱的标识符。作者的方法是在词汇表中寻找稀有标记(token),并将这些标记转换回文本空间,以最小化标识符具有强先验的可能性。

即:rare-token lookup f(V)→detokenizer on f(V) →unique identifier V

Class-specific Prior Preservation Loss:

在模型微调的过程中,如果还使用以前的损失函数,会出现以下两个问题:

1.语义偏移:针对特定任务进行微调时,逐渐失去了原先的语义知识。即在扩散模型中,模型慢慢地忘记了如何生成与目标主体相同类别的其他主体。

2.过拟合:模型可能会过度拟合这些图像,从而忘记了如何生成与这些图像相似但不完全相同的图像。

为解决这两个问题,作者提出了特定类别的先验保存损失:

在这个损失函数中,第一项是原先的损失函数(对应下图的上半部分),第二项是先验保存项,它用自己生成的图像监督模型,λ控制这一项的相对权重(对应下图的下半部分)。本质上,他们的方法是通过让模型使用自己的生成样本来进行监督,以便在少量样本微调开始时保留先验知识。这样做可以让模型生成多样化的类别先验图像,并保留与类别先验相关的知识,这些知识可以与主体实例的知识结合使用。这里的损失函数被设计为在微调过程中引导模型保持这种类别特定的先验知识,从而既保持了多样性,又减少了语言漂移的风险。

4.Experiments

Dataset: 数据集包含 30 个物体,每个物体有 25 种不同的prompts。

评估生成图像时,一个重要的方面是主体保真度(subject fidelity),即生成图像中主体细节的保留程度。为了衡量这一点,作者计算了两个指标:CLIP-I和DINO。CLIP-I是生成图像和真实图像之间CLIP嵌入的平均成对余弦相似度。DINO指标是生成图像和真实图像之间ViT S/16 DINO嵌入的平均成对余弦相似度。评估的另一个重要方面是提示保真度(prompt fidelity),它衡量的是提示和图像CLIP嵌入之间的平均余弦相似度。作者将此指标称为CLIP-T。这有助于评估生成图像是否准确反映了给定的文本提示。

生成效果:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值