【文生图】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

# DreamBooth

论文地址:https://arxiv.org/abs/2208.12242v1
项目地址:https://dreambooth.github.io/

在这里插入图片描述
DreamBooth 主要的工作目的是实现保留主体的细致特征的情况下使用文本对其进行环境等编辑。整体方法为给定一个主体的3-5个图像和文本提示作为输入,微调预训练的文生图模型(Imagen,但不限于特定模型)用于合成主体在不同场景中的全新照片级图像。

[image]

该框架分两步操作(见上图);

1)从文本生成低分辨率图像(64×64)

利用3-5张输入图像文本提示微调低分辨率文生图模型,并且为了防止过度拟合和语言漂移提出了自发性的**类别区分的先验保留损失(Class-specific Prior Preservation Loss)**来鼓励生成与主体相同的类的不同实例。

对于文本提示,本文使用“a [identifier] [class noun]”的形式,其中[identifier]是与主体关联的唯一标识符,[class noun]表示主体类别,如cat、dog等。对于[identifier]作者尝试使用描述性词汇,如“蓝色的”、“特别的”等,以及随机字符数字组合,如“xxy5sy00”,但是都会混杂有语言模型对这些词汇或字母的先验知识。最终,作者的方法是在词汇表中找到相对罕见的tokens,然后将这些tokens利用de-tokenizer反转到文本空间中成为唯一标识符的候选。

作者使用T5-XXL语言模型生成文本提示P的条件嵌入c。首先使用SentencePiece标记器f使用学习的词汇表将文本tokenize,获得固定长度的向量f§,语言模型以f§为条件,以产生嵌入c=Γ(f§)。最后,文生图扩散模型直接以c为条件。

语言漂移是语言模型常在fine-tuning时遇到的问题,即在较少样本上fine-tuning时,导致某个词汇失去其原有的语义。类别区分的先验保留损失即利用原本预训练的模型根据无identifier的文本提示生成的图像作为Ground Truth训练来保留其原本预训练模型对于类别的先验知识。下面两幅图可以看到该损失对于防止过度拟合(上图)和语言漂移(下图)的效果。

[image]

[image]

2)应用超分辨率(SR)扩散模型(1024×1024)
没有微调的超分网络,由于对主体实例的纹理细节不熟悉或缺少信息,会导致生成伪影。作者发现将64×64->256×256的超分网络fine-tuneng对于大部分主体是必不可少的,而256×256->1024×1024的超分网络的fine-tuneng对于有一些极细细节的例子是有用的。同时作者发现噪声增强的水平太高会导致主体和环境的高频图案的模糊。因此在微调256×256 SR模型期间作者将噪声增强水平从10-3降低到10-5。下图可以看出噪声强度和fintunig的效果。

[image]

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值