DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

1 前言

1) 提出动机
在这里插入图片描述

以往的任务都很难做到给定几张图像,模型能模仿图像的主体去实现真正的风格迁移(或者说style change只是很简单地更换背景罢了),就算是text-to-image,即使给出了最细节的text,也不能做到真正的风格迁移。作者认为主要原因是指定的主体并没有出现在模型的output domain里,整个分布都没有的东西怎么可能生成呢。

2)方法简略一览
在这里插入图片描述
使用一个A [V] dog的text,结合几张同一个主体的image,传入网络中进行微调。但可能会出现language shift的情况(也就是会将所有的dog都认为是这个 [V] dog,这样多样性也就没了)。文章提出 class-specific prior preservation loss来缓解这种现象。

2 方法

2.1 Personalization of Text-to-Image Models

2.1.1 设计prompts

label所有的image为 a [identifier] [class noun] ,其中 identifier是标识主体的一个标签, class noun就是主体的类别,identifier最好是比较少见的标签(weak prior),因为模型需要去解耦标签和原来分布之间的联系(eg. bobby)

2.2 Class-specific Prior Preservation Loss

Dreambooth是微调模型的所有参数。大模型对所有层进行微调能获得最佳的保真度效果,但同时也会出现language shift的情况,一旦出现这种情况,也就难以生成特定主体去做各种不同姿势,在不同场景等情况。
提取了Class-specific Prior Preservation Loss去缓解这种现象,这个loss本质就是让模型生成的样本去监督模型,以此让模型保持住这个prior(既dog对应的prior还是那个prior)

在这里插入图片描述
直觉上理解:
首先使用冻结组合的pre-trained diffusion model去生成prompt为a dog的图像,然后上边训练a [V] dog照常做重建损失,而下边传入a dog生成的图像和原本冻结权重时生成的图像在做一个特定类先验保留损失,并且上边和下边的模型是同一个模型。这样就可以保证在让identifier和class有关联的同时,保持class的prior不会发生太大的偏移。

数学上理解:
在这里插入图片描述

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值