DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

最新推荐文章于 2024-09-19 21:18:54 发布

我什么都不懂zvz

最新推荐文章于 2024-09-19 21:18:54 发布

阅读量943

点赞数 23

分类专栏：生成模型文章标签：人工智能

本文链接：https://blog.csdn.net/Je1zvz/article/details/136554628

版权

生成模型专栏收录该内容

12 篇文章 0 订阅

订阅专栏

1 前言

1) 提出动机
在这里插入图片描述

以往的任务都很难做到给定几张图像，模型能模仿图像的主体去实现真正的风格迁移（或者说style change只是很简单地更换背景罢了），就算是text-to-image，即使给出了最细节的text，也不能做到真正的风格迁移。作者认为主要原因是指定的主体并没有出现在模型的output domain里，整个分布都没有的东西怎么可能生成呢。

2）方法简略一览
在这里插入图片描述
使用一个A [V] dog的text，结合几张同一个主体的image，传入网络中进行微调。但可能会出现language shift的情况（也就是会将所有的dog都认为是这个 [V] dog，这样多样性也就没了）。文章提出 class-specific prior preservation loss来缓解这种现象。

2 方法

2.1 Personalization of Text-to-Image Models

2.1.1 设计prompts

label所有的image为 a [identifier] [class noun] ，其中 identifier是标识主体的一个标签， class noun就是主体的类别，identifier最好是比较少见的标签（weak prior)，因为模型需要去解耦标签和原来分布之间的联系（eg. bobby)

2.2 Class-specific Prior Preservation Loss

Dreambooth是微调模型的所有参数。大模型对所有层进行微调能获得最佳的保真度效果，但同时也会出现language shift的情况，一旦出现这种情况，也就难以生成特定主体去做各种不同姿势，在不同场景等情况。
提取了Class-specific Prior Preservation Loss去缓解这种现象，这个loss本质就是让模型生成的样本去监督模型，以此让模型保持住这个prior（既dog对应的prior还是那个prior）

在这里插入图片描述
直觉上理解：
首先使用冻结组合的pre-trained diffusion model去生成prompt为a dog的图像，然后上边训练a [V] dog照常做重建损失，而下边传入a dog生成的图像和原本冻结权重时生成的图像在做一个特定类先验保留损失，并且上边和下边的模型是同一个模型。这样就可以保证在让identifier和class有关联的同时，保持class的prior不会发生太大的偏移。