AIGC研究回顾2—CV类微调方法—DreamBooth

1. 方法总结

全参微调sd模型(用文生图方式),文中对目标(Object)用特殊的标记(Rare-token Identifiers)限定,让微调后的模型能识别这个标记以生成对应的目标。

论文方法的原图如下:
在这里插入图片描述

2. 方法概述

图中黄色部分的模型即需要微调的模型,精简理解如下:

  • 微调前

    可以把右侧下方的<黄色模型>看成预训练的sd(微调前), 这时,’A dog’生成各类狗。

  • 微调过程

    用3-5张含有特定类别的狗来微调<黄色模型>,这时的文本(text)需要在类别前 (文中记作[class noun],即狗)加一个特殊字符(文中记作[V]), 即 ’A [V] dog’搭配对应的3-5张图片,微调sd生成图片类别中狗。

注意:新增的特殊标记可以是多个,即标注特定目标(object)外, 还可以对图片其他特征,如背景(subject)、目标颜色进行标记,这个在结果中有展示。

  • 微调设置

    • 损失函数:均方误差,即reconstruction loss
    • 数据:目标图片3-5张
    • 学习率: Imagen为1e-5,SD为5e-6
    • 微调迭代次数:1000次左右
    • 时间消耗: 5分钟(TPUv4 for Imagen, A100 for Stable Diffusion)

上述数据来自论文记录,原文如下:

We find that 1000 iterations with lambda 1 and learning rate 1e-5 for Imagen [61] and 5e-6 for Stable Diffusion [59], 
and with a subject dataset size of 3-5 images is enough to achieve good results. 
During this process,  1000 a [class noun] samples are generated - but less can be used. 
The training process takes about 5 minutes on one TPUv4 for Imagen, and 5 minutes on a NVIDIA A100 for Stable Diffusion.
  • 数据格式

3. 效果

3.1 基本功能

生成特定类别的目标

  • 卡通人物

在这里插入图片描述

  • 闹钟(最后一行)
    在这里插入图片描述

  • 三个特定类别(书包、花瓶、茶壶)

在这里插入图片描述

3.2 额外标记

这里第1行新增了颜色标记,第2行新增了背景标记(在text末尾标记)
在这里插入图片描述

3.3 其他应用

  • 目标表情编辑

在这里插入图片描述

  • 目标装饰编辑

在这里插入图片描述

4. 失败案例

方法也不是完全有效,a案例是背景失效,b案例是目标和背景存在耦合,c案例是过拟合,即模型失效仅生成训练集图片

在这里插入图片描述

5. 总结

方法优点是简单有效,缺点是原论文有点故弄玄虚,过于“包装”了一些。

6. Reference

  • DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
  • https://zhuanlan.zhihu.com/p/669827945
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值