[ICML-24] Non-confusing Generation of Customized Concepts in Diffusion Models

  • 构建去混淆数据集很重要
  • 除了文本编码和UNet,还需要微调CLIP的文本编码器

[pdf|code|proj]

  • 文本引导的扩散模型中存在概念视觉混淆(inter-concept visual confusion)问题。
  • 由于缺乏用户提供的样本,该问题在定制化内容生成中更加严重。
  • 现有文本引导扩散模型(text-guided diffusion models, TGDMs)通常包括:1)CLIP:对齐文本编码和视觉编码;2)扩散模型:将文本编码解码为像素。但是现有方法定制化方法通常仅fine-tuning第二部分,而忽略了第一部分。
  • 本文提出了CLIF(contrastive image-language fine-tuning),使用去混淆的增强数据集微调CLIP文本编码器。
  • 实验证明CLIF可以有效阻止多订制化内容生成中的混淆问题。

引言

现有的定制化生成方法,通常是微调TGDM,微调内容包括:1)定制化名称(例如:唐僧)的文本编码;2)生成主干LoRA。然而,这其中存在一个挑战:inter-concept confusion。

研究发现文本编码(V-values)控制画什么,交叉注意力图(Q-K softmax)控制在哪里画。受此启发,本文认为混淆是由于内容文本编码的混淆导致的。

本文首先计算了混淆分数(生成4张图片,用通用目标检测器处理生成图片,根据可信度分数计算混淆分数:,其中Box^{Tok}_{Cat}表示检测为猫,但是Tok的置信度,如果为0则表示完全解耦,如果为1则表示完全没解耦)。发现混淆程度和文本编码的欧式距离相关。当两个概念标记嵌入很远时(例如,“章鱼”和“猫”),组合很少混淆; 当它们靠近时,混淆是常见的:

本文提出CLIF(Contrastive Language-Image Fine-tuning)缓解混淆问题:1)分割好的定制化内容数据集,将客制化内容与其他内容拼在一张图中;2)基于该数据集微调CLIP;3)微调text embeddings和UNet。

方法

Training Data Curation

由上图,本文发现现有方法存在三个问题:1)ID丢失(红框);2)属性错误(蓝框);3)内容丢失(绿框)。针对上述三个问题,本文针对性的构建了三种数据集:

具体来说,在G-Aug中:1)用SAM分割角色图像;2)用GPT-4生成100常见内容,包括角色、动物、物体等,每个内容生成20张图片;3)随机合并多个定制化内容。

CLIF for Text Encoder

微调过程与CLIP训练过程相似,以1e-4的学习率训练。

Fine-tuning for Text-to-Image Decoder

冻结文本编码器,使用共享LoRA训练text embedding,同时训练多个内容。

实验

  • Datasets:18个代表性角色,包含9个真实人物,4个3D动画角色,5个2D动画角色。
  • Baselines:Text-Inversion、Custom Diffusion、DreamBooth、Mix-of-Show
  • Evaluation:可视化、量化(CLIP文本/图片相似性分数)

消融实验

  • 6
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值