[ICML-24] Non-confusing Generation of Customized Concepts in Diffusion Models

zzl_1998

于 2024-08-01 15:55:04 发布

阅读量948

点赞数 6

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40731332/article/details/140846178

版权

构建去混淆数据集很重要
除了文本编码和UNet，还需要微调CLIP的文本编码器

[pdf|code|proj]

文本引导的扩散模型中存在概念视觉混淆（inter-concept visual confusion）问题。
由于缺乏用户提供的样本，该问题在定制化内容生成中更加严重。
现有文本引导扩散模型（text-guided diffusion models, TGDMs）通常包括：1）CLIP：对齐文本编码和视觉编码；2）扩散模型：将文本编码解码为像素。但是现有方法定制化方法通常仅fine-tuning第二部分，而忽略了第一部分。
本文提出了CLIF（contrastive image-language fine-tuning），使用去混淆的增强数据集微调CLIP文本编码器。
实验证明CLIF可以有效阻止多订制化内容生成中的混淆问题。

引言

现有的定制化生成方法，通常是微调TGDM，微调内容包括：1）定制化名称（例如：唐僧）的文本编码；2）生成主干LoRA。然而，这其中存在一个挑战：inter-concept confusion。

研究发现文本编码（V-values）控制画什么，交叉注意力图（Q-K softmax）控制在哪里画。受此启发，本文认为混淆是由于内容文本编码的混淆导致的。

本文首先计算了混淆分数（生成4张图片，用通用目标检测器处理生成图片，根据可信度分数计算混淆分数：，其中 $Box^{Tok}_{Cat}$ 表示检测为猫，但是Tok的置信度，如果为0则表示完全解耦，如果为1则表示完全没解耦）。发现混淆程度和文本编码的欧式距离相关。当两个概念标记嵌入很远时（例如，“章鱼”和“猫”），组合很少混淆; 当它们靠近时，混淆是常见的：

本文提出CLIF（Contrastive Language-Image Fine-tuning）缓解混淆问题：1）分割好的定制化内容数据集，将客制化内容与其他内容拼在一张图中；2）基于该数据集微调CLIP；3）微调text embeddings和UNet。

方法

Training Data Curation

由上图，本文发现现有方法存在三个问题：1）ID丢失（红框）；2）属性错误（蓝框）；3）内容丢失（绿框）。针对上述三个问题，本文针对性的构建了三种数据集：

具体来说，在G-Aug中：1）用SAM分割角色图像；2）用GPT-4生成100常见内容，包括角色、动物、物体等，每个内容生成20张图片；3）随机合并多个定制化内容。

CLIF for Text Encoder

微调过程与CLIP训练过程相似，以1e-4的学习率训练。

Fine-tuning for Text-to-Image Decoder

冻结文本编码器，使用共享LoRA训练text embedding，同时训练多个内容。

实验

Datasets：18个代表性角色，包含9个真实人物，4个3D动画角色，5个2D动画角色。
Baselines：Text-Inversion、Custom Diffusion、DreamBooth、Mix-of-Show
Evaluation：可视化、量化（CLIP文本/图片相似性分数）

消融实验

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。