Multi-Concept Customization of Text-to-Image Diffusion # 论文阅读

最新推荐文章于 2025-07-19 23:20:38 发布

奔跑的汉堡包

最新推荐文章于 2025-07-19 23:20:38 发布

阅读量434

点赞数 9

CC 4.0 BY-SA版权

文章标签：论文阅读

本文链接：https://blog.csdn.net/qq_29679623/article/details/138740084

URL

https://arxiv.org/pdf/2212.04488

TL;DR

2022 年 12 月 CMU + 清华 + adobe 的文章。提出一种基于几张图片做 ip 保持的方法，可以支持多个 ip 出现的同一张图片里面。
在这里插入图片描述

Model & Method

框架整体如下图。训练数据除了特定的角色和场景，还额外引入了特定角色/场景相关联的图片，这样做是为了防止 language shift 现象，即所有关联词都生成特定的图片。
在这里插入图片描述

训练过程其实没有啥特别的地方，只 finetune 模型中的 cross attn（里面的 K、V），并且特定任务会增加 rare token。
多 ip 保持，给出了两种训练方法：

联合训练：不同的物体给不同的 rare token，其他没有特殊的地方
分别训练然后融合权重

Dataset & Results

在这里插入图片描述

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

奔跑的汉堡包

关注关注

9
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【CVPR2023】详细解读 Multi-Concept Customization of Text-to-Image Diffusion 论文和代码

沉迷单车的追风少年

07-31

1654

lora、dreambooth、Textual Inversion等微调stable diffusion方法已经被广泛使用，最近cvpr2023的一篇新论文《Multi-Concept Customization of Text-to-Image Diffusion》在生成新的概念和组合不同的新概念上具有明显优势，除此之外作者还通过实验探索了快速微调的方法，这篇博客将详细解读这篇论文的原理和代码。

【深度学习】【custom-diffusion】Multi-Concept Customization of Text-to-Image Diffusion，论文，实战

q742971636的博客

08-03

1409

虽然生成模型可以从大规模数据库中学到高质量的概念图像，但用户通常希望能够合成他们自己概念的实例（例如家人、宠物或物品）。在给定少量示例的情况下，我们能否教会模型快速学习新的概念？此外，我们能否将多个新概念组合在一起？我们提出了一种名为Custom Diffusion的有效方法，用于增强现有的文本到图像模型。我们发现，仅通过优化文本到图像条件机制中的少量参数就足以表示新概念，同时实现快速调整（约6分钟）。此外，我们可以通过闭式约束优化来联合训练多个概念或将多个经过微调的模型合并为一个模型。

2 条评论您还未登录，请先登录后发表或查看评论

Multi-Concept Customization of Text-to-Image Diffusion——【论文笔记】

qq_45791526的博客

01-18

1763

Multi-Concept Customization of Text-to-Image Diffusion——【论文笔记】

论文笔记：Multi-Concept Customization of Text-to-Image Diffusion

爱学习爱运动的专栏

10-20

1359

论文：Multi-Concept Customization of Text-to-Image Diffusion当生成模型生成从大规模数据库中学习的概念的高质量图像时，用户通常希望合成他们自己的概念的实例(例如，他们的家庭，宠物或物品)。我们能教一个模型快速掌握一个新概念吗，给出几个例子?此外，我们能否将多个新概念组合在一起?我们提出自定义扩散，一种有效的方法来增强现有的文本到图像模型。我们发现，仅优化文本到图像调节机制中的几个参数就足以强大地表示新概念，同时实现快速调优。

【T2I】Multi-Concept Customization of Text-to-Image Diffusion

2201_75801514的博客

03-24

680

当生成模型生成从大规模数据库中学习的概念的高质量图像时，用户通常希望合成他们自己的概念的实例(例如，他们的家庭，宠物或物品)。我们能教一个模型快速掌握一个新概念吗，给出几个例子?此外，我们能否将多个新概念组合在一起?我们提出自定义扩散，一种有效的方法来增强现有的文本到图像模型。我们发现仅优化文本到图像调节机制中的几个参数就足以强大地表示新概念，同时实现快速调优(~ 6分钟)。此外，我们可以对多个概念进行联合训练，或者通过封闭式约束优化将多个微调模型组合成一个模型。

Multi-Concept Customization of Text-to-Image Diffusion

Lcx559的博客

06-26

666

提出自定义扩散，只需要优化文本到图像调节机制中的几个参数就足以表示新概念，同时实现快速调整（6min）可以针对多个概念进行联合训练，获通过闭式约束优化将多个微调模型组合为一个。提出一种微调技术，用于文本到图像扩散模型的自定义扩散，确定一小部分模型权重，即从文本到交叉注意力层中潜在特征的关键和值映射。基于stable diffusion建立了该方法。方法只需要存储一小部分参数（模型权重的3%），并减少了微调时间（在2个A100 GPU上6分钟，与并行工作相比快2−4倍）。

Multi-Concept Customization of Text-to-Image Diffusion——【代码复现】

qq_45791526的博客

01-13

1955

Multi-Concept Customization of Text-to-Image Diffusion——【代码复现】

（2023|CVPR，Custom Diffusion，概念微调，正则化数据集）文本到图像扩散的多概念定制

qq_44681809的博客

01-03

1333

本文提出了自定义扩散仅优化少数参数就能表示新概念，并实现快速调整。此外，可通过封闭形式的约束优化同时训练多个概念，或将多个经过微调的模型合并成一个模型，实现多概念组合生成。

多概念自定义的文本到图像扩散：论文和代码详细解读

PlHtml的博客

09-21

212

一项名为"Multi-Concept Customization of Text-to-Image Diffusion"的论文提出了一种新颖的方法，通过扩散过程实现多概念自定义的文本到图像生成。具体而言，扩散模型通过反复迭代生成器和判别器的训练过程，不断生成与文本描述中不同概念相关的图像。该方法基于文本到图像生成模型和扩散模型的结合。然后，通过迭代的方式，将该向量进行扩散，逐渐生成与文本描述中的各个概念相关的图像。在文本到图像生成模型的基础上，论文引入了扩散模型，以实现多概念自定义的图像生成。

基于diffusion扩散模型/GAN生成对抗方法

whaosoft143ai的博客

04-25

1890

大型文本生成图像模型已取得显著进展，有能力从给定的文本提示中生成高质量和多样化的图像。然而，给定目标个体的一些参考图片（这里不妨称之为“主题”），这些模型还无法做到的是，在不同的上下文环境里去生成关于它们不同图片的能力。DreamBooth是一种新的文本到图像扩散模型的“个性化”方法。给定一个主题的几张图像作为输入，对预训练的文本到图像模型进行微调，使其学会将一个唯一标识符（identifier）绑定到特定的主题。一旦主题被嵌入到模型的输出域中，唯一的标识符就可以用来生成不同场景下关于主题的新颖逼真图像。通

CVPR 2023 | 可控文生图/定制化文生图领域论文详解 AI作画增强版

xuxu96

07-23

5407

CVPR 2023 | 可控文生图/定制化文生图领域论文详解 AI作画增强版

FreeCustom：一键生成多概念组合图像，无需调参

gitblog_00749的博客

03-31

588

FreeCustom：一键生成多概念组合图像，无需调参项目介绍 FreeCustom 是一个基于大规模预训练文本到图像（T2I）生成模型的创新方法，旨在实现无需调参的定制化图像生成。它能够根据用户指定的参考概念，使用每个概念的单张图像作为输入，生成包含多个概念的组合图像。FreeCustom 的核心优势在于其简洁性和高效性，无需重新训练或微调模型，即可快速生成高质量的定制图像。项目技术分析 F...

【CVPR 2023的AIGC应用汇总二】可控文生图，基于diffusion扩散模型/GAN生成对抗方法...

idol24的博客

04-25

2118

【CVPR 2023的AIGC应用汇总一】图像转换/翻译，基于GAN生成对抗/diffusion扩散模型方法1、DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation大型文本生成图像模型已取得显著进展，有能力从给定的文本提示中生成高质量和多样化的图像。然而，给定目标个体的一些参考图片（...

Text-to-Image with Diffusion models的巅峰之作：深入解读 DALL·E 2

沉迷单车的追风少年

08-06

2093

DALL·E 2、imagen、GLIDE是最著名的三个text-to-image的扩散模型，是diffusion models第一个火出圈的任务。这篇博客将会详细解读DALL·E 2《Hierarchical Text-Conditional Image Generation with CLIP Latents》的原理。

VLA--Gemini_Robotics: 论文阅读 -- 直接控制机器人的视觉-语言-动作（VLA）模型

07-19

717

Gemini Robotics：一个直接控制机器人的视觉-语言-动作（VLA）通用模型，Gemini Robotics 建立在 Gemini Robotics-ER 模型之上。 Gemini Robotics-ER：一个有具身推理能力的VLM模型。将 Gemini 的多模态推理能力扩展到物理世界，增强了空间和时间理解。

RoboBrain 2.0（具身智能论文阅读）

weixin_39699362的博客

07-18

1023

RoboBrain 2.0 的核心创新在于：通过专用数据构建解决空间/时间数据稀缺，异构架构适配具身多模态输入，分阶段训练强化推理链，最终在物理世界具身任务中实现突破。其开源资源（代码、模型、基准）也为领域研究提供了重要工具。这四大功能模块并非独立运行，而是通过“空间感知提供环境坐标参考→时间感知规划步骤时序→场景推理提取因果逻辑→交互推理实现动态调整”的协同机制，最终让模型在物理世界具身任务中，既能精准理解环境，又能灵活应对变化，从而在12个评估基准中实现6个SOTA，验证了其解决核心问题的有效性。

Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring 论文阅读

qq_45987837的博客

07-18

574

针对一般动态场景的非均匀盲去模糊是一个具有挑战性的计算机视觉问题，因为。

[论文阅读] 人工智能 + 软件工程 | 当LLMs遇上顺序API调用：StateGen与StateEval如何破解测试难题？

张较瘦

07-17

871

本文解析了论文《Evaluating LLMs on Sequential API Call Through Automated Test Generation》的核心内容。论文针对LLMs在顺序API调用中的能力评估难题，提出了自动测试框架StateGen和基准StateEval。StateGen能根据API文档生成含顺序调用的可执行程序，并转换为自然语言指令；StateEval包含120个测试案例，覆盖三个真实场景。实验显示，闭源LLM（如GPT-4.1）表现优于开源模型

[论文阅读] 人工智能 + 软件工程 | 强化学习在软件工程中的全景扫描：从应用到未来