#URL
https://arxiv.org/pdf/2305.18292
TL;DR
23 年 5 月腾讯 PCG + 新加坡国立大学的文章。提出了一种多角色保持方案,同时还可以生成背景和交互的物体。核心是多 lora 融合,并在其中提出了一些优化点。
文章的主要贡献:
- 提出一种多人 id 保持的生成框架,使用 embedding decomposed lora 和梯度融合的训练策略,解决多个 lora 融合产生的多 id 融合怪问题。
- 提出一种 regionally controllable sampling 的概念,来解决多人 controlnet 纹理、细节丢失的问题
Model & Method
本文提出的方法如下图,整个框架分为 3 个部分,分别是:
- 每一个 ip 单独训练
- 多个 ip 的融合阶段
- 多 ip 保持生成
首先作者给出了一些分析,如下图
- Lora 会捕捉 out-domain 的信息,而 TI、P+ 只会学习 in-domain 的信息。
- Lora 直接去做 weight 融合,会导致多个 ip 出的结果趋于同质化。
- 单独训练 ip lora 阶段:就是 lora 训练,添加了额外的 layer-wise embedding
- 提取融合阶段:SD 不依赖训练数据,可以得到前向各个位置的梯度,然后对每一个 lora 分别计算梯度,用融合的方式来 fuse 各个 lora 模型
- reginally contrallable sampling:先给一个 global prompt,然后从出来的特征中提取局部特征,再送入 regional prompts
Dataset & Results
都是一些主观性的结果,可以去看原文。个人感受是 ip 保持的细节做的不是很到位,漫画结果看起来还可以
Thought
- Lora 的作用应该怎么发挥到极致,也许 lora 就是和学风格,或者某个特定的动作。ID/IP 保持的事情全都交给 lora 来做不是太鲁棒,或者 lora 就不要做任何的参考图保持。
- 最后一部分 regionally controllable sampling 可参考性很高,的思考一下怎么拿来用