Mix-of-Show: Decentralized Low-Rank Adaptation forMulti-Concept Customization # 论文阅读

#URL
https://arxiv.org/pdf/2305.18292

TL;DR

23 年 5 月腾讯 PCG + 新加坡国立大学的文章。提出了一种多角色保持方案,同时还可以生成背景和交互的物体。核心是多 lora 融合,并在其中提出了一些优化点。
在这里插入图片描述

文章的主要贡献:

  • 提出一种多人 id 保持的生成框架,使用 embedding decomposed lora 和梯度融合的训练策略,解决多个 lora 融合产生的多 id 融合怪问题。
  • 提出一种 regionally controllable sampling 的概念,来解决多人 controlnet 纹理、细节丢失的问题

Model & Method

本文提出的方法如下图,整个框架分为 3 个部分,分别是:

  • 每一个 ip 单独训练
  • 多个 ip 的融合阶段
  • 多 ip 保持生成
    在这里插入图片描述

首先作者给出了一些分析,如下图

  • Lora 会捕捉 out-domain 的信息,而 TI、P+ 只会学习 in-domain 的信息。
  • Lora 直接去做 weight 融合,会导致多个 ip 出的结果趋于同质化。
    在这里插入图片描述
  1. 单独训练 ip lora 阶段:就是 lora 训练,添加了额外的 layer-wise embedding
  2. 提取融合阶段:SD 不依赖训练数据,可以得到前向各个位置的梯度,然后对每一个 lora 分别计算梯度,用融合的方式来 fuse 各个 lora 模型
  3. reginally contrallable sampling:先给一个 global prompt,然后从出来的特征中提取局部特征,再送入 regional prompts

在这里插入图片描述

Dataset & Results

都是一些主观性的结果,可以去看原文。个人感受是 ip 保持的细节做的不是很到位,漫画结果看起来还可以

Thought

  • Lora 的作用应该怎么发挥到极致,也许 lora 就是和学风格,或者某个特定的动作。ID/IP 保持的事情全都交给 lora 来做不是太鲁棒,或者 lora 就不要做任何的参考图保持。
  • 最后一部分 regionally controllable sampling 可参考性很高,的思考一下怎么拿来用
  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值