Cones2:Customizable image synthesis with multiple subjects

Kun Li

于 2024-09-04 17:55:56 发布

阅读量439

点赞数 4

分类专栏：图像视频生成大模型文章标签： stable diffusion

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012193416/article/details/141897658

版权

图像视频生成大模型专栏收录该内容

270 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

1.Introduction

联合训练多主题定制，两个缺点，1.需要为每个主题组合学习单独的模型，主题数量增加，指数增加；2.不同的主题相互干扰。Cones2，利用一个表征来注册一个主题，并使得不同主题的任意组合成为可能，不需要训练模型。

将多主题定制分成两个部分：如何有效的表征一个主题和如何有效的结合不同的主题。给定一组主题及其照片（每个主题3-5张），首先将每个特定主题的特征绑定到一个可以灵活使用的插件，因此使用特定主题的图像微调模型的文本编码器部分，使得调整后的模型可以定制该特定主题。此外，提出了一种文本嵌入保留损失，这限制了调整后的文本编码器的输出与原始文本编码器的唯一区别在于针对特定主题的标记嵌入（Token embedding）。然后，计算调整后的文本编码器与原始文本编码器之间的平均差异，以导出residual token embedding。为了有效的结合不同主题，提出了一种布局引导方法来控制生成过程。预定义布局是先验知识，通过在crossatt

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。