One-Prompt-One-Story：无须训练即可保持身份一致性

最新推荐文章于 2025-05-01 22:59:55 发布

Toyag

最新推荐文章于 2025-05-01 22:59:55 发布

阅读量1k

点赞数 21

分类专栏：文生图论文 AIGC 文章标签：人工智能 AIGC python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LT_admin/article/details/145687652

版权

One-Prompt-One-Story: Free-Lunch Consistent Text-to-Image Generation Using a Single Prompt

alt text

文生图模型很难支持故事叙述中一致的身份保留要求。（要么通过训练，要么通过修改模型结构）.本文利用语言模型的语境一致性，即通过单一提示的语境来理解身份。这种方法将所有提示连接作为一个整体作为T2I模型的单个输入，同时采用两种技术来改进生成过程：奇异值重加权和身份保持交叉注意。

什么是语言模型的语境一致性？

在长提示符中，身份信息是通过上下文理解隐式维护的，我们称之为语言模型的上下文一致性。
例如：A dog is watching the movie. Afterward, the dog is lying in the garden.（我们可以知道在这一段话中，这只狗代表的是同一只狗，因为在同一段话出现）

这里有个实验说明：单提示生成设置下，文本嵌入空间中彼此之间的语义距离相对较小，而跨多提示生成设置的文本嵌入空间彼此之间的语义距离相对较大。

主体提示符 P0 = “A watercolor of a cute kitten”
5个子提示符 P(1~5) = "in a garden, “dressed in a superhero cape”, “wearing a collar with a bell”, “sitting in a basket”, “dressed in a cute sweater”

作者比较了不同设置下的文本编码在文本嵌入空间中：

多提示生成的设置下，即 Ci = TextEncoder（P0,Pi）
单提示设置下，即 C = TextEncoder（P0,P1,P2,…,PN）

作者这里用 t-SNE 做了 2D 的可视化，可以看到即在单提示设置下，Pi的语义距离相对较小。
alt text

如何利用朴素的重加权方法（NPR）来实现图像空间中的上下文一致性？

alt text

Naive Prompt Reweighting (NPR)：即使用连接起来的总提示符作为输入，生成第i个场景，就通过一个放大因子重新加权对应于所需场景的提示嵌入，同时通过一个缩小因子重新缩放其他场景提示的嵌入。

缺点: T2I模型虽然综合了具有相同主体身份的帧图像。然而，背景在这些帧之间混合，

(一)1prompt1story: Singular-Value Reweighting 奇异值重加权

TextEncoder(P0, P1, . . . , PN) = [cSOT , cP0 , cP1 , . . . , cPN , cEOT ]

最低0.47元/天解锁文章

博客等级

码龄7年

21
原创

263
点赞

341
收藏

187
粉丝

关注

私信

热门文章

分类专栏

最新评论

Vscode自定义Markdown粘贴图片的位置
越过山丘: 太感谢了，搞半天
Vscode自定义Markdown粘贴图片的位置
lllong33: 参考 https://github.com/microsoft/vscode/issues/114319
SDXS：Real-Time One-Step Latent Diffusion Models with Image Conditions
CSDN-Ada助手: 恭喜您在博客领域中持续创作，第16篇博客《SDXS：Real-Time One-Step Latent Diffusion Models with Image Conditions》标题听起来非常专业和引人注目。希望您能继续保持创作的热情和努力，不断探索新的研究方向和内容。或许下一步可以尝试探讨一些与该主题相关的实际案例或应用场景，以便更深入地理解和展示您的研究成果。期待您更多精彩的博客作品！祝您一切顺利！
CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching
CSDN-Ada助手: 恭喜您发布了第15篇博客，“CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching”！这篇博客内容看起来非常专业和引人入胜。我认为您在探讨文本和图像之间的关联方面做出了很大的努力和贡献。希望您能继续保持创作的热情和努力，为我们带来更多有价值的内容。我建议您在下一篇博客中可以探讨一下如何进一步优化模型的性能，或者分享一些实际应用中的案例研究。期待您的下一篇作品！
Vscode自定义Markdown粘贴图片的位置
Toyag: 这个看需求吧，文档改了，里面的图片引用是不会变的，也就是说你不该 asset 下的名字，就不会失效。这个本地主要还是作为日后的备份，方便组织管理

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。