小红书开源StoryMaker：个性化图像生成模型，实现角色一致性与背景变化的完美结合

最新推荐文章于 2024-12-06 08:49:38 发布

AI生成未来

最新推荐文章于 2024-12-06 08:49:38 发布

阅读量2.2k

点赞数 12

分类专栏：图像生成 AIGC 文章标签：图像生成文生图个性化人物生成 AIGC

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AIGCer/article/details/142504551

版权

文章链接：https://arxiv.org/pdf/2409.12576
Github链接：https://github.com/RedAIGC/StoryMaker
模型链接：https://huggingface.co/RED-AIGC/StoryMaker

亮点直击

解决了生成具有一致面部、服装、发型和身体的图像的任务，同时允许背景、姿势和风格的变化，通过文本提示实现叙事创作。

提出了StoryMaker，首先从参考图像中提取信息，并使用Positional-aware Perceiver Resampler进行细化。为了防止不同角色与背景互相交织，使用带有分割mask的均方误差损失（MSE loss）对交叉注意力影响区域进行规范化，并通过ControlNet在姿势条件下训练主干网络，以促进解耦。

训练了一个LoRA以增强保真度和质量。

StoryMaker实现了出色的性能，并在现实场景中具有多样化的应用。

总结速览

解决的问题

现有的无调优个性化图像生成方法在处理多个角色时，尽管能保持面部一致性，但在场景的整体一致性方面存在缺陷，这影响了叙事的连贯性。

提出的方案

提出了StoryMaker，一个个性化解决方案，不仅保持面部一致性，还保留了服装、发型和身体的一致性，从而支持通过一系列图像创建故事。

应用的技术

Positional-aware Perceiver Resampler ：将面部身份信息与裁剪的角色图像相结合，以获取独特的角色特征。
均方误差损失（MSE Loss）：通过分割mask分别约束不同角色和背景的交叉注意力影响区域，防止角色与背景的混合。
姿势条件生成网络：促进与姿势的解耦。
LoRA：增强生成图像的保真度和质量。

达到的效果

实验结果证明了StoryMaker的有效性，支持多种应用，并兼容其他插件。

方法

概述

给定包含一或两个角色的参考图像，StoryMaker旨在生成一系列新图像，展示相同的角色，保持面部、服装、发型和身体的一致性。通过改变背景、角色的姿势和风格，根据文本提示可以创建叙事。

首先使用面部编码器提取角色的面部信息（即身份），并通过角色图像编码器获取他们的服装、发型和身体的细节。然后，使用Positional-aware Perceiver Resampler对这些信息进行细化。为了控制主干生成网络，将细化的信息注入IP-Adapter提出的解耦交叉注意力模块。

为了防止多个角色和背景互相交织，分别约束不同角色

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。