文章链接:https://arxiv.org/pdf/2409.12576
Github链接:https://github.com/RedAIGC/StoryMaker
模型链接:https://huggingface.co/RED-AIGC/StoryMaker
亮点直击
解决了生成具有一致面部、服装、发型和身体的图像的任务,同时允许背景、姿势和风格的变化,通过文本提示实现叙事创作。
提出了StoryMaker,首先从参考图像中提取信息,并使用Positional-aware Perceiver Resampler进行细化。为了防止不同角色与背景互相交织,使用带有分割mask的均方误差损失(MSE loss)对交叉注意力影响区域进行规范化,并通过ControlNet在姿势条件下训练主干网络,以促进解耦。
训练了一个LoRA以增强保真度和质量。
StoryMaker实现了出色的性能,并在现实场景中具有多样化的应用。
总结速览
解决的问题
现有的无调优个性化图像生成方法在处理多个角色时,尽管能保持面部一致性,但在场景的整体一致性方面存在缺陷,这影响了叙事的连贯性。
提出的方案
提出了StoryMaker,一个个性化解决方案,不仅保持面部一致性,还保留了服装、发型和身体的一致性,从而支持通过一系列图像创建故事。
应用的技术
-
Positional-aware Perceiver Resampler :将面部身份信息与裁剪的角色图像相结合,以获取独特的角色特征。
-
均方误差损失(MSE Loss):通过分割mask分别约束不同角色和背景的交叉注意力影响区域,防止角色与背景的混合。
-
姿势条件生成网络:促进与姿势的解耦。
-
LoRA:增强生成图像的保真度和质量。
达到的效果
实验结果证明了StoryMaker的有效性,支持多种应用,并兼容其他插件。
方法
概述
给定包含一或两个角色的参考图像,StoryMaker旨在生成一系列新图像,展示相同的角色,保持面部、服装、发型和身体的一致性。通过改变背景、角色的姿势和风格,根据文本提示可以创建叙事。
首先使用面部编码器提取角色的面部信息(即身份),并通过角色图像编码器获取他们的服装、发型和身体的细节。然后,使用Positional-aware Perceiver Resampler对这些信息进行细化。为了控制主干生成网络,将细化的信息注入IP-Adapter提出的解耦交叉注意力模块。
为了防止多个角色和背景互相交织,分别约束不同角色