论文题目:STORYMAKER: TOWARDS HOLISTIC CONSISTENT CHARACTERS IN TEXT-TO-IMAGE GENERATION
STORYMAKER:在文本到图像生成中实现整体一致的字符
举例说明,生成一连串的图片的主人公保持一致(面貌、衣服等)
论文地址:A template for the arxiv style
项目地址:github.com
摘要
StoryMaker 模型旨在解决现有文本到图像生成方法中缺乏多角色场景全面一致性的问题。该模型不仅保持了面部特征的一致性,还关注了服装、发型和身体的一致性,从而有助于通过一系列图像来构建故事。通过使用位置感知感知重采样器(Positional-aware Perceiver Resampler,PPR)整合面部身份信息和裁剪后的角色图像,StoryMaker 能够生成具有独特角色特征的图像。此外,为了防止多个角色和背景相互干扰,模型使用均方误差(MSE)损失和分割掩模分别约束不同角色和背景的交叉注意力影响区域。StoryMaker 还通过 ControlNet 训练生成网络,以促进从姿势中解耦。实验表明,该方法在保持角色一致性方面非常有效,并且支持多种应用。
介绍
当前的图像生成方法,如 DALL-E、Imagen 和 Stable Diffusion 等,虽然取得了显著进展,但仅使用文本进行个性化内容生成仍然具有挑战性。为了解决这个问题,提出了一些在测试时对特定主题进行微调的方法,但这些方法由于图像数量有限和微调成本高昂,泛化能力受到限制。因此,提出了在大规模数据集上训练的无需微调的方法。尽管这些方法能够在一定程度上保持面部特征的一致性,但它们在保持服装、发型和身体的一致性方面存在不足。
模型
概述 StoryMaker 旨在从包含一个或两个角色的参考图像生成一系列新图像,保持角色的面部、服装、发型和身体的一致性。该模型通过文本提示允许背景、角色姿势和风格的改变,从而创建叙事。
参考信息提取
- 面部信息提取:使用 Arcface 模型检测面部并提取对齐的面部嵌入。
- 角色图像分割:使用预训练的 CLIP 视觉编码器提取角色的服装、发型和身体特征
位置感知感知重采样器
- E1 = R1(Fface): 使用独立重采样模块 R1 将面部特征转换为面部嵌入。
- E2 = R2(Fcharacter): 使用另一个独立重采样模块 R2 将角色特征转换为角色嵌入。
- Ei = MLP(Cat(E1, E2) + Epos): 将面部嵌入和角色嵌入连接,并添加位置嵌入以区分不同的角色。
- ci = Cat(Ebg, Reshape(Ei, (N ∗ L, D)): 引入可学习的背景嵌入 Ebg 并连接到最终嵌入中。
解耦交叉注意力
使用 IP-Adapter 提出的解耦交叉注意力将提取的参考信息嵌入到文本到图像模型中。
从角色图像中解耦姿势
- 姿势多样性:通过 ControlNet 训练网络,实现姿势多样性。
- 推理时的灵活性:在推理时,可以丢弃 ControlNet,直接通过文本提示控制生成角色的姿势,或者提供新的姿势进行引导。
使用 LoRA 训练
- LoRA 集成:在每个交叉注意力层中集成 LoRA 层,以提高 ID 一致性、保真度和质量。
- 训练策略:冻结 U-Net 模型的原始权重,只训练 PPR 模块和 LoRA 权重。
使用掩模约束交叉注意力图的损失
- 交叉注意力图:在每个角色的交叉注意力图中,通过求和其 L 个 token 得到 A。
- ,
- 注意力损失:通过计算交叉注意力图的 softmax 值与分割掩模之间的 MSE 损失来约束交叉注意力的影响区域。
总体损失
- 损失组合:在训练中,将交叉注意力图的损失平均化,并与扩散损失结合。
实验 (Experiments)
作者收集了一个包含 500K 图像的内部角色数据集,并使用 CogVLM 自动生成图像标题。在实验中,作者将 StoryMaker 与其他四种无需微调的角色生成模型进行了比较,包括 MM-Diff、PhotoMaker-V2、InstantID 和 IP-Adapter-FaceID。实验结果表明,StoryMaker 在保持角色一致性方面表现优于现有无需微调的模型,尤其是在多角色场景中。
结论 (Conclusion)
StoryMaker 通过保持角色的面部、服装、发型和身体的一致性,增强了通过文本提示创建背景、姿势和风格变化的叙事能力。该模型在多角色场景中保持角色身份和一致性方面优于现有方法,并且通过服装交换、角色插值和与其他生成插件的集成等多样化应用,展示了其在个性化图像生成中的潜力。
限制 (Limitations)
尽管 StoryMaker 在多角色图像生成方面取得了显著进展,但作者指出,如果没有明确的姿势指导,生成的角色姿势可能会出现异常,缺乏和谐性。此外,同时生成三个或更多角色仍然是一个挑战,生成的服装的保真度和细节也有待提高。
论文还提到了 StoryMaker 的代码和模型权重可以在 GitHub 上找到,这为有兴趣进一步探索该模型的研究人员提供了便利