【论文阅读】StoryMaker | 更全面的人物一致性开源工作

Qodicat

于 2024-09-25 09:32:20 发布

阅读量1.3k

点赞数 19

分类专栏： AI前沿论文阅读文章标签：论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Q52099999/article/details/142514806

版权

AI前沿论文阅读专栏收录该内容

15 篇文章

订阅专栏

文章目录

1 Motivation
2 背景相关工作 Related work
3 Method 方法
4 效果

1 Motivation

背景是

Tuning-free personalized image generation methods无微调的个性化图像生成方式在维持脸部一致性上取得了显著性的成功。这里我不是很了解

然而，在多个场景中缺乏整体一致性，整体一致性是什么呢？虽然脸一致了，但是比如衣服和身体，头发样式上的一致性很难保证，这些进而阻碍了创建连贯的叙事的能力。

StoryMaker结合了多重条件，包括面部识别和裁剪的人物图像（包括服装、发型和身体），将两个特征通过一种叫做（位置感知感知重采样器 (PPR) 的方法将面部身份信息与裁剪的字符图像相结合，以获得不同的人物特征。

为了防止多个人物和背景的混杂，分别通过带有分割遮挡的MSE损失来限制了不同人物和背景的交叉注意力。

除此之外，训练了基于特定姿势的生成模型。

Lora也被用来提高质量。

2 背景相关工作 Related work

主流维持脸部一致性的工作有2个派系

派系1：微调系列

Break-A-Scene: Extracting Multiple Concepts from a Single Image（2023）

An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion（2022）

Multi-Concept Customization of Text-to-Image Diffusion（2022）

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation（2022）

派系1生成能力不自然，因为图像有限并且在微调上面花费成本较大

派系2：不微调系列

Customizing realistic human photos via stacked id embedding（2024）

Subject-Diffusion:Open Domain Personalized Text-to-Image Generation without Test-time Fine-tuning（2024）

High-fidelity image personalization via multi-modal condition integration（2024）

Instantfamily: Masked attention for zero-shot multi-id image generation.（2024）

Instantid: Zero-shot identity-preserving generation in seconds（2024）

通过视觉编码器将视觉信息集成到生成器中，没有用微调。

然而是上面的工作只能维持脸部特征，他们不能维持更全面的一致性

StoryMaker允许通过文本提示改变背景、人物姿势和样式。怎么做到的呢？就通过脸部特征上和裁剪的人物图像去提取信息，使用位置感知感知器重采样器(PPR)来导出人物特征

3 Method 方法

在这里插入图片描述

具体来说，首先使用人脸编码器提取人物的面部信息，即面部特征，

以及通过人物图像编码器提取它们的衣服、发型和身体的细节。

然后，我们使用所提出的位置感知感知器重采样器（PPR模块）来细化此信息。PPR模块的结构组成如右侧所示。

为了控制主干生成网络，将细化的信息注入到IP-Adapter提出的解耦交叉注意模块中[Ye et al.， 2023b]。

为了防止多个字符和背景交错，我们分别约束交叉注意对不同人物和背景的影响区域。

ID 损失还用于维护人物的身份。此外，为了将姿态信息与参考图像解耦，利用ControlNet检测到的姿态训练网络[Zhang et al.， 2023]。

为了提高保真度和质量，我们还使用 LoRA [Hu et al., 2021] 训练 U-Net。

一旦经过训练，就可以丢弃整个ControlNet，并通过文本提示控制字符的姿势，或者在推理过程中用新的姿势指导图像生成。

提出的方法的完整流程如图所示

4 效果

请添加图片描述

请添加图片描述

训练在8卡 A100

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。