UniPortrait：在单人和多人场景中保持身份一致并进行风格转换!-CSDN博客

本文链接：https://blog.csdn.net/qq_32907491/article/details/141529829

UniPortrait 是一个用于人像图像个性化的统一框架，专注于在单人和多人场景中保持身份一致性的同时，提供高度可编辑的图像生成。该框架由阿里巴巴集团的研究团队开发。

它能够：

单人和多人图像个性化：统一处理单人和多人图像的个性化生成，确保在复杂场景中的身份一致性。
高保真度的身份保持：在生成图像时，能够准确地保持参考图像中的面部特征和身份信息。
广泛的面部可编辑性：允许用户根据文本描述对图像进行灵活编辑和定制，而不会丢失原始身份特征。
自由形式的输入描述：支持使用多样化的文本提示，无需预先设定布局或格式限制。

主要特点：

高保真度： UniPortrait 画出来的人物肖像非常逼真，能够清晰地展现出每个人的独特面部细节。
可编辑性强：你可以根据自己的喜好，对 UniPortrait 画出来的人物肖像进行修改，比如改变发型、表情等等，UniPortrait 都能很好地满足你的需求。
自由创作：你可以尽情发挥你的想象力，用文字描述你想要 UniPortrait 画什么样的人物肖像，UniPortrait 会尽力理解你的意思，并将其转化为生动的画面。

项目地址：https://aigcdesigngroup.github.io/UniPortrait-Page/

GitHub：https://github.com/junjiehe96/UniPortrait

论文：https://arxiv.org/pdf/2408.05939

在线演示：https://huggingface.co/spaces/Junjie96/UniPortrait

论文阅读

UniPortrait：用于保留身份的单人和多人图像个性化的统一框架

摘要

本文介绍了一种创新的人体图像个性化框架 UniPortrait，它将单 ID 和多 ID 定制与高人脸保真度、广泛的人脸可编辑性、自由形式的输入描述和多样化的布局生成统一起来。UniPortrait 仅包含两个即插即用模块：ID 嵌入模块和 ID 路由模块。ID 嵌入模块使用解耦策略为每个 ID 提取多功能可编辑人脸特征，并将它们嵌入到扩散模型的上下文空间中。然后，ID 路由模块将这些嵌入自适应地组合和分布到合成图像中的各自区域，实现单 ID 和多 ID 的定制。通过精心设计的两阶段训练方案，UniPortrait 在单 ID 和多 ID 定制中均实现了卓越的性能。定量和定性实验证明了我们的方法优于现有方法的优势以及良好的可扩展性，例如与现有生成控制工具的通用兼容性。

方法

UniPortrait由两个即插即用的模块组成：ID 嵌入模块和 ID 路由模块。ID 嵌入模块使用针对每个 ID 的解耦策略提取多功能可编辑面部特征，ID 路由模块自适应地组合和分配这些嵌入到各自的位置，而无需提示和布局的干预。该框架的整个训练过程分为两个阶段，即单 ID 训练阶段和多 ID 微调阶段。

UniPortrait仅由两模块组成：ID嵌入模块和ID路由模块。

ID嵌入模块使用Stable Diffusion模型，接受文本提示并生成对应图像。该模块通过提取面部特征，并在嵌入过程中采用多层感知机模型，确保ID信息的高保真度和可编辑性。同时，通过将深层次的特征与结构特征相结合，UniPortrait能够有效地解耦身份信息和外部干扰信息，消除过拟合的可能性。

在ID路由模块中，UniPortrait引入了位置无关的ID嵌入，将每个潜在面部区域与一个独特ID相连，从而有效解决多ID生成中的身份混淆问题。训练过程分为两个阶段：单ID训练阶段和多ID微调阶段。这样的设计确保了模型不仅支持单一身份的定制，还能处理复杂的多身份任务。

实验

文本到单一 ID 个性化示例

文本到多 ID 个性化示例

与之前作品的比较

对单一 ID 图像定制的不同方法进行定性比较。

对多 ID 图像定制的不同方法进行定性比较。为了与 FastComposer 兼容，数字复数表达（例如"two men"）被转换为由"and"连接的单数短语（例如"a man and a man"）。

多 ID 定制的其他示例。UniPortrait 能够使用自由格式提示定制多 ID 图像并生成不同的布局。

多样化应用

UniPortrait 在对齐 ID、保持及时一致性以及增强生成图像的多样性和质量方面的卓越性能为大量潜在的下游应用铺平了道路。

结论

我们介绍了UniPortrait，该模型是为单IID图像的统一定制而开发的。 UniPortrait结合了一个高级ID嵌入模块，可确保高保真和可编辑的身份嵌入。此外，已经集成了一个模块化的插件ID路由组件，以解决多个ID生成过程中身份混合物的挑战。经验结果表明，UniPortrait通过提供不仅具有高质量和多样性的合成，而且提供了强大的编辑性和强大的身份保真度来优于现有方法。我们希望我们的单一图案将在该领域内作为新的基线工作，提供所有研究机构可以遵循，复制和优化的基准。

限制。 考虑到路由决策路由器仅基于人类ID信息，我们的 ID路由模块当前无法自定义与面对身份无关的属性，例如服装和动作，对于多ID世代中的每个ID。可能的解决方案是为了将所有感兴趣属性的表示形式送入指导ID路由的路由器，即属性绑定ID路由。我们将其留给以后的研究。