Paper Title: InstantCharacter: Personalize Any Characters with a Scalable Diffusion Transformer Framework
论文发布于2025年4月16日
Abstract部分
-
U-Net架构的局限性:传统的基于U-Net架构的定制方法存在一些问题,如泛化能力不足和生成图像质量的损失。
U-Net模型需要对每个特定角色进行微调,这会导致文本控制能力下降。 -
InstantCharacter框架的创新:为了解决上述问题,论文提出了InstantCharacter框架。
该框架基于一种扩展的扩散变换器(Diffusion Transformer)模型,能够提供更高的个性化生成效果,支持不同角色的多种外观、姿势和风格,并保持图像的高保真度。 -
适配器设计:框架中的一个关键创新是引入了一个可扩展的适配器,使用堆叠的变换器编码器来处理角色特征并与扩散变换器的潜在空间进行交互。
这使得模型能够灵活处理不同角色的特征,并与生成空间进行高效对接。 -
数据集与训练方法:为了训练该框架,论文团队构建了一个大规模的角色数据集,包含千万级的样本,并将其分为配对和非配对子集。
通过这种双重数据结构,模型能够在优化时同时关注角色一致性(从非配对数据学习)和文本可编辑性(从配对数据学习)。 -
实验结果:定性实验结果表明,InstantCharacter框架在生成高质量的、能够精确控制文本和保持角色一致性的图像方面表现出色。
该框架为角色驱动的图像生成任务设立了新的技术标准。
Introduction部分
这部分介绍了论文的研究背景和提出的问题:
-
角色驱动的图像生成:该任务旨在生成结合特定角色(由用户定义)和文本提示的图像,广泛应用于创意行业,如漫画、游戏设计和广告等。尽管生成扩散变换器(DiT)模型在生成高质量图像方面表现出了强大的能力,但个性化图像生成(尤其是在创建角色驱动的视觉叙事时)仍然没有被充分开发。
-
传统方法的局限性:当前的定制方法主要依赖于调优或适配器方法,尽管这些方法可以实现一定的角色一致性和文本控制,但它们在应对开放领域的多样化角色时仍然存在问题。基于调优的方法需要对模型进行大量微调,导致生成效率低下,且文本控制能力有限。而基于适配器的方法(如使用UNet模型的适配器)无法很好地扩展到大型的扩散变换器(DiTs)。
-
现有DiTs模型的挑战:尽管DiTs模型具有更强的生成能力,但要充分发挥其潜力,仍需一个强大的适配器网络,确保角色特征与生成潜在空间的对齐。此外,这些适配器通常无法很好地扩展到大规模的DiTs模型,且训练这样一个适配器需要大量的数据和合适的策略。
-
InstantCharacter的贡献:为了解决这些问题,论文提出了InstantCharacter框架。该框架利用可扩展的适配器和分阶段的训练策略,在不牺牲推理效率和文本可控性的前提下,实现了角色的个性化定制。框架的优势包括通用性、可扩展性和多样性,并且能够处理不同的角色外观、姿势和风格,优化角色一致性和文本可控性。
图中呈现了 InstantCharacter 框架在不同角色个性化方面的能力。
其核心思想是通过灵活的适配器和现代扩散变换器(DiT)的结合,生成具有不同外观、姿势和风格的角色图像。
-
角色定制过程<