https://arxiv.org/pdf/2311.10093.pdf
目标:
- 生成与文本描述一致的角色图像,并在不同上下文中保持角色的一致性。
关键问题:
- 现有的文本到图像生成模型难以生成具有一致性的角色图像,这对于多种应用场景(如故事可视化、游戏开发等)至关重要。
方法:
- 提出了一个全自动的迭代过程,不需要目标角色的预存图像。
- 使用预训练的特征提取器将生成的图像嵌入到语义空间中,并进行聚类。
- 通过选择最内聚的群集并对其进行身份提取,以提炼出一致的角色表示。
- 通过重复迭代过程,直到达到一致性为止。
评估:
- 通过定量分析和用户研究,证明了该方法在保持文本提示对齐和角色身份一致性之间取得了更好的平衡。
- 进行了