我们采用以下 6 个分类标准来详细解释本文的研究主题:
1. 生成模型类型:
- 基于扩散的:这种方法通过前向扩散过程迭代地将噪声细化为图像。这允许生成高质量的图像,并控制特定方面,如场景元素和照明。
- 基于注意力的:注意力机制有助于模型在生成每个帧时集中在文本描述和视觉记忆的相关部分。这使得参考解析(识别代词所指的人或物)和跨帧保持一致性成为可能。
- 内存增强的:视觉记忆模块存储前几帧中有关演员和背景的信息。这允许模型“记住”谁是谁以及他们在哪里,确保故事的连续性。
2. 条件输入:
- 单句:传统的故事可视化模型通常将单句作为每个帧的输入。然而,这对于捕捉具有多个角色和事件的复杂叙事来说是有限的。
- 多句:该模型可以处理以多句写成的故事情节,提供更丰富的上下文,