Make-a-story: Visual memory conditioned consistent story generation
Abstract
用于生成高质量图像的模型往往依赖于条件语句,需要对场景和主要人物进行明确的描述。将这样的模型用于更复杂的故事可视化任务,其中自然存在引用和共引用,并且需要根据故事进展来思考何时保持演员和背景在帧/场景之间的一致性,何时不保持一致性,仍然是一个挑战。
提出了一种新的基于自回归扩散的框架,该框架具有视觉记忆模块,该模块隐式地捕捉生成的帧中的演员和背景上下文。
contribution:
- 介绍了一种新的自回归深度生成框架story LDM,该模型是用于故事生成任务的潜在扩散模型。提出一种记忆-注意力机制模块,能够编码和利用已经生成的故事线部分之间的上下文相关性。
- 扩展了现有MUGEN数据
Approach
在潜在扩散模型中引入允许自回归生成多框架故事,通过视觉记忆模块引入条件结构,视觉记忆使模型能够结合字符/背景的一致性,并在需要时解析文本引用,从而提高性能。
对于图像顺序生成中,除了需要当前的图像信息之外, 模型还需要来自先前状态的信息。
记忆注意力模块
为了捕捉一个故事多个框架和句子之间的时空交互,不仅使用当前句子,而且使用先前所有句子进行微调。这种方法能够有效的获得当前描述和先前帧以及先前描述的相关性来处理故事线的语义特征。
聚合表示当前已生成的故事线和当前帧的关系。
Experiment
数据集
story-generation dataset – FlintstonesSV
MUGEN 视频数据集