Make-a-story Visual memory conditioned consistent story generation_make-a-story: visual memory conditioned consistent-CSDN博客

本文链接：https://blog.csdn.net/Lcx559/article/details/131390689

文章提出了一个新的自回归深度生成框架storyLDM，该框架利用潜在扩散模型和视觉记忆模块来处理故事可视化任务。记忆-注意力机制能编码和利用上下文相关性，确保角色和背景在适当的时候保持一致。通过扩展的MUGEN数据集进行实验，模型能更好地理解和生成具有语义连贯性的多帧故事。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Make-a-story: Visual memory conditioned consistent story generation

Abstract

用于生成高质量图像的模型往往依赖于条件语句，需要对场景和主要人物进行明确的描述。将这样的模型用于更复杂的故事可视化任务，其中自然存在引用和共引用，并且需要根据故事进展来思考何时保持演员和背景在帧/场景之间的一致性，何时不保持一致性，仍然是一个挑战。
提出了一种新的基于自回归扩散的框架，该框架具有视觉记忆模块，该模块隐式地捕捉生成的帧中的演员和背景上下文。
在这里插入图片描述
contribution：

介绍了一种新的自回归深度生成框架story LDM，该模型是用于故事生成任务的潜在扩散模型。提出一种记忆-注意力机制模块，能够编码和利用已经生成的故事线部分之间的上下文相关性。
扩展了现有MUGEN数据

Approach

在潜在扩散模型中引入允许自回归生成多框架故事，通过视觉记忆模块引入条件结构，视觉记忆使模型能够结合字符/背景的一致性，并在需要时解析文本引用，从而提高性能。
在这里插入图片描述
对于图像顺序生成中，除了需要当前的图像信息之外，模型还需要来自先前状态的信息。
记忆注意力模块
为了捕捉一个故事多个框架和句子之间的时空交互，不仅使用当前句子，而且使用先前所有句子进行微调。这种方法能够有效的获得当前描述和先前帧以及先前描述的相关性来处理故事线的语义特征。
在这里插入图片描述
聚合表示当前已生成的故事线和当前帧的关系。