文章 "SEED-Story: Multimodal Long Story Generation with Large Language Model" 介绍了一种新颖的方法,利用多模态大型语言模型(MLLM)生成具有丰富叙事文本和上下文相关图像的长故事。以下是该方法的核心要点,我将用中文进行详细阐述:

  1. 多模态故事生成的挑战:首先,文章指出多模态故事生成任务的复杂性,这不仅要求模型理解文本和图像之间的复杂交互,还需要生成连贯、与上下文相关的长文本和视觉序列。
  2. SEED-Story模型:为了应对这些挑战,作者提出了SEED-Story模型。这个模型基于MLLM的强大理解能力,预测文本和视觉token,然后通过适配的视觉反token化器处理,生成风格一致的角色和图像。
  3. 视觉Token化和反Token化:SEED-Story使用预训练的图像Tokenizer和Detokenizer,通过预训练的视觉Transformer(ViT)的特征输入,解码现实图像。
  4. 故事指令调整:在故事指令调整阶段,模型被训练以预测故事文本的下一个句子和下一个图像。使用预训练的ViT tokenizer将图像转换为图像特征,并使用交叉熵损失训练目标文本token。
  5. 反Tokenizer适应:为了增强生成图像的风格一致性和细节,提出了反Tokenizer适应,通过MLLM输出的特征调整SD-XL,以保持视觉上的连贯性。
  6. 多模态注意力汇聚机制:为了高效生成连贯的长故事,提出了基于窗口注意力的多模态注意力汇聚机制,它在最近的token的Key-Value状态上保持固定大小的滑动窗口,有效缓解了模型在处理长序列时的失败。
  7. StoryStream数据集:为了训练和评估模型,作者引入了StoryStream数据集,这是一个大规模、高分辨率的数据集,包含了叙事丰富的文本和引人入胜的图像。
  8. 实验与评估:通过定量和定性实验,展示了SEED-Story在图像风格一致性、故事参与度和图像-文本连贯性方面的优势。
  9. 模型实现细节:文章还提供了实现细节,包括视觉Token化和反Token化的具体步骤,指令调整和反Tokenizer适应的训练细节。
  10. 结论:最后,文章总结了SEED-Story作为一种开创性方法,展示了其在生成多模态长故事方面的潜力,并提出了多模态注意力汇聚机制,以高效地处理长序列生成。

通过这些核心步骤和策略,SEED-Story模型能够有效地生成结合了丰富文本和图像的长故事,为多模态叙事提供了新的可能性。