SEED-Story: Multimodal Long Story Generation with Large Language Model

最新推荐文章于 2024-09-17 16:52:57 发布

诸君拔剑吧

最新推荐文章于 2024-09-17 16:52:57 发布

阅读量56

点赞数

文章标签：语言模型人工智能深度学习计算机视觉自然语言处理

文章 "SEED-Story: Multimodal Long Story Generation with Large Language Model" 介绍了一种新颖的方法，利用多模态大型语言模型（MLLM）生成具有丰富叙事文本和上下文相关图像的长故事。以下是该方法的核心要点，我将用中文进行详细阐述：

多模态故事生成的挑战：首先，文章指出多模态故事生成任务的复杂性，这不仅要求模型理解文本和图像之间的复杂交互，还需要生成连贯、与上下文相关的长文本和视觉序列。
SEED-Story模型：为了应对这些挑战，作者提出了SEED-Story模型。这个模型基于MLLM的强大理解能力，预测文本和视觉token，然后通过适配的视觉反token化器处理，生成风格一致的角色和图像。
视觉Token化和反Token化：SEED-Story使用预训练的图像Tokenizer和Detokenizer，通过预训练的视觉Transformer（ViT）的特征输入，解码现实图像。
故事指令调整：在故事指令调整阶段，模型被训练以预测故事文本的下一个句子和下一个图像。使用预训练的ViT tokenizer将图像转换为图像特征，并使用交叉熵损失训练目标文本token。
反Tokenizer适应：为了增强生成图像的风格一致性和细节，提出了反Tokenizer适应，通过MLLM输出的特征调整SD-XL，以保持视觉上的连贯性。
多模态注意力汇聚机制：为了高效生成连贯的长故事，提出了基于窗口注意力的多模态注意力汇聚机制，它在最近的token的Key-Value状态上保持固定大小的滑动窗口，有效缓解了模型在处理长序列时的失败。
StoryStream数据集：为了训练和评估模型，作者引入了StoryStream数据集，这是一个大规模、高分辨率的数据集，包含了叙事丰富的文本和引人入胜的图像。
实验与评估：通过定量和定性实验，展示了SEED-Story在图像风格一致性、故事参与度和图像-文本连贯性方面的优势。
模型实现细节：文章还提供了实现细节，包括视觉Token化和反Token化的具体步骤，指令调整和反Tokenizer适应的训练细节。
结论：最后，文章总结了SEED-Story作为一种开创性方法，展示了其在生成多模态长故事方面的潜力，并提出了多模态注意力汇聚机制，以高效地处理长序列生成。