腾讯开源SEED-Story：AI续写小说还能自动配图！-CSDN博客

香港科技大学、香港中文大学和腾讯的研究团队，提出了一种利用多模态大语言模型（MLLM）生成扩展多模态故事的新方法——SEED-Story。

腾讯开源SEED-Story：AI续写小说还能自动配图！_stable diffusion

该模型建立在多模态大语言模型强大的理解能力基础之上，可以预测文本 token 和视觉 token，然后通过一个经过调整的视觉 de-tokenizer 进行处理，生成具有一致字符和风格的图像。

随着图像生成和开放式文本生成技术的显著进步，交错图像文本内容的创建已成为一个越来越引人关注的领域。多模态故事生成的特点是以交错的方式生成叙述性文本和生动的图像，已成为一项具有广泛应用价值的实用任务。然而，这项任务带来了巨大的挑战，因为它需要理解文本和图像之间复杂的相互作用，并能够生成连贯的、与上下文相关的文本和视觉效果的长序列。

论文阅读

腾讯开源SEED-Story：AI续写小说还能自动配图！_模态_02

摘要

随着图像生成和开放格式文本生成的显著进步，交错图像文本内容的创建已成为一个越来越有趣的领域。多模态故事生成的特点是以交错的方式生成叙述性文本和生动的图像，已成为一项有价值且实用的任务，具有广泛的应用。然而，这项任务带来了重大挑战，因为它需要理解文本和图像之间复杂的相互作用，并能够生成长序列的连贯、上下文相关的文本和视觉效果。

在这项工作中，我们提出了 SEED-Story，这是一种利用多模态大型语言模型 (MLLM) 生成扩展多模态故事的新方法。我们的模型建立在 MLLM 强大的理解能力之上，可以预测文本标记和视觉标记，随后使用经过调整的视觉去标记器对其进行处理，以生成具有一致字符和样式的图像。我们进一步提出了多模态注意力机制，能够以高效的自回归方式生成最多 25 个序列（仅 10 个用于训练）的故事。此外，我们提供了一个名为 StoryStream 的大规模高分辨率数据集，用于训练我们的模型并从各个方面定量评估多模态故事生成任务。

方法

腾讯开源SEED-Story：AI续写小说还能自动配图！_stable diffusion_03

SEED-Story 训练流程概述：

在第 1 阶段，我们预先训练基于 SD-XL 的去标记器，以将预先训练的 ViT 的特征作为输入来重建图像。
在第 2 阶段，我们采样随机长度的交错图像文本序列，并通过在可学习查询的输出隐藏状态和目标图像的 ViT 特征之间执行下一个单词预测和图像特征回归来训练 MLLM。
在第 3 阶段，来自 MLLM 的回归图像特征被输入到去标记器中以调整 SD-XL，从而增强生成的图像中字符和样式的一致性。

腾讯开源SEED-Story：AI续写小说还能自动配图！_AIGC_04

左图是预测多模态故事生成的下一个标记时的注意力图可视化。我们观察到重要的注意力被聚合到整个序列的第一个标记（“0”标记）、标点符号标记、与 BoI 相邻的标记和与 EoI 相邻的标记中。

右图：（a）密集注意力的图表，它将所有标记保留在 KV 缓存中。（b）窗口注意力，通过滑动窗口逐出前面的标记。（c）注意力接收器，根据窗口注意力保留开头的标记。（d）多模态注意力接收器，根据窗口注意力保留文本标记的开头、图像标记和图像标记的结尾。它可以有效地使我们的模型推广到生成比训练序列长度更长的序列。

腾讯开源SEED-Story：AI续写小说还能自动配图！_模态_05