香港科技大学、香港中文大学和腾讯的研究团队,提出了一种利用多模态大语言模型(MLLM)生成扩展多模态故事的新方法——SEED-Story。

腾讯开源SEED-Story:AI续写小说还能自动配图!_stable diffusion

该模型建立在多模态大语言模型强大的理解能力基础之上,可以预测文本 token 和视觉 token,然后通过一个经过调整的视觉 de-tokenizer 进行处理,生成具有一致字符和风格的图像。

随着图像生成和开放式文本生成技术的显著进步,交错图像文本内容的创建已成为一个越来越引人关注的领域。多模态故事生成的特点是以交错的方式生成叙述性文本和生动的图像,已成为一项具有广泛应用价值的实用任务。然而,这项任务带来了巨大的挑战,因为它需要理解文本和图像之间复杂的相互作用,并能够生成连贯的、与上下文相关的文本和视觉效果的长序列。

相关链接

论文地址:https://arxiv.org/pdf/2407.08683

项目地址:https://github.com/TencentARC/SEED-Story

论文阅读

腾讯开源SEED-Story:AI续写小说还能自动配图!_模态_02

摘要

随着图像生成和开放格式文本生成的显著进步,交错图像文本内容的创建已成为一个越来越有趣的领域。多模态故事生成的特点是以交错的方式生成叙述性文本和生动的图像,已成为一项有价值且实用的任务,具有广泛的应用。然而,这项任务带来了重大挑战,因为它需要理解文本和图像之间复杂的相互作用,并能够生成长序列的连贯、上下文相关的文本和视觉效果。

在这项工作中,我们提出了 SEED-Story,这是一种利用多模态大型语言模型 (MLLM) 生成扩展多模态故事的新方法。我们的模型建立在 MLLM 强大的理解能力之上,可以预测文本标记和视觉标记,随后使用经过调整的视觉去标记器对其进行处理,以生成具有一致字符和样式的图像。我们进一步提出了多模态注意力机制,能够以高效的自回归方式生成最多 25 个序列(仅 10 个用于训练)的故事。此外,我们提供了一个名为 StoryStream 的大规模高分辨率数据集,用于训练我们的模型并从各个方面定量评估多模态故事生成任务。

方法

腾讯开源SEED-Story:AI续写小说还能自动配图!_stable diffusion_03

SEED-Story 训练流程概述:

  • 在第 1 阶段,我们预先训练基于 SD-XL 的去标记器,以将预先训练的 ViT 的特征作为输入来重建图像。
  • 在第 2 阶段,我们采样随机长度的交错图像文本序列,并通过在可学习查询的输出隐藏状态和目标图像的 ViT 特征之间执行下一个单词预测和图像特征回归来训练 MLLM。
  • 在第 3 阶段,来自 MLLM 的回归图像特征被输入到去标记器中以调整 SD-XL,从而增强生成的图像中字符和样式的一致性。

腾讯开源SEED-Story:AI续写小说还能自动配图!_AIGC_04

左图是预测多模态故事生成的下一个标记时的注意力图可视化。我们观察到重要的注意力被聚合到整个序列的第一个标记(“0”标记)、标点符号标记、与 BoI 相邻的标记和与 EoI 相邻的标记中。

右图:(a)密集注意力的图表,它将所有标记保留在 KV 缓存中。(b)窗口注意力,通过滑动窗口逐出前面的标记。(c)注意力接收器,根据窗口注意力保留开头的标记。(d)多模态注意力接收器,根据窗口注意力保留文本标记的开头、图像标记和图像标记的结尾。它可以有效地使我们的模型推广到生成比训练序列长度更长的序列。

腾讯开源SEED-Story:AI续写小说还能自动配图!_模态_05

我们的StoryStream数据集和现有的多模式故事生成数据集的数据样本。我们的多模式故事序列由视觉上引人入胜的高分辨率图像组成详细的叙述文本下划线,非常类似于现实世界的故事书。另外,我们的故事的长度更长。

腾讯开源SEED-Story:AI续写小说还能自动配图!_stable diffusion_06

SEED-Story和基线模型之间的故事可视化比较。SEED-Story生成具有更高质量和更好的一致性的图像。

效果

腾讯开源SEED-Story:AI续写小说还能自动配图!_模态_07

SEED-Story中的多模式故事生成示例。它展示了两种叙事由相同的初始图像生成的分支。顶部分支以引用“男人”的文本开始在黄色的帽子中,“导致包含角色的图像。底部的分支开始于 提到这个人,导致了与第一个故事不同的故事,因为他被排除在外。

腾讯开源SEED-Story:AI续写小说还能自动配图!_计算机视觉_08

SEED-Story的多模式长故事生成结果。

结论

这项工作引入了 SEED-Story,这是一种开创性的方法,它利用多模态大型语言模型来生成具有丰富叙述文本和上下文相关图像的多模态长篇故事。

我们提出了一种多模态注意力沉浸机制,使我们的模型能够推广到以有效的方式生成长序列。我们进一步提出了一个名为 StoryStream 的高质量数据集,用于有效地训练和对多模态故事生成任务进行基准测试。