多模态:Seed-story故事生成


前言

伴随图像生成和文本生成的迅速发展,多模态故事生成以交错的方式生成叙事文本和生动形象为特征,已成为一种有价值的故事生成方式
具有广泛应用的实际任务。该任务的主要难点在于文本和图像之间复杂的相互作用,以及生成连贯的且上下文相关的长序列的能力

paper:https://arxiv.org/pdf/2407.08683
github: https://github.com/TencentARC/SEED-Story

一、介绍

文章提出Seed-story,一种利用多模态大语言模型生成扩展的多模态故事。模型建立在强大的MLLM的理解能力,预测文本token以及视觉token基础上,这些token随后使用自适应的de-tokenizer进行处理产生一致的character和style

另外,文章提出了一种多模态 attention sink 机制让故事的生成序列最多达到25个(自回归方式)

数据集方面提出了一个名为StoryStream的大规模高分辨率数据集。

Contributions as follow:

  1. Seed-story, 充分利用MLLM生成丰富的叙述文本和内容相关的图像;
    2)多模态attention sink, 生成更多序列
    3)提出StoryStream数据集

二、Method

1. Story Generation with Multimodal Large Language Model

请添加图片描述
整个train piepline 分为3个阶段,
1):使用vit模型提取图像特征,然后用该特征作为输入,送入SDXL中进行训练(该部分替代了原始输入文本特征的部分)
2):MLLM微调,采样一段长度的故事数据,输入第一张图和文本,然后去输出接下来的图和文本。具体在模型训练上表现为,输入文本的token和一段可学习的query,然后输出下一张图的文本token预测,和下一张的图像特征并计算对应loss
3)使用MLLM预测的图像特征输入SDXL进行解码,生成图像,并计算对应loss

2.Multimodal Attention Sink

请添加图片描述
这部分作者做了一些实验,分析了主要两个目前存在的几种attention运算方式以及token的频率,分析了下缺陷,并针对所设计模型的方式设计了新的attention计算方式,简单来说,基于Attention sink的方法额外保留了text tokens、images tokens的起始token和image token的终止token,它可以有效地使模型泛化为生成比训练序列长度更长的序列

三、StoryStream数据集

创建多模式故事生成数据集的理想来源是卡通系列,它本质上包含丰富的情节和一致的人物形象。文章选择了三个卡通系列来构建我们的数据集。该过程从收集各种系列开始,我们从中提取关键帧及其相关字幕,然后每个关键帧由 GPT-4V或Qwen-VL处理以生成详细的图像描述。这些元素(关键帧、字幕和描述)被编译到一个组中。我们汇总了 30 个这样的组并将其输入 GPT-4,并补充了有关卡通系列的背景信息。

请添加图片描述

四、实验效果

请添加图片描述
由于多模态故事生成的方法相对较少,文章采用人工评测和GPT评测方法,并给出长故事生成的效果。请添加图片描述

此外,为了验证文章提出的multimodal attention sink,文章也进行了对比实验。请添加图片描述


总结

Seed-story可以算作是多模态领域的又一创新应用,在MLMM的发展中,可以发现CV与NLP的模块结合可以实现很多有意思的事情,另外最重要的一点还是数据的构建,MLMM时代,数据的构建将成为新的重点,文章将SD和LLM的结合虽然简单,但是策略还是很有意思的!!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值