开启视频生成新纪元:基于Transformer生成高质量电影级别视频的通用世界模型,领域第一个视频生成任务的通用模型,从20亿数据中学习物理世界,基于Transformer通用世界模型成功挑战视频生成

开启视频生成新纪元:基于Transformer生成高质量电影级别视频的通用世界模型,领域第一个视频生成任务的通用模型,从20亿数据中学习物理世界,基于Transformer通用世界模型成功挑战视频生成。

WorldDreamer是一个基于Transformer的通用世界模型,能够完成自然场景和自动驾驶场景多种视频生成任务,如文生视频、图生视频、视频编辑、动作序列生视频等。该模型从20亿数据中学习物理世界,通过预测Token的方式建立通用场景世界模型,将视频生成转换为序列预测任务,从而对物理世界的变化和运动规律进行充分地学习。可视化实验证明,WorldDreamer深刻理解了通用世界的动态变化规律。

在这里插入图片描述

WorldDreamer的原理是将视频生成转换为一个序列预测任务,通过预测被掩码的视觉Token来生成视频。它采用Transformer架构,借鉴大型语言模型的成功经验,将世界模型建模框架转换为一个无监督的视觉Token预测问题。

WorldDreamer的特点是能够完成多种视频生成任务,包括但不限于图像生成视频、文本生成视频、视频修改、视频风格化和基于动作合成视频等。它具有生成高质量电影级别视频的能力,其生成的视频呈现出无缝的逐帧运动,类似于真实电影中流畅的摄像机运动。而且,这些视频严格遵循原始图像的约束,确保帧构图的显著一致性。

WorldDreamer的用途包括但不限于:

自动驾驶场景下的驾驶动作到视频的生成
从文本生成视频、从单一图像预测未来的帧
根据语言的输入可以更改被mask区域的视频内容、以及改变视频的风格等。

在这里插入图片描述

清华大学和极佳科技携手推出了全新的视频生成通用世界模型——WorldDreamer,利用Transformer技术实现了对通用场景世界的准确建模,为视频生成领域带来了全新的可能性。

支持的视频任务

图像生成视频(Image to Video)

通过单一图像预测未来的帧,实现高质量视频的生成,呈现出电影级别的流畅运动,保持原始图像的一致性。

文本生成视频(Text to Video)

基于文本内容生成视频,实现语言与视频内容的完美契合,用户可以通过语言输入定制视频内容、风格和相机运动。

视频修改(Video Inpainting)

实现视频的修复与修改,用户可根据语言输入指定区域进行内容更改,保证视频与用户描述一致。

视频风格化(Video Stylization)

改变视频的风格,根据输入语言创造不同的视觉效果,为视频添加多样化的主题风格。

基于动作合成视频(Action to Video)

在自动驾驶场景下生成驾驶动作相关的视频,根据不同的驾驶策略生成符合约束的视频内容。

技术实现

Transformer架构

采用Transformer架构进行世界模型的建模,通过预测Token的方式实现对通用场景世界的建立。Transformer技术有效学习到视频信号的动态信息,将视频生成任务转化为序列预测问题,显著提升了视频生成的能力。

数据训练与模型优化

利用大量数据对WorldDreamer进行训练,包括20亿图像数据、1000万通用场景视频段、50万高质量语言标注视频以及近千段自动驾驶场景视频。通过数百万次迭代训练,WorldDreamer逐渐理解了物理世界的变化和运动规律,具备了多种视频生成和编辑能力。

WorldDreamer的问世标志着视频生成技术迈向了一个新的里程碑,其革命性的应用将为视频创作领域带来更加广阔的发展空间。随着技术的不断演进和优化,我们可以期待看到更多基于WorldDreamer的创新应用,为用户带来更加丰富、多样化的视频体验。

WorldDreamer的推出代表了视频生成技术的重要进步,其结合了Transformer技术和大规模数据训练的优势,为视频生成领域带来了全新的可能性。


本文介绍了世界模型在理解和预测世界动态的重要作用,尤其是对于视频生成。然而,现有的世界模型局限于特定场景,如游戏或驾驶,从而限制了其捕捉通用世界动态环境复杂性的能力。因此,引入了一种名为WorldDreamer的创新世界模型,旨在促进对通用世界物理和运动的全面理解,从而显著增强视频生成的能力。受到大语言模型成功的启发,WorldDreamer将世界建模视为一个无监督的视觉序列建模挑战。这通过将视觉输入映射到离散的标注并预测被屏蔽的标注来实现。在这个过程中,引入了多模态提示以促进与世界模型的交互。实验证明,WorldDreamer在生成不同场景的视频方面表现出色,包括自然场景和驾驶环境。WorldDreamer在执行文本到视频转换、图像到视频合成和视频编辑等任务方面展现出了多才多艺。这些结果突显了WorldDreamer在捕捉多样化的通用世界环境中的动态元素方面的有效性。

人工智能的重大飞跃预计将来自那些对动态视觉世界有深刻理解的系统。在这一进步的核心是世界模型,对于理解和预测我们世界的动态性至关重要。世界模型对于学习通用世界中的运动和物理很有前景,这对于视频生成至关重要。早期对世界模型的探索主要集中在游戏场景上,有方法提出一种能够在游戏环境中学习空间和时间动态压缩表示的生成神经网络模型。Dreamer系列的后续研究进一步验证了世界模型在不同游戏场景中的有效性。考虑到其结构化性质和至关重要性,自动驾驶已成为实际应用世界模型的前沿领域。各种方法[31, 32, 49, 50]被引入以探索世界模型在自动驾驶场景中的有效性。此外,DayDreamer将世界模型的应用扩展到涵盖真实世界的机器人环境,然而,当前的世界模型主要局限于游戏、机器人和自动驾驶,缺乏捕捉通用世界的运动和物理的能力。此外,有关世界模型的相关研究主要依赖于循环神经网络(RNNs)和基于扩散的方法来建模视觉动力学。虽然这些方法在视频生成方面取得了一些成功,但在有效捕捉通用世界场景中的运动和物理方面仍然面临挑战。

本文介绍了WorldDreamer,这是为视频生成构建的第一个通用世界模型。受大语言模型(LLMs)成功的启发,通过预测被屏蔽的视觉标注来有效地建模embedding在视觉信号中的复杂动态。具体而言,WorldDreamer使用VQGAN将图像编码为离散标注。然后,随机屏蔽其中一部分标注,并利用未被屏蔽的标注来预测被屏蔽的标注,这是捕捉视觉数据中潜在运动和物理的过程。WorldDreamer基于Transformer架构构建。针对视频信号中固有的时空优先级,本文提出了Spatial Temporal Patchwise Transformer (STPT),它使注意力集中在时空窗口内的局部patch上,促进对视觉信号动态的学习并加速训练过程的收敛。此外,WorldDreamer通过交叉注意力将语言和动作信号整合在一起,构建多模态提示,以促进在世界模型内的交互。值得注意的是,与基于扩散的方法相比,WorldDreamer充分利用LLM基础设施的复用,并受益于多年来为LLMs开发的优化,包括模型规模化学习配方。此外,WorldDreamer表现出卓越的速度优势,仅需几次迭代即可并行解码视频,速度约为基于扩散的方法的3倍。因此,WorldDreamer有望从视觉信号中构建通用世界模型。

本文的主要贡献可以总结如下:

(1)介绍了WorldDreamer,这是为视频生成构建的第一个通用世界模型,它学习了通用世界的运动和物理。

(2)提出了Spatial Temporal Patchwise Transformer (STPT),它增强了对时空窗口内的局部patch的关注。这有助于更容易学习视觉信号动态并加快训练过程。

(3)本文进行了大量实验证明WorldDreamer在生成不同场景的视频方面表现出色,包括自然场景和自动驾驶场景。WorldDreamer在执行文本到视频转换、图像到视频合成、视频编辑和动作到视频生成等任务方面表现出了多才多艺。

相关工作
视频生成
目前,最先进的视频生成模型主要分为两类:基于Transformer的方法和基于扩散的方法。

基于Transformer的方法。基于Transformer的视频生成方法源自LLMs(大语言模型)的通用家族。通常,这些方法采用对下一个标注的自回归预测或对屏蔽标注的并行解码来生成视频。受到图像生成技术的启发,VideoGPT将VQVAE与基于Transformer的标注预测集成在一起,使其能够自回归地预测视频生成的视觉标注。此外,GAIA-1整合了包括文本描述、图像和驾驶动作在内的各种模态,从而生成了自动驾驶场景的视频。与这些自回归方法不同,一些基于Transformer的方法受到[8, 9, 14, 55]的启发,通过并行解码加速视频生成。除了这些方法,VideoPoet采用了视频标注器,并通过并行解码生成了异常高质量的视频。将Transformer模型引入视频语言模型展示了它们在预训练期间处理各种任务的强大的零样本能力。因此,将基于Transformer的mask图像模型作为构建通用世界模型的基础成为一个有希望的途径。

基于扩散的方法。与基于Transformer的模型相比,有大量研究采用基于扩散的模型进行视频生成。VideoLDM在2D扩散模型的潜在空间中引入了时间维度,并使用视频进行了微调,有效地将图像生成器转化为视频生成器,并实现了高分辨率视频合成。类似地,LVDM探索了轻量级视频扩散模型,利用低维度的3D潜在空间。Make-A-Video还采用了一个预训练的文本到图像模型,消除了对大规模视频训练的需求。此外,在Imagen Video中,一个级联视频扩散模型建立在预训练的2D扩散模型之上。DiffT和W.A.L.T通过利用基于Transformer的扩散网络来改善视频生成。最近,Emu Video和PixelDance提出了一种用于文本到视频生成的两步因式分解方法,其中过程首先分解为文本到图像转换,然后是图像到视频合成。这种方法利用了当代文本到图像模型的有效性,有策略地将视频扩散模型的训练重点放在学习运动动态上。然而,基于扩散的方法难以在单个模型内集成多个模态。此外,这些基于扩散的方法在产生准确捕捉动态和运动的结果方面存在困难。

世界模型
世界模型在理解和预测我们环境的动态性方面发挥着关键作用,具有获取全局范围内运动和物理洞见的巨大潜力。最初,对世界模型的探索主要集中在游戏场景上,提出了一种能够在游戏环境中学习空间和时间动态压缩表示的生成神经网络模型。Dreamer系列内的后续研究确认了世界模型在各种不同的游戏场景中的有效性。鉴于其结构化的特性和重要性,自动驾驶领域已成为世界模型的前沿应用领域。已经引入了许多方法[31,32,49,50]来评估世界模型在自动驾驶场景中的有效性。此外,DayDreamer已将世界模型的范围扩展到包括真实世界的机器人环境。然而,值得注意的是,当前的世界模型主要在游戏、机器人和自动驾驶领域运作,缺乏全面捕捉通用世界运动和物理的能力。

WorldDreamer
总体框架

在这里插入图片描述

初始阶段涉及使用视觉标注器将视觉信号(即图像和视频)编码为离散标注。这些标注在经过STPT之前经历了一个精心设计的屏蔽策略。与此同时,文本和动作信号分别被编码为embedding,充当多模态提示。STPT参与了预测被屏蔽的视觉标注的关键任务,然后这些标注由视觉解码器解码,促进在多个背景下的视频生成和编辑。

为了训练WorldDreamer,构建了Visual-Text-Action数据的三元组,其中训练监督仅涉及预测被屏蔽的视觉标注,没有任何额外的监督信号。WorldDreamer还支持在没有文本或动作数据的情况下进行训练,这不仅降低了数据收集的难度,还使WorldDreamer能够学习无条件或单一条件的视频生成。在推断时,WorldDreamer可以完成各种视频生成和视频编辑任务:

(1)对于图像到视频,只需要单个图像输入,其余帧被视为被屏蔽的。WorldDreamer还可以根据单个图像条件和文本条件预测未来帧。

(2)对于视频风格化,可以输入一个视频段,其中对某些像素进行随机屏蔽。WorldDreamer可以改变视频风格,例如根据输入语言创建秋季主题效果。

(3)对于文本到视频,提供语言输入可以使WorldDreamer预测相应的视频,假设所有视觉标注都被屏蔽。

(4)对于视频修复,可以输入一个视频段,其中手动屏蔽感兴趣的区域。WorldDreamer可以根据输入语言和未屏蔽的视觉信号填充被屏蔽的部分。

(5)对于动作到视频,输入驾驶场景的初始帧以及未来的驾驶命令可以使WorldDreamer预测未来的帧。 接下来的子节详细说明了模型架构和屏蔽策略。

模型架构
初步的WorldDreamer使用VQGAN对视觉信号进行标注化:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

实验
数据集
我们使用多样化的图像和视频集训练WorldDreamer,增强其对视觉动态的理解。在此训练中使用的具体数据包括:

Deduplicated LAION-2B: 原始的LAION数据集存在数据重复和文本描述与附带图像之间的差异等挑战。我们遵循[36]解决这些问题。具体而言,选择使用去重的LAION-2B数据集来训练WorldDreamer。这个经过精制的数据集排除了水印概率超过50%或NSFW概率超过45%的图像。去重的LAION数据集由[41]提供,遵循[51]中介绍的方法。

WebVid-10M: WebVid-10M包括大约1000万个短视频,每个视频平均持续18秒,主要以336 × 596的分辨率呈现。每个视频都与与视觉内容相关的文本配对。WebVid-10M面临的一个挑战是所有视频上都有水印,导致所有生成的视频内容都可见水印。因此,选择进一步优化WorldDreamer,利用高质量的自采集视频文本对。

Self-collected video-text pairs: 从互联网获取公开可用的视频数据,并应用[3]中详细说明的过程来预处理获取的视频。具体而言,使用PySceneDetect来检测场景切换的时刻,并获取单一连续场景的视频剪辑。然后,通过计算光流来筛选出慢动作的剪辑。因此,我们获得了50万个高质量视频剪辑进行训练。对于视频标题,我们提取视频的第10、50和90百分位数帧作为关键帧。这些关键帧由Gemini处理,以生成每个关键帧的标题。此外,Gemini被指示将这些单独的图像标题聚合成整个视频的总体标题。鉴于高度描述性的标题有助于生成模型的训练,我们促使Gemini生成尽可能详细的标题。详细的标题使WorldDreamer能够学到更精细的文本-视觉对应关系。

NuScenes: NuScenes是一个用于自动驾驶的流行数据集,总共包含700个训练视频和150个验证视频。每个视频包括大约20秒,帧率为12Hz。WorldDreamer使用训练集中的前视视频,帧间隔为6帧。总共有约2.8万个用于训练的驾驶场景视频。对于视频标题,促使Gemini生成每帧的详细描述,包括天气、时间、道路结构和重要的交通元素。然后,Gemini被指示将这些图像标题聚合成每个视频的总体标题。此外,提取自车的偏航角和速度作为动作元数据。

实施细节

在这里插入图片描述
对于预测的视觉标注,采用预训练的VQGAN解码器直接输出视频。值得注意的是,WorldDreamer可以生成包含24帧的视频,分辨率为192×320,在单个A800上仅需3秒。

可视化
我们进行了全面的可视化实验,以展示WorldDreamer已经深刻理解了通用世界的视觉动态。通过详细的可视化和结果,呈现了有力的证据,展示了WorldDreamer在各种情景下实现视频生成和视频编辑的能力。

图像到视频 WorldDreamer在各种情景下都擅长高保真图像到视频的生成。 基于初始图像输入,WorldDreamer具有生成高质量电影风景视频的能力。生成的视频呈现出无缝的帧间运动,类似于真实电影中平滑的相机运动。此外,这些视频严格遵循原始图像施加的约束,确保帧构图的显著一致性。它生成符合初始图像约束的后续帧,确保帧的显著一致性。

文本到视频 WorldDreamer在各种风格范式中从文本生成视频的卓越熟练度。生成的视频与输入语言无缝对齐,其中语言作为塑造视频内容、风格和相机运动的强大控制机制。这突显了WorldDreamer在将文本描述转化为视觉上忠实的视频内容方面的有效性。

文本到视频,WorldDreamer在各种风格范式中从文本生成视频的卓越熟练度。生成的视频与输入语言无缝对齐,其中语言作为塑造视频内容、风格和相机运动的强大控制机制。这突显了WorldDreamer在将文本描述转化为视觉上忠实的视频内容方面的有效性。

视频修复 ,WorldDreamer展示了出色的高质量视频修复能力。通过提供勾勒感兴趣区域的蒙版和指定所需修改的文本提示,WorldDreamer精细地改变原始视频,在修复过程中产生了非常逼真的结果。

视频风格化, WorldDreamer在提供高质量视频风格化方面表现出色。通过提供随机生成的视觉标注mask和指示所需修改的风格提示,WorldDreamer令人信服地转变原始视频,在风格化过程中取得了真实逼真的结果。

动作到视频 WorldDreamer展示了在自动驾驶背景下基于动作生成视频的能力。 在给定相同的初始帧和不同的驾驶动作情境下,WorldDreamer可以生成对应于不同驾驶动作(例如,控制汽车左转或右转)的不同未来视频。

结论
总之,WorldDreamer在世界建模和视频生成方面标志着显着的进步。与传统模型局限于特定场景不同,WorldDreamer捕捉了通用世界动态环境的复杂性。WorldDreamer将世界建模视为视觉标注预测挑战,促进了对通用世界物理和运动的全面理解,极大地增强了视频生成的能力。在实验中,WorldDreamer在自然场景和自动驾驶环境等各种情景中表现出色,展示了其在文本到视频转换、图像到视频合成和视频编辑等任务中的适应性。

参考文献
[1]WorldDreamer: Towards General World Models for Video Generation via Predicting Masked Tokens

https://huggingface.co/papers/2401.09985

文章链接:https://arxiv.org/pdf/2401.09985

开源代码:https://world-dreamer.github.io

  • 33
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

代码讲故事

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值