全面解读大模型驱动下的视频生成|人大卢志武教授

点击蓝字

9abb5fb062c5676fe07e8a24ff23a1d5.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

引言

2024开年,一款备受瞩目的文生视频大模型——Sora,引起了人工智能领域的广泛关注。但是早在Sora发布前9个月,学术界就已经有研究团队提出了与Sora具有相似技术路线的视频生成模型VDT(Video Diffusion Transformer)。2024年4月18日,AI TIME的大咖talk很荣幸地邀请到中国人民大学高瓴人工智能学院的卢志武教授,带领观众一起揭开视频生成背后的神秘面纱,探讨其所面临的挑战、当前的范式以及未来的趋势。

01

 视频生成的挑战与范式 

视频生成的挑战

视频生成在实际应用中面临几个挑战。首先,现有模型难以确保生成视频的一致性,画面抖动问题尚未解决。其次,视频生成需要大量计算资源,成本高昂,限制了创新和应用范围。最后,相比图像生成,视频生成更难控制,需要考虑更多因素,如精细的运镜和复杂的角色动作。

视频生成的两种范式

由于视频生成领域存在上述这些挑战,因此其进展相对较小。尽管如此,学术界和工业界仍然投入了大量的人力和财力进行研究。在过去一年里,针对视频生成的研究进展可以分为两类。

第一种方法是基于已有的文生图模型(如Stable Diffusion,即SD)加入时间建模机制的方法,要么先逐帧生成画面,然后在每一帧上加上时间连续性约束,要么在只包含空间建模的网络结构中加入时间建模的模块。另一种方法是基于时空patch生成的方法,即将视频看作是一个3D表示,并生成3D patch,这种方法天然地考虑了时间和空间上的连续性。

这两种方法各有优缺点。基于SD的方法由于有SD这个文生图的强初始化,因此训练成本相对较低,模型也更容易训练。而基于时空patch的生成方法需要从头训练模型,成本较高,但因为能够同时考虑时间和空间上的连续性,所以在视频内容的一致性上更为可靠,尤其适合生成长视频。

在过去一年中,视频生成领域的研究进展主要集中在这两种方法中,它们各有优劣,但是都对视频生成技术的发展做出了重要贡献。卢老师为大家详细介绍了这两种方法的具体进展。

9fab42e1df71872564ff811ce2cafb21.png

02

 基于SD逐帧生成范式的最新进展 

Pika Labs

Pika Labs通过引入滑动窗口和并行计算的方式,加速了文生3D生成的效率。同时,它还采用了阈值操作的技巧,进一步提高了计算效率。这些方法可能也适用于视频生成任务,对于提高生成效率具有重要意义。

Runway Gen-2

Runway Gen-2的整体架构基于Stable Diffusion,并考虑了深度信息。在推理过程中,模型可以接受视频和文字输入,对视频进行编辑并生成最终结果。其中,最核心的部件是UNet,它使用Stable Diffusion作为初始化,然后通过时空Residual模块和时空Attention模块考虑了时间和空间上的连续性,确保生成的视频质量。

2f065439a571cbfc1bda706bb8f2962c.png

I2VGEN-XL

I2VGEN-XL将视频生成分解为两个阶段:第一阶段是生成低分辨率的视频,第二阶段是将其扩展为高分辨率视频。在第一阶段,它使用CLIP、Detail Encoder和Global Encoder对输入图像进行编码,并将其作为条件输入到模型中。在第二阶段,除了将第一阶段生成的低分辨率视频进行输入外,还额外输入文本作为条件,从而生成高分辨率的视频。I2VGEN-XL仍旧使用了Stable Diffusion初始化。I2VGEN-XL最大的优势在于开源,但是在生成视频的质量上相较于Pika Labs与Gen-2会稍稍逊色。

7be3c6c614d4c65159fb0c22fa36af26.png

DynamiCrafter

从DynamiCrafter的流程图中可以看出,它的结构与之前介绍的模型类似,都采用了U-Net的结构。它通过CLIP对图像进行编码,并将其作为条件输入到模型中。总的来说,DynamiCrafter在结构上与之前的模型相似,但在细节上可能有所差异。另外,DynamiCrafter也使用了Stable Diffusion作为初始化。通过一些示例,可以看出腾讯的工作在某些情况下可能比其他模型表现更出色。

Stable Video Diffusion

Stable Video Diffusion的模型架构与之前介绍的四个模型没有本质上的区别,主要的不同之处在于其重新训练了VAE,让VAE在解码时考虑了时间维度的一致性,而非像之前的工作那样逐帧解码。再加上U-Net结构中也加入了更多的时间Attention,让SVD可以更加细致地考虑时间和空间的关联。SVD使用了大量的训练数据,其论文中的示例也验证了SVD相比之前的模型效果更好,相较于Gen-2和Pika Labs要更加优秀。

03

 基于时空Patches生成范式的最新进展 

Sora

Sora是如何对视频进行表示的?它的核心思想在于将视频表示为时空patches,这一步骤是Sora成功的关键。这是如何实现的呢?首先,它训练了一个三维空间中的微型网络VAE,将每个视频压缩到一个较低维度的潜在空间中。然后,将视频的潜在表示分解为时空patches,作为Transformer的输入tokens。

ec5ce40fa6b5f970dc52cbe2559998b6.png

第二个要点是,Sora采用的框架是扩散模型框架,它可以接受图像patch和文本提示条件的输入,并在经过训练后预测原始干净的patch。这是一个迭代的过程,但它采用了不同于传统方法的扩散过程,即采用了Diffusion Transformer的结构,也就是所谓的DiT结构,将视觉生成与时间序列生成相结合,这在许多领域已经被证明具有良好的扩展性。

a69e2fffdcc024e424297c70ccf85fac.png

下图中的三个例子展示了Diffusion Transformer在视频生成领域的巨大潜力。它们说明了在不同的训练阶段情况下,即使使用相同的种子和相同的输入,生成的视频样本也会有所不同。例如,左侧的例子是基础的迭代版本,中间是4倍的训练量和模型体量,右侧是8倍的训练量和模型体量。随着迭代次数和模型体量的增加,视频生成的细节和质量会逐渐提高。这说明了一个有趣的现象,随着计算量的增加,视频生成的效果会变得越来越好。

b7a73dc2b2151d762919019fdb63eef2.png


VDT-类Sora底座模型

VDT底座模型是由卢志武老师的团队首次提出的,其中有两个创新点非常关键。第一个创新点是将Transformer模型应用到基于扩散的视频生成中。第二个,他们提出了统一的时空掩码建模机制。在视频生成中,有许多不同的任务,如条件生成、预测插帧、填补缺失等。这些任务都可以统一看作是时空生成的任务。通过统一的时空生成机制,可以更清晰地设计模型架构和损失函数,并进行有效的训练。这种方法的提出使得模型在各种视频生成任务中都能得到良好的应用和效果。

f0c90081fb6ad15de6a09dad5258eb21.png


VDT的整体架构

VDT的目标是生成一个F×H×W×3的视频片段,由F帧大小为H×W的画面组成。然而,如果使用原始像素作为VDT的输入,尤其是当F很大时,将导致计算量极大。为解决这个问题,受潜在扩散模型(LDM)的启发,VDT使用预训练的VAE将视频编码到潜在空间中。将输入和输出的向量维度减少到潜在特征/噪声的F×H/8×W/8×C,加速了VDT的训练和推理速度,其中每一帧潜在特征的大小为H/8×W/8×C。

遵循Vision Transformer的方法,VDT将潜在视频特征表示划分为N×N的非重叠Patch作为VDT的输入,对划分好的Patch通过线性层进行Embedding操作。

d68c9f614461fe251a7de2e7e45471b4.png


VDT中最关键的模块是时空Transformer模块,它引入Temporal Attention来学习视频中的时序信息。每个Transformer Block由一个多头时间注意力层、一个多头空间注意力层和一个全连接前馈网络组成。VDT的时空Transformer模块的结构与Sora的原理相似,但在注意力机制的处理上略有不同。

97fda0cb086e9987587212db19ef75fd.png


VDT与Sora的区别

VDT采用的是在时空维度上分别进行注意力机制处理的方法,而Sora将时间和空间维度合并,通过统一时空注意力机制来处理。分离注意力的做法在视频领域已经比较常见,被视为是在显存限制下的一种选择,而Sora强大的视频动态能力可能来自于时空整体的注意力机制。

16c4c5fe46fffcd5e590db1cf1f29b11.png


此外,Sora还考虑文本条件的融合。我们推测,Sora在模块中额外引入交叉注意力机制来支持文本信息作为条件。或者,直接将文本和噪声拼接作为条件输入的形式也是一种潜在的可能。

VDT实验结果-条件生成

VDT考虑了三种条件生成方式,并设计了实验来验证它们的效果,分别是自适应层归一化、交叉注意力、Token拼接。实验结果表明,相较于自适应层归一化和交叉注意力,Token拼接是最有效的。它不仅在生成效果上表现出色,而且收敛速度也更快。

be616b26920ba9dd5ad98268c2628b7b.png


VDT实验结果-通用时空掩码

VDT引入了通用时空掩码建模的方式来统一条件输入,统一了不同长度和维度(空间或时间)的掩码信息。在不修改模型结构的情况下可以应用于无条件生成、视频后续帧预测、插帧、图生视频、视频画面补全等多种视频生成任务。

e99fe18c4a3ede7265969108cb371b49.png


VDT实验结果-消融实验

VDT通过消融实验对模型中的超参数进行了大量验证,最终得出了一个结论:在选择超参数时,只需要考虑一个因素,即是否能够增加模型的训练计算量。如果超参数的选择可以增加模型的计算量,那么模型的性能将会得到改善。这个结论与DiT的发现也是一致的。这进一步证明了scaling law在基于Transformer的扩散框架中同样适用,也显示了算力在视频生成任务中的重要性。

d578ef233fa9d6adaebe46f138da50f8.png


VDT实验结果-简单物理规律模拟

在学术数据集中,VDT对物理规律的模拟进行了尝试。实验发现,通过VDT生成的视频可以模拟一些简单的物理现象,比如物体沿抛物线的轨迹和碰撞等,这表明通过视频生成技术可以学习和模拟基本的物理规律。但是,由于实验数据有限,VDT仅在学术数据集上进行了验证,并未在更多的真实场景中进行训练和测试,所以并不能将VDT视为一个完整的物理世界模拟器,但这些初步结果仍然具有一定的意义。

bb94fb18926d36c1cb59844a96d49840.png


VDT实验结果-与现有模型对比

这里卢志武教授团队专注于一个特定的应用方向:将一张静态的人像写真照片转化为动态效果,展示了VDT与Stable Video Diffusion、DynamiCrafter模型对比的结果。直观的视频结果表明,VDT在保持人像的自然性和细节上表现更好。当然,因为实现高质量的超写实人像视频生成是一项艰巨的任务,所以在算力足够的情况下,有团队在超写实人像视频生成上的技术加持,未来在通用视频生成领域超越Sora也将很有前景。

45652a74299d308f7c5cd87514bc802b.png

04

 视频生成的趋势分析 

总结来看,视频生成领域的发展趋势主要围绕着三个方向展开。首先是视频生成的效果和落地应用,这涉及到推理和训练的加速,以便生成的视频能够在实际应用中高效落地;其次是超长视频的生成,目前最好的开源模型也仅能生成比较短的视频,未来的挑战在于能否生成更长的视频,例如超过60秒甚至数分钟的视频;最后是视频的可控生成,与图像可控生成相比,它的难度更大,因为需要考虑到视频中的特殊要素,如精细运镜和角色动作,还要保持时序一致性。这使得视频可控生成面临更多的挑战,但也意味着它具有更大的研究价值。视频生成领域在不断挑战和探索中,未来将在解决这些关键问题上取得进一步的突破。

整理:陈研

审核:卢志武教授

AI TIME 小助手

添加"AI TIME小助手",

回复“视频生成”,将拉您进“AI TIME 交流群”!

072b3a6bb80304d4d1551b69b85409f2.png

往期精彩文章推荐


dc71f7980e1d006e56cc799a519ffe6e.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1800多位海内外讲者,举办了逾600场活动,超700万人次观看。

9f256453fe2f4f7af2d39b403eae07ee.png

我知道你

在看

提出观点,表达想法,欢迎

留言

7f005dcbcd3168beae144b1d594da80d.gif

点击 阅读原文 观看直播回放!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值