文生视频这个战场,入局的玩家越来越多了。这次是阅后即焚 SnapChat 背后的公司。最近,OpenAI 视频生成模型 Sora 的爆火,给基于 Transformer 的扩散模型重新带来了一波热度,比如 Sora 研发负责人之一 William Peebles 与纽约大学助理教授谢赛宁去年提出的 DiT(Diffusion Transformer)。首批类Sora模型出现,色拉布上线Snap Video,效果优于Pika、不输Gen-2
当然,随着视频生成这波 AI 趋势的继续演进,类似架构的模型会越来越多。就在昨天,开发出 SnapChat 图片分享软件的 Snap 公司、特伦托大学等机构联合发布了类似 Sora 的文本生成视频模型 Snap Video,这次他们使用到了可扩展的时空 Transformer。
相关的论文《Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis》已经放出。
论文地址:https://arxiv.org/pdf/2402.14797.pdf
项目地址:https://snap-research.github.io/snapvideo/#title-footer
如你我所见,统一图像生成架构(如带有公开可用图像预训练模型的 U-Nets)的可用性,使得它们成为构建大规模视频生成器的逻辑基础,并且主要的架构修改在于插入特定层来捕获时序依赖性。同样地,训练是在基于图像的扩散框架下进行的,其中可以将模型应用于视频和一组单独的图像,从而提升结果的多样性。
本文中,研究者认为这种方法不是最理想的,因而想要系统性地解决。首先图像和视频模态呈现出了由连续视频帧中相似内容决定的内在差异。以此类推,图像和视频压缩算法基于完全不同的方法。为此,研究者重写了 EDM(出自 2022 年论文 Elucidating the Design Space of Diffusion-Based Generative Models)框架,并重点关注高分辨率视频。
具体来讲,与以往将视频视为图像序列的工作不同,研究者通过将图像作为高帧率视频来执行联合视频 - 图像训练,从而避免纯图像训练中缺乏时间维度而导致的模态不匹配。其次,以往需要利用 U-Net 架构来充分处理每个视频帧,与纯文本到图像模型相比,这种做法增加了计算开销,对模型可扩展性造成了实际的限制。然而,可扩展性是获得高质量结果的关键因素。
此外,扩展基于 U-Net 的架构以自然地支持空间和时间维度需要进行体积注意力运算,又会产生令人望而却步的计算需求。如果无法做到,则会影响输出ÿ