Towards High-Resolution Minute-Length Text-to-Video Generation with Linear Computational Complexity

论文封面

基本信息

  • 📝 原文链接: https://arxiv.org/abs/2412.09856
  • 👥 作者: Hongjie Wang, Chih-Yao Ma, Yen-Cheng Liu, Ji Hou, Tao Xu, Jialiang Wang, Felix Juefei-Xu, Yaqiao Luo, Peizhao Zhang, Tingbo Hou, Peter Vajda, Niraj K. Jha, Xiaoliang Dai
  • 🏷️ 关键词: Rotary Major Scan, text-to-video generation, MATE block, linear computational complexity
  • 📚 分类: 机器学习, 计算机视觉

摘要

中文摘要

文本到视频生成增强了内容创作,但计算量极大:扩散Transformer(DiT)的计算成本与像素数的平方成正比。这使得分钟长度的视频生成变得极为昂贵,限制了大多数现有模型只能生成10-20秒长度的视频。我们提出了一种线性复杂度的文本到视频生成(LinGen)框架,其成本与像素数线性相关。LinGen首次使单GPU上生成高分辨率分钟长度的视频成为可能,而不会降低质量。它用称为MATE的线性复杂度块替换了计算主导的二次复杂度块——自注意力,MATE块由一个MA分支和一个TE分支组成。MA分支针对短至长距离相关性,结合了双向Mamba2块、我们的令牌重排方法——旋转主扫描以及为长视频生成开发的审查令牌。TE分支是一个新颖的TEmporal Swin注意力块,专注于相邻令牌和中等距离令牌之间的时序相关性。MATE块解决了Mamba的相邻保持问题,并显著提高了生成视频的一致性。实验结果表明,LinGen在视频质量上优于DiT(胜率高达75.6%),同时将FLOPs(延迟)降低了高达15倍(11.5倍)。此外,自动指标和人工评估都表明,我们的LinGen-4B在视频质量上与最先进模型相当(与Gen-3、LumaLabs和Kling相比,胜率分别为50.5%、52.1%、49.1%)。这为小时长度的电影生成和实时交互式视频生成铺平了道路。我们在我们的项目网站上提供了68秒的视频生成结果和更多示例:https://lineargen.github.io/。

原文摘要

Text-to-video generation enhances content creation but is highly computationally intensive: The computational cost of Diffusion Transformers (DiTs) scales quadratically in the number of pixels. This makes minute-length video generation extremely expensive, limiting most existing models to generating videos of only 10-20 seconds length. We propose a Linear-complexity text-to-video Generation (LinGen) framework whose cost scales linearly in the number of pixels. For the first time, LinGen enables high-resolution minute-length video generation on a single GPU without compromising quality. It replaces the computationally-dominant and quadratic-complexity block, self-attention, with a linear-complexity block called MATE, which consists of an MA-branch and a TE-branch. The MA-branch targets short-to-long-range correlations, combining a bidirectional Mamba2 block with our token rearrangement method, Rotary Major Scan, and our review tokens developed for long video generation. The TE-branch is a novel TEmporal Swin Attention block that focuses on temporal correlations between adjacent tokens and medium-range tokens. The MATE block addresses the adjacency preservation issue of Mamba and improves the consistency of generated videos significantly. Experimental results show that LinGen outperforms DiT (with a 75.6% win rate) in video quality with up to 15times (11.5times) FLOPs (latency) reduction. Furthermore, both automatic metrics and human evaluation demonstrate our LinGen-4B yields comparable video quality to state-of-the-art models (with a 50.5%, 52.1%, 49.1% win rate with respect to Gen-3, LumaLabs, and Kling, respectively). This paves the way to hour-length movie generation and real-time interactive video generation. We provide 68s video generation results and more examples in our project website: https://lineargen.github.io/.

论文解读

一句话总结

本文提出了一种名为LinGen的线性复杂度文本到视频生成框架,能够在单个GPU上实现高分辨率分钟级视频的生成,同时保持视频质量。

问题1:这篇论文想要解决什么具体问题?

• 问题背景:文本到视频生成技术虽然能够增强内容创作,但其计算成本非常高,尤其是Diffusion Transformers (DiTs)的计算成本与像素数量平方成正比,导致分钟级视频生成成本极高。
• 现有方案不足:现有模型大多只能生成10-20秒的短视频,而高分辨率视频生成效率低下。
• 研究目标:提出一个线性复杂度的文本到视频生成框架,实现高分辨率分钟级视频的生成,同时保持视频质量。

问题2:论文的核心创新点是什么?

• 技术创新:提出了一种名为MATE的线性复杂度块,用于替换DiTs中的自注意力块,从而降低计算成本。
• 方法改进:MATE块包含MA分支和TE分支,MA分支针对短到长距离相关性,TE分支专注于时间相关性,从而全面增强短、中、长距离相关性。
• 优势:LinGen在生成高质量视频的同时,实现了线性扩展和高达15倍的加速。

问题3:实验结果如何验证了方法的有效性?

• 关键实验:将LinGen与其他视频生成模型进行对比,包括DiT、Runway Gen3、LumaLabs和Kling等。
• 性能提升:LinGen在视频质量方面优于DiT,同时实现了高达15倍的FLOPs(或延迟)降低。
• 对比结果:LinGen在自动评估和人工评估中均表现出色,其LinGen-4B模型与最先进的模型相当。

问题4:这个研究的实际应用价值是什么?

• 应用场景:视频内容创作、视频编辑、虚拟现实和增强现实等。
• 实施建议:在实际部署中,可以考虑结合采样蒸馏技术进一步提高效率。
• 局限与展望:LinGen目前主要针对分钟级视频生成,未来可以扩展到更长时间的视频生成,并探索实时交互式视频生成等应用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值