本文是LLM系列文章,针对《xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations》的翻译。
摘要
我们提出了xGen-VideoSyn-1,这是一种文本到视频(T2V)生成模型,能够从文本描述中生成逼真的场景。我们通过引入视频变分自编码器(VidVAE)来扩展潜在扩散模型(LDM)架构。我们的视频VAE在空间和时间上压缩视频数据,显著减少了视觉标记的长度以及与生成长序列视频相关的计算需求。为了进一步解决计算成本问题,我们提出了一种分割合并策略,该策略可以保持视频片段之间的时间一致性。我们的扩散Transformer(DiT)模型结合了空间和时间自我关注层,实现了跨不同时间框架和纵横比的鲁棒泛化。我们还设计了一个数据收集和处理管道,帮助我们收集了1300多万对高质量的视频文本。该流程包括剪切、文本检测、运动估计、美学评分和基于我们的xGen MM视频语言模型的密集字幕等步骤。训练视频VAE和DiT模型分别需要大约40天和642个H100天。我们的模型以端到端的方式支持超过14秒的720p视频生成,并展示了与最先进的T2V模型相比的竞争性能。