研究背景
- 背景介绍: 这篇文章的研究背景是文本到视频模型的快速发展,特别是Transformer架构和扩散模型的应用。早期尝试预训练和扩展Transformer生成视频已经显示出巨大潜力,如CogVideo和Phenaki。扩散模型在多模态生成方面也取得了显著进展,包括视频生成。
- 研究内容: 该问题的研究内容包括如何实现长期一致的视频生成,解决视频数据的高效建模、视频与文本语义的有效对齐以及高质量文本-视频对的构建等挑战。
- 文献综述: 该问题的相关工作有:CogVideo和Phenaki在文本到视频生成方面的初步探索,Diffusion Transformers (DiTs) 在多模态生成中的应用,以及Sora在文本到视频生成中的突破性展示。
研究方法
这篇论文提出了CogVideoX模型,具体来说:
- 3D因果VAE: 为了高效处理视频数据,设计并训练了一个3D因果变分自编码器(VAE),它在空间和时间维度上压缩视频。与将视频展开为一维像素序列相比,这种策略显著减少了序列长度和相关计算量。3D VAE有助于防止生成视频中的闪烁,确保帧与帧之间的连续性。
- 专家Transformer: 为了改善视频和文本之间的对齐,提出了一种带有专家自适应LayerNorm的专家Transformer,以促进两种模态之间的深度融合。为了确保视频生成的时间一致性和捕捉大规模运动,使用了3D全注意力机制,全面建模视频的空间和时间维度。
- 视频数据处理管道: 由于大多数在线视频数据缺乏准确的文本描述,开发了一个视频字幕生成管道,用于为所有视频数据生成新的文本描述,从而显著增强了CogVideoX的语义理解能力。
- 渐进训练技术: 采用了混合时长训练和分辨率渐进训练等渐进训练技术,以进一步提高CogVideoX的生成性能和稳定性。此外,提出了显式均匀采样,通过在每个数据并行排名的不同时间步长采样间隔设置,稳定训练损失曲线并加速收敛。
实验设计
- 数据集: 构建了一个相对高质量的视频剪辑集合,包含文本描述。经过过滤后,大约保留了3500万个单镜头剪辑,每个剪辑平均约6秒。
- 视频过滤: 使用视频-llama模型训练了多个过滤器,以筛选出低质量视频数据。过滤标准包括编辑、缺乏运动连贯性、低质量、讲座类型、文本主导和噪声屏幕截图。
- 视频字幕生成: 建立了一个密集视频字幕数据生成管道,首先使用Panda70M模型生成短视频字幕,然后使用CogVLM模型为每个视频帧生成密集图像字幕,最后使用GPT-4总结这些图像字幕生成最终视频字幕。
结果与分析
- 自动评估: 在多个自动评估指标中,CogVideoX在五个指标上表现最佳,并在其余两个指标上具有竞争力。结果表明,CogVideoX不仅在视频生成质量上表现出色,还在处理各种复杂动态场景方面超越了之前的模型。
- 人类评估: 通过手动评估比较了CogVideoX和Kling模型,结果显示CogVideoX在所有方面均优于Kling模型。具体来说,CogVideoX在感官质量、指令遵循、物理模拟和覆盖质量方面的得分均高于Kling模型。
结论
这篇论文介绍了CogVideoX,一种最先进的文本到视频扩散模型。它利用3D VAE和专家Transformer架构生成连贯的长时视频,并通过综合数据处理管道和视频重新字幕生成方法显著提高了生成视频的质量和语义对齐。渐进训练技术进一步增强了模型的性能和稳定性。未来的工作将专注于提高模型捕捉复杂动态的能力,并探索视频生成模型的扩展规律,以生成更长、更高质量的视频。
文章翻译
摘要
我们介绍了CogVideoX,这是一种大规模的扩散变压器模型,旨在基于文本提示生成视频。为了高效地建模视频数据,我们提出利用三维变分自编码器(VAE)来压缩视频的空间和时间维度。为了提高文本与视频的对齐性,我们提出了一个专家变压器和专家自适应层归一化,以促进两种模态之间的深度融合。通过采用渐进式训练技术,CogVideoX能够生成具有显著运动的连贯、长时间的视频。此外,我们还开发了一个有效的文本-视频数据处理流程,包括各种数据预处理策略和视频字幕生成方法。它显著提高了CogVideoX的性能,改善了生成质量和语义对齐。结果表明,CogVideoX在多个机器指标和人类评估中均展现出最先进的性能。三维因果VAE和CogVideoX的模型权重可在https://github.com/THUDM/CogVideo公开获取。
1 引言
文本到视频模型的快速发展是惊人的,这得益于Transformer架构(Vaswani等人,2017年)和扩散模型(Ho等人,2020年)。早期尝试使用预训练和扩展的Transformer从文本中生成视频已经显示出巨大的潜力,例如CogVideo(Hong等人,2022年)和Phenaki(Villegas等人,2022年)。同时,扩散模型最近在多模态生成方面取得了令人兴奋的进展,包括视频生成(Singer等人,2022年;Ho等人,2022年)。通过使用Transformer作为扩散模型的骨干,即Diffusion Transformers(DiT)(Peebles & Xie