【论文阅读笔记】LTX-Video: Realtime Video Latent Diffusion

最新推荐文章于 2025-03-11 10:07:43 发布

LuH1124

最新推荐文章于 2025-03-11 10:07:43 发布

阅读量1.3k

点赞数 23

分类专栏：论文阅读笔记 AIGC 视频生成文章标签：论文阅读笔记 AIGC 生成对抗网络

本文链接：https://blog.csdn.net/weixin_43357695/article/details/144947910

版权

LTX-Video: Realtime Video Latent Diffusion

介绍
摘要
Introduction
方法
数据准备
实验
限制
社会限制
总结

介绍

近来看到两篇之一从VAE的角度来提升图与视频生成效果包括效率的文章。

另一篇「todo」

project：https://github.com/Lightricks/LTX-Video

摘要

LTX-Video，一种基于变换器的潜在扩散模型，它通过无缝整合视频变分自编码器（Video-VAE）和去噪变换器的功能，采用整体方法进行视频生成。
LTX-Video 旨在优化它们之间的交互，Video-VAE，能够实现 1:192 的高压缩比，每个标记的时空下采样为 32×32×8 像素，这得益于将分块操作从变换器的输入迁移到 VAE 的输入。
在这种高度压缩的潜在空间中，变换器能够高效地执行完整的时空自注意力，这对于生成具有时间一致性的高分辨率视频至关重要。
然而，高压缩本质上限制了对细节的表现。为了解决这个问题，
1. VAE 解码器负责潜在到像素的转换以及最终的去噪步骤，直接在像素空间中生成干净的结果。
2. 保留了生成细节的能力，而无需单独的上采样模块所带来的运行时成本。
模型支持多种使用案例，包括文本到视频和图像到视频的生成，这两种能力是同时训练的。它实现了超实时生成，在 Nvidia H100 GPU 上以 768×512 分辨率仅需 2 秒即可生成 5 秒的 24 fps 视频，超越了所有同类规模的现有模型。
源代码和预训练模型已公开，设立了可访问和可扩展视频生成的新基准。

Introduction

在这里插入图片描述

图 1：LTX-Video 生成的文本到视频（第一行）和图像到视频样本（最后 2 行，以左帧为条件），突出了我们模型的高水平提示依从性、视觉质量和运动保真度。每行显示从生成的 5 秒视频中均匀分布的帧。

现有视频模型包括 Sora、MovieGen、CogvideoX、Open-Sora、PyramidFlow等T2V 模型证明了自注意力和全局感受野的时空变换器的有效性，以及用于时空压缩的3DVAE。虽然验证了基本架构选择的有效性，但是依赖于常规 VAE 设计。
同期工作，DC-VAE [6] 表明，与采用更高空间压缩因子的 VAE 和最多 64 个通道的高维潜在空间配对时，基于文本的扩散模型更有效地执行。然而，将这种方法扩展到视频会带来重大挑战。

受生成高分辨率图像和视频方面方法的启发，本文提出了 LTX-Video，一种基于转换器的潜在扩散模型，它同样优先考虑空间和时间维度。
本方法的特点是精心设计的 VAE 架构，该架构实现了更高的空间压缩，同时通过增加 128 个通道的潜在深度来保持视频质量。这种设计选择不仅能够更有效地处理视频数据，而且还会导致高性能的 3D VAE 实现。

128个通道的潜在深度增加能够更有效地处理视频数据，使得高性能的 3D VAE 实现。潜在扩散模型牺牲了应用像素级训练损失来提高训练效率的能力，通常是以牺牲生成合理的高频细节为代价的。

Sora [1] 和 MovieGen [2] 通过应用第二阶段扩散模型来生成高分辨率输出来减轻这一限制。PixelLoss[7]试图通过在VAE解码的噪声潜伏期上合并像素级损失来解决这个问题，但在压缩潜空间的极限内保留了整个生成过程。
相较之下，我们建议让 VAE 解码器同时负责执行最后的去噪步骤以及将潜在向量转换为像素。

关键见解：这种修改在高潜在压缩率下特别有影响，其中并非所有高频细节都可以重建，并且必须生成。

我们采用了可扩展且灵活的Transformer架构，使我们的模型能够在多种大小和持续时间内生成图像和视频。基于 Pixart-α 的体系结构，它将 DiT 框架扩展到以开放文本输入为条件，而不是局限于 ImageNet 类标签，我们引入了几个关键的增强。

具体来说，我们用归一化分数坐标增强的旋转位置嵌入（RoPE）替换了传统的绝对位置嵌入，从而提高了视频生成中的空间和时间相干性。
我们对Key张量和Query张量进行了归一化，以稳定注意力计算，增强鲁棒性并增加注意力权重的熵。我们的方法解决了现有模型的局限性，为鲁棒视频生成提供了更集成和高效的解决方案

我们的模型是同类最快的视频生成模型，能够生成比观看视频所需的时间快（在 Nvidia H100 GPU 上以 768 × 512 像素生成 121 帧，在 Nvidia H100 GPU 上生成 20 个扩散步骤），同时优于所有可用的相似尺度模型（2B 参数，蒸馏前）。

除了文本到视频的生成之外，我们还扩展了我们的模型处理图像到图像的功能。
通过简单的基于时间步长的条件机制，该模型可以以输入视频的任何部分为条件，而不需要额外的参数或特殊标记。

LTX-Video 生成的文本到视频和图像到视频样本见Fig 1、18 、图 19 。

Controbutions：

潜在扩散的整体方法：LTX-Video 无缝集成了 Video-VAE 和去噪转换器，优化它们在压缩的潜在空间内的交互，并在 Transformer 和 VAE 的解码器之间共享去噪目标。
利用新的损失函数的高压缩视频 VAE：通过将补丁操作重新定位到 VAE 并引入新的损失函数，我们实现了 1:192 的压缩比，时空下采样为 32 × 32 × 8，从而能够以前所未有的速度生成高质量的视频。
LTX-Video一个快速、可访问和高质量的视频生成模型：我们训练和评估我们增强的扩散变压器架构并公开发布 LTX-Video，这是一个比实时的文本到视频和少于 2B 参数的图像到图像到视频模型

方法

为了便于LTX-Video的更快实时操作，同时保持较高的视觉质量、运动保真度和提示依从性，我们采用了一种整体的潜在扩散方法，优化了视频VAE与扩散变压器之间的相互作用。

我们利用高压缩率为 1:192 的高维潜在空间和 32 × 32 × 8 的时空下采样。为了支持高频细节的生成，我们将 VAE 解码器分配执行最后一个去噪步骤的任务，同时将潜在转换为像素，如图 2 所示。
在这里插入图片描述
我们的整体方法，以及视频 VAE 架构、损失函数和扩散转换器架构中的关键设计变化，尽管像素到令牌的比率很高，但能够生成高质量的视频。

Video VAE

在压缩的潜在空间中运行是文本到视频扩散转换器模型成功的关键：这些模型的训练和推理时间主要由令牌的数量决定（注意操作在令牌数量上是二次的），而扩散过程受益于压缩的潜在表示，因为它减少了原始信号的固有信息冗余（SimpleDiffusion [11]、SD3 [12]）。

最近的文本到视频模型（CogVideoX [3]、MovieGen [2]、PyramidFlow [5]、Open-Sora Plan [4]、HunyuanVideo [13]）使用 VAE，将时空维度缩小 8 × 8 × 4 或 8 × 8 × 8，同时将通道数从 3 增加到 16。这些配置导致总压缩因子为 1:48 或 1:96。随后，补丁器在转换器的输入处将大小为 2 × 2 × 1 的潜在补丁收集到令牌中，实现了 1:1024 或 1:2048 的有效像素到令牌比率。

相比之下，本文的Video-VAE 使用具有 128 个通道的 32 × 32 × 8 的时空压缩，导致总压缩为 1:192（典型压缩的两倍）和像素到令牌的比率为 1:8192（典型比率的四倍），而不需要补丁器。有关更多详细信息，请参见表 1。

在这里插入图片描述 SimpleDiffusion [11] 强调了高分辨率像素空间中信息冗余的挑战，他们通过增加每个扩散步骤添加的噪声量来缓解它。
这一挑战也适用于更高分辨率的潜伏期(SD3[12])，以及时间维度的冗余。

因此，空间和时间压缩至关重要。我们使用 PCA [14] 在 128 个视频样本的潜在像素上使用 PCA [14] 分析潜在空间中的冗余（见图 3）。随着训练的进行，我们的 VAE 学会利用可用的通道并减少它们的冗余。请注意，在将它们传递给转换器之前，对潜在进行幼稚的补丁化，正如最近的模型所做的那样，无助于减少冗余。

在这里插入图片描述

潜在空间冗余。(a) 不同训练步骤中潜在通道的累积解释方差（2% - 100% 的训练）。随着训练的进行，冗余减少和组件对方差的贡献更大。(b, c) 潜在通道自相关矩阵：早期高非对角线值（总训练步骤的 4%）和训练完成时的接近零。

为了实现高压缩比而不损失质量，我们对当前的变分自编码器（VAE）引入了几个关键的增强，具体内容将在以下章节中描述。我们训练并比较了几种旨在高效地将视频和图像映射到统一潜在空间的 VAE。这些 VAE 是我们模型的关键组成部分。有关我们的 VAE 架构，请参见图 4。值得注意的是，与标准的 DiT 扩散模型相比，我们将分块层从变换器的开始位置移动到 VAE 编码器的开始位置，并将 VAE 解码器的任务设定为在将潜在向量解码为像素的同时执行最后的去噪步骤。

在这里插入图片描述