STIV: Scalable Text and Image Conditioned Video Generation——可扩展的文本和图像条件视频生成

本文链接：https://blog.csdn.net/Together_CZ/article/details/144708579

这篇文章介绍了一种名为STIV（Scalable Text and Image Conditioned Video Generation）的可扩展文本和图像条件视频生成方法。以下是其主要内容：

背景与挑战：
- 视频生成领域取得了显著进展，但仍需一个系统化的“配方”来指导开发鲁棒且可扩展的模型。
- 现有的文本到视频（T2V）和文本-图像到视频（TI2V）模型在生成连贯和逼真的视频方面存在挑战，尤其是如何将图像条件无缝整合到模型中。
STIV方法：
- 核心思想：通过帧替换将图像条件集成到扩散Transformer（DiT）中，并引入联合图像-文本条件无分类器引导（JIT-CFG）。
- 多任务能力：STIV能够同时执行T2V和TI2V任务，并可扩展到视频预测、帧插值、多视角生成和长视频生成等应用。
关键技术：
- 帧替换：在训练和推理过程中，用未噪声的图像条件替换第一帧的噪声潜在表示。
- 图像条件丢弃：在训练过程中随机丢弃图像条件，以防止模型过度依赖图像条件，增强运动信息的学习。
- JIT-CFG：通过联合图像和文本条件引导，调整速度估计，提升生成视频的质量。
实验与结果：
- 性能表现：STIV在VBench T2V和TI2V任务上表现优异，超越了现有的开源和闭源模型。
- 扩展应用：展示了STIV在视频预测、帧插值、多视角生成和长视频生成等任务中的潜力。
数据引擎：
- 提出了一个视频数据引擎，用于视频预处理、字幕生成和过滤，以提高数据质量和减少幻觉。
结论：
- STIV提供了一个透明且可扩展的配方，用于构建前沿视频生成模型，推动了视频生成领域的研究进展。

通过这些创新，STIV展示了其在视频生成任务中的强大性能和广泛应用潜力。这里是自己的论文阅读记录，感兴趣的话可以参考一下，如果需要阅读原文的话可以看这里，如下所示：

摘要

视频生成领域取得了显著进展，但仍然迫切需要一个清晰、系统的“配方”，以指导开发鲁棒且可扩展的模型。在本研究中，我们系统地探讨了模型架构、训练方法和数据整理策略之间的相互作用，最终提出了一种简单且可扩展的文本-图像条件视频生成方法，命名为STIV。我们的框架通过帧替换将图像条件集成到扩散Transformer（DiT）中，同时通过联合图像-文本条件无分类器引导（CFG）引入文本条件。这种设计使STIV能够同时执行文本到视频（T2V）和文本-图像到视频（TI2V）任务。此外，STIV可以轻松扩展到各种应用，如视频预测、帧插值、多视角生成和长视频生成等。通过对T2I、T2V和TI2V任务的全面消融研究，STIV展示了其强大的性能，尽管其设计简单。一个8.7B参数的模型在512×512分辨率下在VBench T2V任务上达到了83.1分，超过了领先的开放和闭源模型，如CogVideoX-5B、Pika、Kling和Gen-3。同样规模的模型在512×512分辨率下在VBench TI2V任务上达到了90.1分的最新结果。通过提供一个透明且可扩展的配方来构建前沿视频生成模型，我们旨在推动未来的研究，加速向更通用和可靠的视频生成解决方案迈进。

1 引言

视频生成领域随着基于扩散Transformer（DiT）架构的Sora模型的引入取得了显著进展。研究人员一直在积极探索将文本和其他条件整合到DiT架构中的最佳方法。例如，PixArt-αα利用交叉注意力，而SD3则将文本与噪声补丁连接，并使用MMDiT块进行自注意力。一些视频生成模型采用了类似的方法，并在文本到视频（T2V）任务中取得了显著进展。纯T2V方法通常难以生成连贯且逼真的视频，因为其输出没有基于外部参考或上下文约束。为了解决这一限制，文本-图像到视频（TI2V）引入了初始图像帧和文本提示，为生成的视频提供了更具体的依据。

2 基础知识

本节描述了我们提出的STIV方法的关键组件，用于文本-图像到视频（TI2V）生成，如图3所示。随后，第3节和第4节介绍了详细的实验结果。

2.1 基础模型架构

STIV模型基于PixArt-c，它使用冻结的变分自编码器（VAE）将输入帧转换为空间和时间潜在嵌入。这些嵌入随后由一系列可学习的DiT块处理。我们使用T5分词器和内部训练的CLIP文本编码器来处理文本提示。整体框架如图3所示。更多细节请参考附录。其他显著的架构变化如下。

空间-时间注意力 我们采用分解的空间和时间注意力来处理视频帧。我们首先将时间维度折叠到批次维度，并对空间标记执行空间自注意力。然后，我们置换输出并将空间维度折叠到批次维度，以对时间标记执行时间自注意力。通过使用分解的空间和时间注意力，我们可以轻松地从文本到图像（T2I）模型预加载权重，因为图像是仅有一个时间标记的视频的特例，只需要空间注意力。

单例条件 我们使用原始图像分辨率、裁剪坐标、采样步幅和帧数作为微条件来编码训练数据的元信息。我们首先使用正弦嵌入层对这些属性进行编码，然后通过MLP将其投影到d维嵌入空间。这些微条件嵌入与扩散时间步嵌入和CLIP模型最后一层的最后一个文本标记嵌入相加，形成单例条件。我们还对每个单例嵌入应用无状态层归一化，然后将它们相加。这个单例条件用于生成共享的缩放-移位-门参数，这些参数在每个Transformer层的空间注意力和前馈层中使用。

旋转位置嵌入 旋转位置嵌入（RoPE）用于使模型对处理相对时间和空间关系具有强烈的归纳偏差。此外，RoPE可以与高计算应用中使用的掩码方法兼容，并且对分辨率的变化具有高度适应性。我们在分解的空间-时间注意力中对空间注意力应用2D RoPE，对时间注意力应用1D RoPE。

流匹配 我们选择流匹配训练目标，而不是采用传统的扩散损失。该目标定义了从源分布和目标分布中抽取的两个样本之间的条件最优传输。在我们的情况下，我们假设源分布为高斯分布，并利用线性插值来实现这一点。

3 STIV的配方研究

3.1 基本设置

在深入研究视频生成模型的架构和数据之前，我们首先介绍训练、数据和评估设置，然后介绍我们的模型和研究如下：

训练除非另有说明，我们使用AdaFactor优化器（β1=0.9β1=0.9，β2=0.999β2=0.999），没有任何权重衰减。我们还剪切梯度范数，如果梯度范数超过1.0。我们使用恒定的学习率计划，线性预热1k步，最大学习率为2×10−42×10−4。对于T2I模型，我们训练每个模型400k步，批量大小为4,096。这大约是我们内部T2I数据集上的1.4个epoch。对于T2V和TI2V模型，我们训练每个模型400k步，批量大小为1,024。这大约是我们内部视频数据集上的5.5个epoch。对于所有模型，指数移动平均权重通过衰减率为0.9999收集，并用于评估。当使用MaskDiT时，我们在初始400k步中使用50%的空间随机掩码进行训练。随后，我们使用所有标记进行无掩码微调。我们对T2I模型使用50k步的无掩码微调，对T2V和TI2V模型使用100k步的无掩码微调。

数据我们构建了一个视频数据引擎管道，包括视频预处理、字幕生成和过滤，以加速模型在处理大规模视频时的开发。具体来说，我们应用PySceneDetect分析视频帧，检测并根据突然的过渡和渐变分割场景。随后，我们提取特征进行过滤，包括运动分数、美学分数、文本区域、帧维度、清晰度分数、时间一致性和视频方向等。对于每个视频片段，我们执行密集字幕生成和分类，以全面了解视频分布。为了进一步提高字幕质量，我们适应DSG并提出DSG-Video，一种用于评估幻觉率和整体字幕质量的指标。该数据引擎在过滤视频和为不同训练阶段准备定制数据集方面至关重要：我们的数据源包括Panda-70M和内部策划的42M高质量视频数据集。使用我们的数据引擎，我们策划了超过90M的高质量视频-字幕对。接下来，我们将深入探讨更细粒度的调制研究。如图5所示，我们遵循从基础T2I模型到具有时间感知能力的T2V模型，最后通过添加图像条件到TI2V模型的原则。

评估我们主要使用VBench、VBench-TI2V和MSRVTT来评估T2V和TI2V模型。对于VBench，我们主要报告质量（时间质量和帧质量）、语义（与输入文本提示的不同视角的语义对齐）和总分（质量和语义的加权平均），它们实际上可以分解为总共16个维度。VBench-TI2V在VBench的基础上增加了三个新的视频-图像对齐指标：主体一致性、背景一致性和相机运动控制。这些额外的指标通过关注生成的视频与输入图像和指定提示指令的对齐程度，提供了更全面的评估。更多关于详细维度的信息见第F.1节。我们展示了三种模型规模：XL、XXL和M，其配置详见表1。在接下来的部分中，我们使用符号X-S-T来表示具有S2S2分辨率和T帧的X规模模型。如果未指定，默认配置为256×256分辨率和20帧。更多详细的模型和训练配置见附录。

3.2 T2I的关键变化消融研究

我们对第2节中提到的各种模型架构设计和训练策略进行了全面的消融研究，以了解它们对文本到图像生成任务的影响。为了评估生成质量，我们使用了一套流行的自动化指标，包括FID分数、Pick Score、CLIP Score、GenEval和DSGEval、人类偏好分数（HPSv2）、图像奖励。

我们从基础T2I-XL模型开始，这是一个DiT模型，通过交叉注意力层与文本嵌入集成。最初，我们应用了一系列稳定技术，包括QK-norm、sandwich-norm和单例条件归一化，这些技术与基线相比取得了可比的结果。值得注意的是，这些技术使我们能够稳定地训练模型，即使学习率从1e-4增加到2e-4。我们证明了在训练期间引入流匹配并使用CFG-Renormalization在推理期间显著改善了所有指标。随后，我们探索了减少训练内存的技术，如AdaFactor优化器、MaskDiT和共享AdaLN，这些技术保持了类似的性能。利用微条件和RoPE进一步降低了FID分数，并提高了DSGEval和图像奖励。最后，结合内部训练的bigG CLIP模型进一步改善了所有指标。值得注意的是，结合合成接收与原始字幕跟随取得了几乎所有指标的最佳结果。更多细节见附录D。

我们使用基于T2I消融研究的最佳模型架构和训练超参数作为剩余T2V和TI2V实验的起点。

3.3 T2V的关键设计消融研究

关键调制 我们在VBench上进行了一些设计选择，如图6a所示。基础模型使用时间路径大小为2，非因果时间注意力，空间掩码比率为0.5。正如预期的那样，时间路径=1的模型表现最好，但仅略好于2倍的计算。然而，时间路径=4的模型导致明显的性能下降。使用因果时间注意力也导致质量和总分的显著下降。在时间注意力层添加缩放-移位-门4略差于基线，尽管有更多的参数。此外，移除空间掩码导致语义分数略有下降，质量和总分有所提高。然而，这需要更多的计算，因为标记长度翻倍。另一方面，使用时间掩码显著降低了模型性能，VBench质量和最终分数大幅下降。

模型初始化 我们研究了初始化如何影响T2V-XL模型的性能。我们在受控的总FLOP设置下通过四种不同的路径训练512×512 T2V模型：从头开始，从较低分辨率的T2V-256模型初始化，从T2I-512模型初始化，并分别从T2V-256和T2I-512模型加载时间和空间权重（图6b）。我们发现，从低分辨率的T2V模型和高分辨率的T2I模型联合初始化可以实现更好的VBench指标。这种联合初始化方法与从头开始训练相比，FVD值略有改善，并且在低分辨率模型已经存在的情况下，在高效实验和成本方面具有优势。在类似的方法下，我们进一步探索了通过从较短的T2V模型（20帧）初始化来训练具有更多帧（40帧）的T2V模型的效果。图6c显示，当训练具有更高帧数的模型时，从低帧数模型初始化比直接从T2I模型初始化取得了更好的指标。使用RoPE嵌入的插值比外推取得了更好的VBench分数。此外，我们发现，从帧率较低（帧子采样步幅较高）的T2V模型初始化高帧数训练可以改善VBench指标，特别是运动平滑度和动态程度。

3.4 TI2V的关键设计消融研究

为了将图像条件与文本条件集成，我们将模型重新表述为Fθ(xt,cT,cI,t)，其中cT和cI分别是文本和图像条件。然后，我们研究了TI2V框架中的每个设计组件，并解决了在训练高分辨率TI2V模型时遇到的多任务学习和停滞问题。

3.4.1 帧替换的有效性

我们对STIV-XL模型进行了几个模型变体的消融研究，结合了以下关键组件：帧替换（FR）、交叉注意力（CA）、大投影（LP）和第一帧损失（FFL）5。如表3所示，值得注意的是，添加大投影层增强了交叉注意力传递的信息，导致主体和背景一致性的改进。然而，这种方法可能过度约束模型，如动态程度分数的降低所示（FR + CA + LP为22.36，而FR + CA为35.4），表明模型可能对生成的输出施加了过多的控制。此外，添加第一帧损失虽然看似有益，但已显示出降低整体分数，特别是在运动质量方面，表明该损失可能无意中限制了模型的时间动态。相比之下，仅帧替换已被证明是一种鲁棒且有效的方法，在不影响其他视频质量维度的情况下持续改进。帧替换（FR）模型在I2V平均分数（I2V主体、I2V背景和相机运动的平均值）和总平均分数上取得了高分。这些结果强调了帧替换作为基础组件的优势，为在不同维度上保持质量提供了稳定的骨干。

3.4.2 图像条件丢弃的有效性

我们的实验表明，图像条件丢弃与JIT-CFG不仅支持多任务训练，还解决了512×512 STIV模型的停滞问题。

多任务训练 通过在STIV训练期间使用图像条件丢弃，我们有效地启用了T2V和TI2V能力。如表4所示，仅在T2V或TI2V任务上训练的模型无法执行另一个任务，而具有图像条件丢弃的STIV可以轻松处理这两个任务，性能与最佳单任务模型相当。

更大的运动 在实践中，我们观察到STIV-M-512在VBench-TI2V上表现良好，但有时会生成静态帧。VBench-TI2V指标倾向于优先考虑运动较少的视频，优先考虑平滑度和一致性。如表5所示，使用JIT-CFG的STIV在动态程度上得分更高，代价是平滑度和一致性分数略有下降。我们还在附录中的图14至图16中展示了视觉比较。

如图7所示，我们观察到：（1）固定CFG-T，随着CFG-I增加，FVD首先下降然后增加；（2）固定CFG-I，随着CFG-T增加，FVD持续下降，除了CFG-I非常小（1.1, 1.5）时，它首先下降然后增加；（3）最佳配置出现在CFG-T=7.5和CFG-I=1.5时，产生FVD=95.2。然而，总体而言，SIT-CFG与JIT-CFG相比没有显著优势，并且使用两个副本进行推理的效率显著降低。请注意，此搜索针对MSRVTT进行了优化，对于需要更强依赖于第一帧主体的其他提示，可能需要更大的CFG-I。

3.4.3 模型初始化

我们还研究了初始化方法如何影响TI2V模型的性能，包括从T2I或T2V开始。我们运行相同数量的步骤来检查VBench-TI2V上的最终性能。从表6中，我们观察到从T2V模型初始化可以实现更好的相机运动分数和略好的动态程度，而在所有其他维度上与从T2I初始化相当。

3.5 视频数据引擎

数据质量对视频生成模型至关重要。然而，策划大规模高质量数据集仍然具有挑战性，因为存在噪声字幕、幻觉和视频内容和持续时间多样性有限等问题。为了解决这些问题，我们提出了一个视频数据引擎（图8）——一个全面的管道，用于提高数据集质量和减少幻觉，最终增强模型性能。更多细节见附录I。

我们的方法关注三个关键问题：（1）如何预处理原始视频以提高一致性？（2）数据过滤对模型性能的影响是什么？（3）高级视频字幕如何减少幻觉并改善结果？我们使用Panda-70M作为工作示例，并通过我们的管道生成策划子集Panda-30M。

视频预处理和特征提取 我们使用PySceneDetect6去除突然的过渡和不一致的片段，生成更连贯的剪辑。然后，我们提取关键特征（如运动和美学分数）以指导后续过滤。

数据引擎过滤 有效的数据过滤对于提高数据集质量和减少幻觉至关重要。我们开发了一个自动化过滤基础设施，支持高效的数据选择、质量控制和模型开发生命周期中的持续改进。例如，我们可以为微调阶段采样具有预定分辨率/运动分数的高质量视频。该过滤系统使我们能够系统地去除低质量视频，并专注于增强模型性能的数据。从Panda-30M中，我们进一步根据运动分数和美学分数进行过滤，得到Panda-10M，命名为Panda-30M的高质量版本。结果总结在表7中：与其追求数据量，高质量视频有可能取得更令人满意的结果。

视频字幕模型 高质量的视频-文本对对于训练文本到视频模型至关重要。现有数据集通常存在噪声或不相关的字幕，难以描述时间动态。我们最初尝试了一种基于帧的字幕方法，随后使用LLM进行总结，但发现单帧字幕无法表示运动，LLM总结可能导致幻觉。为了在平衡成本的同时提高字幕质量，我们使用LLaVA-Hound-7B——一种能够生成更连贯和运动感知描述的视频LLM。

字幕评估和消融 为了客观评估字幕准确性，我们引入了DSG-Video（图9），该模块受DSG启发，通过使用LLM生成问题并使用多模态LLM验证采样视频帧中的对象存在性来检测幻觉对象。这产生了两个指标，DSG-Videoi和DSG-Videos，分别反映对象和句子级别的幻觉。我们比较了两种字幕策略——基于帧的加LLM总结（FCapLLM）和直接视频字幕（VCap）——在Panda-30M数据集上。如表8所示，VCap减少了幻觉并增加了描述对象的多样性，导致T2V模型性能的改进。这些结果表明，更丰富、更准确的视频描述可以显著增强下游生成质量。

4 结果

基于所有这些研究，我们将T2V和STIV模型从600M扩展到8.7B。我们在表9和表10中展示了主要结果，将我们的模型与最先进的开源和闭源模型进行了比较，展示了我们配方的有效性。具体来说，我们在从Panda-70M中使用第3.5节中提到的方法过滤的20,000个视频的基础上对预训练的视频生成模型进行了微调（SFT）。由于我们在预训练阶段采用了MaskDiT技术，我们尝试以无掩码方式微调我们的模型（UnmaskSFT）。我们还微调了我们的STIV模型，使其成为时间上采样器，以插值由我们的主要T2V和STIV模型生成的视频，以提高运动平滑度（+ TUP）。

T2V性能 我们首先展示了我们的T2V模型作为STIV基础的有效性。表9展示了不同T2V模型变体在VBench上的比较，包括VBench-质量、VBench-语义和VBench-总分。我们的分析表明，扩展T2V模型参数提高了语义跟随能力。具体来说，随着模型规模从XL增加到XXL和M，VBench-语义分数从72.5上升到72.7，然后上升到74.8。这种显式涌现（从XL、XXL到M）表明，较大的模型更擅长捕捉语义信息。然而，对视频质量的影响，通过VBench-质量衡量，仍然微乎其微，仅从80.7略微增加到81.2，然后增加到82.1。这一发现表明，扩展对模型的语义能力的影响大于对视频质量的影响。此外，将空间分辨率从256增加到512显著提高了VBench-语义分数，从74.8增加到77.0。详细结果见表11。

SFT的影响 此外，使用高质量的SFT数据微调模型显著提高了VBench-质量分数，从82.2提高到83.9。在没有掩码标记的情况下微调我们的模型略微提高了模型在语义分数上的性能。我们最好的模型在VBench-语义分数上达到了79.5，超过了著名的闭源模型，如KLING、PIKA和Gen-3。通过时间上采样器，我们的模型可以实现与所有其他模型相比的最先进的质量分数。

TI2V性能 如表10所示，我们的模型与最先进的方法相比具有竞争力。它还表明，虽然扩展提高了I2V分数，但对质量的影响最小。相比之下，增加分辨率在质量和I2V分数上都带来了显著的改进。我们在表12中提供了分解维度的完整结果。

5 灵活应用

在这里，我们展示了如何将我们的STIV扩展到各种应用，如视频预测、帧插值、多视角生成和长视频生成。

视频预测 我们从STIV-XXL模型初始化，训练一个以第一帧为条件的文本-视频到视频模型。如图10a所示，视频到视频模型（STIV-V2V）在MSRVTT测试集和MovieGen Bench上与文本到视频模型（T2V）相比，FVD分数显著降低。这一结果表明，视频到视频模型可以实现卓越的性能，这对于自动驾驶和具身AI等应用至关重要，其中生成视频帧的高保真度和一致性至关重要。

帧插值 我们提出了STIV-TUP，一个从STIV-XL模型初始化的时间上采样器，并继续以步幅为2采样的连续帧为条件进行训练。图10b显示，我们的STIV也可以用于在文本和图像条件下进行体面的帧插值。我们观察到，在MSRVTT测试集上使用文本条件略好于FID和FVD。我们还级联时间上采样器与我们的主要模型，以探索它是否可以提升主要性能。如表9和表4所示，在主要模型上使用时间上采样器可以提高质量性能，同时保持其他分数。

多视角生成 多视角生成是一项专门任务，旨在从给定的输入图像创建新颖的视角。此任务对视角一致性提出了要求，并可以从预训练良好的视频生成模型中大大受益。通过将视频生成模型适应多视角生成，我们可以评估预训练是否有效地捕捉了底层3D信息，这将增强多视角生成。

在这里，我们采用了Zero123++中概述的新视角相机定义，为每个输入图像指定了六个新颖的视角相机。在我们的TI2V模型中，初始帧设置为给定图像，接下来的六个帧，表示新颖的视角，在TI2V中预测为未来的帧。对于训练，我们从256分辨率下训练的TI2V-XL检查点开始，在Objaverse上进行了110k步的微调。为了公平比较，我们在微调期间将图像分辨率增加到320，与Zero123++中使用的设置一致。我们的评估使用了Google Scanned Objects数据集中的对象，我们将输出的多视角图像与地面真实渲染进行了比较。如图10c所示，尽管仅使用时间注意力来实现跨视角一致性，我们的方法在性能上与使用全注意力来实现所有视角一致性的Zero123++相当。我们的方法和Zero123++之间的视觉比较如图11所示。

长视频生成 我们开发了一个有效且高效的框架来生成长视频。具体来说，我们提出了一个分层框架，包括在两种不同模式下训练我们的STIV：（1）通过学习步幅为20的均匀采样视频帧进行关键帧预测，并使用图像条件丢弃；（2）通过学习连续视频帧进行插值帧生成，以第一帧和最后一帧为图像条件。在采样阶段，我们更改图像和微条件，首先使用第一种模式生成关键帧，然后使用第二种模式生成插值帧，从而生成一个长视频。自然地，可以重用STIV模型以先前生成的视频为条件自回归生成视频。然而，在实践中，我们发现这种滚动方法可能会受到先前视频中的错误传播的影响，并且在帧之间缺乏一些全局一致性。因此，我们提出了一个简单而有效的基线，纯粹基于我们的STIV框架。如正文中所述，我们设计了一个分层框架，在两种不同模式下训练我们的STIV：（1）通过学习步幅为20的均匀采样视频帧进行关键帧预测，并使用图像条件丢弃；（2）通过学习连续视频帧进行插值帧生成，以第一帧和最后一帧为图像条件。在采样阶段，我们更改图像和微条件，首先使用第一种模式生成关键帧，然后使用第二种模式生成插值帧，从而生成一个长视频。我们在图12中展示了一个长T2V和一个TI2V示例；我们总共生成了(20−1)×20=380帧。我们从380帧中均匀采样了8帧。请注意，这只是长视频生成的一个早期探索，我们的训练分布中没有足够长的视频，因此我们将其作为未来的工作进一步探索架构以提升长视频合成。

6 相关工作

文本到视频生成 近年来，基于扩散的方法已成为文本到视频生成的主导方法，无论是闭源模型还是开源模型。一些模型利用潜在扩散模型（LDM）来提高训练效率。VideoLDM将时间卷积和注意力机制集成到LDM U-Net中进行视频生成。最近，从U-Net到基于扩散Transformer的架构的转变。CogVideoX采用SD3框架，将自注意力应用于整个3D视频序列，并结合文本条件。Lumina-T2X使用零初始化注意力将噪声转换为不同模态。与之前的模型不同，我们的重点是使用空间、时间和交叉注意力扩展基于扩散Transformer的视频生成模型，参数超过8B。该模型在VBench上表现良好，并作为我们文本-图像到视频模型的强大基线：STIV。

文本-图像到视频生成 仅通过文本控制视频内容在实现视频与输入文本之间的满意对齐以及对视频生成过程的细粒度控制方面面临重大挑战。为了解决这一问题，最近的方法集成了第一帧和文本，以增强对视频生成的控制，大多数基于U-Net架构。I2VGen-XL建立在SDXL上，并采用级联技术生成高分辨率视频。DynamicCrafter和VideoCrafter使用交叉注意力来整合图像条件。ConsistentI2V采用类似的帧替换策略，但还需要对初始帧进行空间时间注意力，并使用特殊的噪声初始化来增强一致性。Animate Anything也采用了帧替换技术，但需要使用运动强度损失来增强运动。然而，他们在VBench-TI2V上的动态程度相对较低，为2.7%。我们在DiT架构上应用帧替换，并结合我们提出的图像条件丢弃方法和JIT-CFG，可以生成高质量的TI2V视频，同时有效解决运动停滞问题。

7 结论

总之，我们对如何构建一个好的视频生成模型进行了全面研究，并提出了一种可扩展且灵活的方法，用于在统一的视频生成框架中整合文本和图像条件。我们的模型不仅在公共基准上展示了良好的性能，而且在下游应用中展示了多功能性，支持可控视频生成、视频预测、帧插值、长视频生成和多视角生成，这些共同突显了其作为广泛研究社区基础的潜力。