【AI论文】通过测试时间训练生成一分钟视频_one-minute video generation with test-time trainin-CSDN博客

本文链接：https://blog.csdn.net/m0_66899341/article/details/147079819

摘要：今天的Transformer仍然难以生成一分钟的视频，因为自注意力层对于长上下文来说效率低下。 Mamba 层等替代方案难以处理复杂的多场景故事，因为它们的隐藏状态表达性较差。我们尝试了测试时间训练（TTT）层，其隐藏状态本身可以是神经网络，因此更具表现力。在预训练的Transformer中添加TTT层，使其能够从文本故事板生成一分钟的视频。为了证明这个概念，我们基于《猫和老鼠》动画片整理了一个数据集。与Mamba~2、门控DeltaNet和滑动窗口注意力层等基线相比，TTT层生成了更加连贯的视频，讲述了复杂的故事，在每种方法对100个视频进行人工评估时领先34个Elo点。虽然结果很有希望，但仍然存在伪影，这可能是由于预训练的5B模型能力有限。我们实施的效率也可以提高。由于资源限制，我们只尝试了一分钟的视频，但这种方法可以扩展到更长的视频和更复杂的故事。示例视频、代码和注释可在以下网址获得：One-Minute Video Generation with Test-Time Training。Huggingface链接：Paper page，论文链接：2504.05298

研究背景和目的

研究背景

随着深度学习技术的发展，视频生成领域取得了显著进展，但现有的视频Transformer模型在生成长视频（尤其是包含复杂多场景故事的视频）时仍面临挑战。自注意力层在处理长上下文时效率低下，这是限制Transformer生成长视频的主要因素之一。尽管一些替代方案，如Mamba层，试图通过减少计算复杂度来提高效率，但它们在处理复杂多场景故事时表现不佳，因为它们的隐藏状态表达性不足。

此外，当前大多数视频生成模型的生成长度有限。例如，在撰写本文时（2025年3月），公开可用的视频生成API中，Sora（OpenAI）的最大生成长度为20秒，MovieGen（Meta）为16秒，Ray为10秒，Veo 2（Google）为8秒。这些模型都无法自主生成包含复杂多场景故事的长视频。

研究目的

本文旨在解决Transformer在生成长视频时面临的上述挑战。通过引入测试时间训练（Test-Time Training, TTT）层，本文希望能够提高Transformer在处理长上下文时的能力，并生成包含复杂多场景故事的一分钟视频。为了验证这一概念，本文基于《猫和老鼠》动画片整理了一个数据集，并通过实验证明TTT层在生成长视频方面的优越性。

研究方法

TTT层介绍

TTT层的核心思想是将隐藏状态本身视为一个神经网络，并通过在测试时间进行训练来更新这个神经网络。这种方法使得隐藏状态能够表达更丰富的信息，从而提高模型处理长上下文的能力。具体来说，TTT层通过梯度下降来优化隐藏状态，使其能够更好地压缩历史上下文。

在本文中，TTT层被实例化为一个包含两层MLP（多层感知机）的模型，其中隐藏层的维度是输入维度的四倍，并使用GELU激活函数。为了稳定训练过程，TTT层还包含了Layer Norm和残差连接。

模型架构

本文选择Diffusion Transformer（具体为CogVideo-X 5B）作为预训练模型，并在其基础上添加TTT层。为了限制自注意力层的计算复杂度，本文将输入序列划分为多个3秒长的片段，每个片段独立应用自注意力层。而TTT层则在整个序列上全局应用，以捕捉跨片段的长上下文信息。

此外，本文还采用了门控机制和双向处理技巧来进一步提高模型性能。门控机制通过可学习的向量来控制TTT层对原始输入的贡献，以避免在训练初期引入过多噪声。双向处理技巧则允许TTT层以反向顺序处理输入序列，从而捕捉到更多的上下文信息。

数据集和训练策略

本文基于《猫和老鼠》动画片整理了一个包含约7小时视频的数据集，并为每个视频提供了人类标注的故事板。数据集强调复杂多场景和长范围故事，但对视觉和物理真实性的要求较低。

在训练过程中，本文采用了多阶段上下文扩展策略。首先，在3秒长的片段上对预训练模型进行微调，以适应新的领域。然后，逐渐增加视频长度至9秒、18秒、30秒和最终的63秒（即一分钟）。在每个阶段，只微调TTT层、门控机制和自注意力层的参数，以保持预训练模型的世界知识。

评价方法

本文采用人工评价的方法对生成的视频进行评估。评价维度包括文本遵循性、运动自然性、美学和时间一致性。评价过程采用盲比较的方式，即评价者不知道每个视频是由哪种方法生成的。评价结果采用Elo系统进行聚合。

研究结果

视频质量评估

与基线方法（如Mamba~2、门控DeltaNet和滑动窗口注意力层）相比，TTT层在人工评价中表现出色。具体来说，TTT层在文本遵循性、运动自然性、美学和时间一致性四个维度上均取得了显著提高，平均领先34个Elo点。

通过对比分析生成的视频帧，可以发现TTT层生成的视频在时间一致性方面表现尤为突出。它能够保持场景之间的细节一致性，并生成平滑、高质量的动作。相比之下，基线方法在不同程度上存在时间不一致性、运动不自然和美学缺陷等问题。

效率评估

尽管TTT层在视频质量方面表现出色，但其效率仍有待提高。与基线方法相比，TTT层的训练和推理速度较慢。例如，在生成63秒长的视频时，TTT层的推理速度比全注意力层快2.5倍，但比门控DeltaNet慢1.4倍。训练速度方面也存在类似的情况。

研究局限

模型能力限制

尽管TTT层显著提高了视频生成的质量，但生成的视频中仍然存在伪影。这些伪影可能源于预训练的5B模型能力有限。例如，原始的CogVideo-X模型在生成视频时也表现出有限的运动自然性和美学质量。

效率问题

TTT层的实施效率仍有待提高。尽管本文采用了一些优化技巧（如门控机制和双向处理），但TTT层的训练和推理速度仍然较慢。这限制了其在实际应用中的可行性。

数据集限制

本文的实验基于《猫和老鼠》动画片数据集进行。尽管这个数据集在验证TTT层的有效性方面发挥了重要作用，但它可能无法完全代表真实世界中的视频生成任务。因此，未来需要探索更广泛和多样的数据集来进一步验证TTT层的性能。

未来研究方向

更快的实施

为了提高TTT层的实施效率，未来可以探索更高效的算法和优化技巧。例如，通过最小化寄存器压力和开发更编译器友好的异步操作实现来进一步提高TTT-MLP内核的效率。

更好的集成策略

本文采用了门控机制和双向处理技巧来将TTT层集成到预训练模型中。未来可以探索更多更好的集成策略来进一步提高生成质量和加速微调过程。此外，对于其他视频生成骨干网络（如自回归模型），可能需要不同的集成策略。

生成更长和更复杂的视频

尽管本文只实验了一分钟的视频生成，但TTT层的方法可以扩展到生成更长和更复杂的视频。未来可以探索更大和更非线性的隐藏状态（如Transformer模型）来实现这一目标。

更广泛的应用

除了视频生成之外，TTT层的方法还可以应用于其他序列建模任务（如自然语言处理、音频生成等）。未来可以探索TTT层在这些任务中的表现和应用潜力。

总之，本文通过引入测试时间训练层成功提高了Transformer在生成长视频方面的能力。尽管存在一些局限性和挑战，但本文的研究为未来的视频生成任务提供了重要的参考和启示。