StreamingT2V_streamingt2v 训练模型-CSDN博客

本文链接：https://blog.csdn.net/qq_29788741/article/details/137077902

研究团队提出的新技术StreamingT2V通过自回归和长短期记忆模块，实现了高度一致且可扩展的长视频生成。文章详细介绍了技术细节，如条件注意力模块和外观保持模块，以及与现有方法的对比和提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Sora一出，文生视频的在长度这个指标上就卷的没边了。

从Pika和Runway的4秒，到VideoPoet的理论无限长，各个团队都在通过各种不同的技术路径不断延长视频生成长度的上限。

最近，来自Picsart AI Research，UT Austin和Shi Labs的研究团队提出了一个新的文生视频技术——StreamingT2，可以生成高度一致而且长度可扩展的视频。

文生视频技术进入长视频时代。

这段长达 1200 帧的 2 分钟视频来自一个文生视频（text-to-video）模型，尽管 AI 生成的痕迹依然浓重，但我们必须承认，其中的人物和场景具有相当不错的一致性。

这是如何办到的呢？要知道，虽然近些年文生视频技术的生成质量和文本对齐质量都已经相当出色，但大多数现有方法都聚焦于生成短视频（通常是 16 或 24 帧长度）。然而，适用于短视频的现有方法通常无法用于长视频（≥ 64 帧）。

即使是生成短序列，通常也需要成本高昂的训练，比如训练步数超过 260K，批大小超过 4500。如果不在更长的视频上进行训练，通过短视频生成器来制作长视频，得到的长视频通常质量不佳。而现有的自回归方法（通过使用短视频后几帧生成新的短视频，进而合成长视频）也存在场景切换不一致等一些问题。

为了克服现有方法的缺点和局限，Picsart AI Resarch 等多个机构联合提出了一种新的文生视频方法：StreamingT2V。这也是一种自回归方法，并配备了长短期记忆模块，进而可以生成具有时间一致性的长视频。

论文标题：StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text
论文地址：https://arxiv.org/abs/2403.14773
项目地址：https://streamingt2v.github.io/

如下是一段 600 帧 1 分钟的视频生成结果，可以看到蜜蜂和花朵都有非常出色的一致性：

为此，该团队提出了条件注意力模块（CAM）。得益于其注意力性质，它可以有效地借用之前帧的内容信息来生成新的帧，同时还不会让之前帧的结构 / 形状限制新帧中的运动情况。

而为了解决生成的视频中人与物外观变化的问题，该团队又提出了外观保留模块（APM）：其可从一张初始图像（锚帧）提取对象或全局场景的外观信息，并使用该信息调节所有视频块的视频生成过程。

为了进一步提升长视频生成的质量和分辨率，该团队针对自回归生成任务对一个视频增强模型进行了改进。为此，该团队选择了一个高分辨率文生视频模型并使用了 SDEdit 方法来提升连续 24 帧（其中有 8 帧重叠帧）视频块的质量。

为了使视频块增强过渡变得平滑，他们还设计了一种随机混合方法，能以无缝方式混合重叠的增强过的视频块。

方法

首先，生成 5 秒时长的 256 × 256 分辨率的视频（16fps），然后将其增强至更高的分辨率（720 × 720）。图 2 展示了其完整的工作流程。

长视频生成部分由初始化阶段（Initialization Stage）和流式文生视频阶段（Streaming T2V Stage）构成。

其中，初始化阶段是使用一个预训练的文生视频模型（比如可以使用 Modelscope）来生成第一个 16 帧的视频块；而流式文生视频阶段则是以自回归方式生成后续帧的新内容。

对于自回归过程（见图 3），该团队新提出的 CAM 可以利用之前视频块最后 8 帧的短期信息，实现块之间的无缝切换。另外，他们还会使用新提出的 APM 模块来提取一张固定锚帧的长期信息，使自回归过程能稳健地应对事物和场景细节在生成过程中的变化。

StreamingT2V技术的工作流程可以分为三个主要阶段。

首先，在初始化阶段，研究人员利用一个文本到视频的模型来创造出视频的前16帧，这相当于视频的起始段落。

接下来，进入Streaming T2V阶段，研究人员会继续生成视频的后续帧，这一过程是通过一种称为自回归的技术来实现的，意味着每一个新帧的生成都会参考之前已生成的帧，从而确保视频内容的连贯性。

最后，在Streaming Refinement阶段，研究人员对已生成的长视频（无论是600帧、1200帧还是更多）进行进一步的优化。

在这一阶段，研究人员采用了一种高分辨率的文本到短视频模型，并结合了研究人员独特的随机混合技术，这样不仅提升了视频的画质，还增强了视频的动态效果和视觉吸引力。

在生成得到了长视频（80、240、600、1200 或更多帧）之后，他们再通过流式优化阶段（Streaming Refinement Stage）来提升视频质量。这个过程会以自回归方式使用一个高分辨率文生短视频模型（如可使用 MS-Vid2Vid-XL），再搭配上新提出的用于无缝视频块处理的随机混合方法。而且后一步无需额外的训练，这使得该方法无需较高的计算成本。

StreamingT2V技术通过引入两个关键模块来增强视频的生成质量。

首先，条件注意力模块（CAM）充当短期记忆，它通过一个特殊的编码器分析前一个视频片段，确保视频的连续性和流畅过渡。这个机制特别适用于动作频繁的视频，使得视频看起来更加自然流畅。

其次，外观保持模块（APM）作为长期记忆，它专注于从视频的某一关键帧中提取重要的视觉特征，并将这些特征贯穿整个视频生成过程，确保视频中的对象或场景保持一致性和连贯性。

这两个模块的结合，使得StreamingT2V不仅能够生成动态连贯的视频，还能在整个视频中保持高质量的视觉效果。

外观保留模块

APM 模块可通过使用固定锚帧中的信息来将长期记忆整合进视频生成过程中。这有助于维持视频块生成过程中的场景和对象特征。

为了让 APM 能平衡处理锚帧和文本指令给出的引导信息，该团队做出了两点改进：（1）将锚帧的 CLIP 图像 token 与文本指令的 CLIP 文本 token 混合起来；（2）为每个交叉注意力层引入了一个权重来使用交叉注意力。

自回归视频生成器通常会遗忘初始对象和场景特征，从而导致严重的外观变化。

为了解决这个问题，研究人员利用研究人员提出的「外观保存模块」（Appearance Preservation Module，APM），通过利用第一个片段的固定锚帧所包含的信息，将长期记忆纳入其中。这有助于在各代视频块中保持场景和物体特征（见下图6）。

条件注意力模块

首先，将所使用的预训练文生（短）视频模型记为 Video-LDM。注意力模块（CAM）的构成是一个特征提取器、一个向 Video-LDM UNet 注入的特征注入器。

其中特征提取器使用了逐帧的图像编码器，之后是与 Video-LDM UNet 直到中间层一直使用的一样的编码器层（并通过 UNet 的权重初始化）。

对于特征注入，这里的设计则是让 UNet 中的每个长程跳跃连接通过交叉注意力关注 CAM 生成的相应特征。

它由一个特征提取器和一个特征注入器组成，并将其注入 Video-LDM UNet。

特征提取器使用帧图像编码器E cond，然后是与 Video-LDM UNet相同的编码器层，直到中间层（并使用UNet的权重初始化）。

在特征注入方面，研究人员让UNet中的每个长程跳转连接通过交叉关注来关注CAM生成的相应特征。

特征提取器使用帧图像编码器E cond，然后是与Video-LDM UNet相同的编码器层，直到中间层（并使用UNet的权重初始化）。

在特征注入方面，研究人员让UNet中的每个长程跳转连接通过交叉关注来关注 CAM 生成的相应特征。

CAM利用前一个分块的最后F个条件帧作为输入。交叉关注可将基础模型的F帧条件化为CAM。相比之下，稀疏编码器使用卷积进行特征注入。

自回归视频增强

为了自回归地增强 24 帧的生成视频块，这里使用的是高分辨率（1280x720）的文生（短）视频模型（Refiner Video-LDM，见图 3）。这个过程的做法是首先向输入视频块加入大量噪声，然后再使用这个文生视频扩散模型来进行去噪处理。

不过，这种方法不足以解决视频块之间的过渡不匹配的问题。

为此，该团队的解决方案是随机混合方法。具体详情请参阅原论文。

为了进一步提高文本-视频结果的质量和分辨率，研究人员利用高分辨率（1280x720）文本-（短）视频模型（Refiner Video-LDM，见图3）对生成的24帧视频块进行自回归增强。

使用文本到视频模型作为24帧视频块的提炼器/增强器，是通过在输入视频块中添加大量噪声，并使用文本到视频扩散模型进行去噪来实现的。

更确切地说，研究人员使用一个高分辨率文本到视频模型（例如MS-Vid2Vid-XL）和一个24帧的低分辨率视频块，首先将其双线性放大到目标高分辨率。

然后，研究人员使用图像编码器E对帧进行编码，从而得到潜码。然后，研究人员应用T ′ < T前向扩散步骤，使xT′仍然包含信号信息（主要是视频结构信息），并使用高分辨率视频扩散模型对其进行去噪。

实验

在实验中，该团队使用的评估指标包括：用于评估时间一致性的 SCuts 分数、用于评估运动量和扭变误差的运动感知扭变误差（MAWE）、用于评估文本对齐质量的 CLIP 文本图像相似度分数（CLIP）、美学分数（AE）。 whaosoft aiot http://143ai.com

消融研究

为了评估各种新组件的有效性，该团队从验证集中随机采样 75 个 prompt 执行了消融研究。

用于条件处理的 CAM：CAM 能帮助模型生成更一致的视频，其 SCuts 分数比相比较的其它基线模型低 88%。

长期记忆：图 6 表明长期记忆能在自回归生成过程中极大帮助维持对象和场景的特征稳定。

在一个定量评估指标（人再识别分数）上，APM 实现了 20% 的提升。

用于视频增强的随机混合：与其它两个基准相比，随机混合能带来显著的质量提升，从图 4 中也能看到：StreamingT2V 可以得到更平滑的过渡。

StreamingT2V 对比基线模型

该团队通过定量和定性评估比较了集成上述改进的 StreamingT2V 与多种模型，包括使用自回归方法的图像到视频方法 I2VGen-XL、SVD、DynamiCrafter-XL、SEINE，视频到视频方法 SparseControl，文本到长视频方法 FreeNoise。

定量评估：从表 8 可以看出，在测试集上的定量评估表明，StreamingT2V 在无缝视频块过渡和运动一致性方面的表现最佳。新方法的 MAWE 分数也显著优于其它所有方法 —— 甚至比第二好的 SEINE 低 50% 以上。SCuts 分数上也有类似表现。

此外，在生成视频的单帧质量上，StreamingT2V 仅略逊于 SparseCtrl。这表明这个新方法能够生成高质量的长视频，并且比其它对比方法具有更好的时间一致性和运动动态。

定性评估：下图展示了 StreamingT2V 与其它方法的效果比较，可以看出新方法能在保证视频动态效果的同时维持更好的一致性。

评估

在定量评估方面，研究人员采用了一些指标来评估研究人员方法的时间一致性、文本对齐和每帧质量。

在时间一致性方面，研究人员引入了SCuts，即使用PySceneDetect软件包中的AdaptiveDetector算法和默认参数，计算视频中检测到的场景切割次数。

此外，研究人员还提出了一种名为运动感知翘曲误差（MAWE）的新指标，该指标能连贯地评估运动量和翘曲误差，当视频同时表现出一致性和大量运动时，该指标就会产生一个低值。

为此，研究人员使用OFS（光流得分）来测量运动量，它可以计算视频中任意两个连续帧之间所有光流向量的平均值。

此外，对于视频V，研究人员还考虑了平均翘曲误差W(V)，该误差测量了从帧到其翘曲后的平均L2像素距离平方。

其中，c对齐了两个指标的不同尺度。为此，研究人员对数据集验证视频的一个子集进行了回归分析，得出c = 9.5。

MAWE要求高运动量和低翘曲误差，以获得较低的指标值。对于涉及光流的指标，计算时将所有视频的大小调整为720×720分辨率。

在视频文本对齐方面，研究人员采用了CLIP文本图像相似度得分（CLIP），它适用于视频的所有帧。CLIP计算视频序列中CLIP文本编码与CLIP图像编码之间的余弦相似度。

对于每个帧的质量，研究人员在视频所有帧的CLIP图像嵌入基础上计算出美学分数。

所有指标都是先按视频计算，然后对所有视频求平均值，所有视频都生成了80帧用于定量分析。

研究人员将StreamingT2V与主流的视频生成模型和构架在这个框架下进行了比较。

可以看到（上图），在这个针对时间一致性、文本对齐和每帧质量的测试集上，StreamingT2V的成绩确实是最好的。