VideoCrafter2——解决缺少高质量数据问题视频生成大模型

知来者逆

已于 2024-04-13 21:51:20 修改

阅读量2.1k

点赞数 31

分类专栏：智能算法文章标签：人工智能深度学习机器学习视频生成文本转视频

于 2024-01-31 11:06:15 首次发布

本文链接：https://blog.csdn.net/matt45m/article/details/135941052

版权

智能算法专栏收录该内容

126 篇文章

订阅专栏

本文介绍了VideoCrafter2，一种通过解耦低质量视频的运动信息和高质量图像的视觉质量，即使在数据有限情况下也能训练出高质量视频模型的方法。算法实现在空间-时间模块上进行优化，通过用户研究证实了其在视觉和运动质量上的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、前言

VideoCrafter2的提出背景主要源于视频生成领域的一个关键挑战：在缺乏大规模高质量视频数据集的情况下，如何训练出能够生成高质量视频的模型。商业视频模型通常依赖于经过精心筛选的大规模高质量视频数据，这对于学术界和一般研究者来说是不可获得的。此外，处理大量高质量视频数据以满足版权限制和后处理要求是一项具有挑战性的任务。

在这一背景下，VideoCrafter2的目标是探索一种训练方案，即使只有低质量视频和高质量图像数据可用，也能够训练出能够生成高质量视频的模型。该方法的核心思想是解耦视频数据中的外观（视觉质量）和运动信息。通过使用低质量视频来确保运动的一致性，同时利用高质量图像来提升画面质量和概念组合能力。这种策略使得在数据受限的情况下，仍能够训练出具有高视觉质量和出色运动表现的视频生成模型。这一方法为解决实际应用中的数据限制问题提供了一种创新的途径。

二、算法实现

空间-时间模块的关联性分析：
在报告中，对空间（spatial）和时间（temporal）模块之间的连接进行了深入的分析，并研究了在不同训练策略下视频质量分布的变化。研究发现，对所有模块进行完全训练（full training）会导致空间和时间模块之间的耦合性增强。由于这种耦合性增强，研究者采用了一种策略，通过使用高质量图像对空间模块进行微调，从而实现了向更高质量分布的转变，同时保持了运动质量的稳定性。最终，他们成功获得了一个通用的高质量视频模型。

时/空数据层面的解耦：
为了研究时/空数据层面的解耦，研究者采用了两种训练策略应用于相同架构，并使用相同的数据进行训练。模型使用预训练的Stable Diffusion（SD）权重进行初始化，而WebVid-10M则作为训练数据。为了避免概念遗忘，他们还使用了LAION-COCO 600M进行视频和图像的联合训练。
为了简化描述，完全训练的视频模型被标记为MF(θT, θS)，而部分训练的模型被标记为MP(θT, θ0S)，其中θT和θS分别是时间模块和空间模块需要学习的参数。这种标记方便了对不同训练策略的讨论和比较。

在这里插入图片描述
空间模块微调（控制变量法）：

研究者首先使用图像数据集对两个视频模型的空间参数进行微调。时间参数被冻结。完全训练基础模型MF的空间参数微调过程可以表示为：
在这里插入图片描述
其中PERTBLORAθS表示使用LORA对MF进行微调，以θS在图像数据集上进行。ΔθS表示LORA分支的参数。

时间模块微调（控制变量法）：
只有时间模块被更新，但图像部分使用WebVid-10M优化生成质量。因此，时间模块不仅负责运动，还负责图像质量。研究者在固定空间模块的情况下微调时间模块。微调过程可以表示为：
在这里插入图片描述

微调方式的排列组合：

在完成时间/空间数据解耦之后，研究者基于完全训练的模型，探索了两种策略来确定最有效的微调模块：
涉及更多参数：即同时微调空间和时间模块。
改变微调方法：即直接微调而不使用LORA。
因此给出了以下四种情况：
M A F (F-Spa&Temp-LORA)：LORA微调空间和时间模块。
M B F (F-Spa-DIR)：直接微调空间模块。
M C F (F-Temp-DIR)：直接微调时间模块。
M D F (F-Spa&Temp-DIR)：同时直接微调空间和时间模块。
在这里插入图片描述
模块选择（控制变量法结论）：
研究者基于完全训练的视频生成模型模型进行了模块选择。
通过比较生成的视频，他们得出结论：“直接”微调“空间模块”是提高图像质量而不显著损失运动质量的最佳方法。

复杂prompt描述的优化：
为了提高视频模型的概念组合能力，研究者提出在部分微调阶段使用具有“复杂概念”的合成图像，而不是使用真实图像。他们使用JDB和LAION-aesthetics V2作为图像数据进行第二次微调阶段。LAION-aesthetics V2包含从Midjourney合成的高分辨率图像，每个图像都带有相应的文本提示。为了验证合成图像的有效性，研究者观察到使用JDB训练的模型在概念组合能力方面表现更好。

三、VideoCrafter2与现有技术的比较

VideoCrafter2与几个最先进的文本到视频（T2V）模型进行了全面的比较，包括商业模型（如Gen-2和Pika Labs）以及开源模型（如Show-1、VideoCrafter1和AnimateDiff）。

相较于使用高质量视频进行训练的模型（如Gen-2和Pika Labs），VideoCrafter2在视觉质量上表现相当出色。然而，它在运动质量方面可能稍显不足，因为这些高质量视频模型使用了更大量的视频数据来学习运动信息，从而在运动表现上具有优势。

与使用WebVid-10M视频进行训练的模型（如AnimateDiff和Show-1）相比，VideoCrafter2在运动质量上表现更佳。尽管AnimateDiff在视觉质量方面有所提升，但在通用场景中可能会出现运动质量的退化。这突显了VideoCrafter2在解决运动质量问题上的有效性，尤其是在面对WebVid-10M等相对低质量视频数据时。

总体而言，VideoCrafter2在综合考虑视觉和运动质量的情况下，展现了对高质量视频生成的出色性能，并在处理数据限制方面提供了有力的解决方案。

四、VideoCrafter2的具体评估结果

定量评估：

使用EvalCrafter基准对VideoCrafter2进行了全面评估，该基准包含约18个客观指标，用于评估文本到视频生成模型的视觉质量、内容质量、运动质量和文本-视频对齐等方面。
定量结果表明，VideoCrafter2在视觉质量方面与使用高质量视频进行训练的VideoCrafter1和Pika Labs相当。这结果证明了使用高质量图像来提升画面质量的有效性。在文本-视频对齐方面，VideoCrafter2排名第二，展示了良好的文本和视频内容一致性。在运动质量方面，虽然略逊于使用更多视频数据进行训练的模型，但超过了Show-1，显示了该方法在提升视觉质量的同时，较小幅度地降低了运动质量。

定性评估：

进行了用户研究，邀请了视频制作专家对不同模型生成的视频进行比较，根据视觉质量、运动质量和文本-视频对齐等标准选择他们更喜欢的视频。
用户研究结果显示，VideoCrafter2在视觉质量上优于AnimateDiff和Show-1，并且在运动质量上更受欢迎，尤其是在运动闪烁和前景/背景闪烁方面。这表明VideoCrafter2不仅在量化评估中表现良好，而且在实际用户感知中也取得了令人满意的结果。

五、环境安装

1.环境安装

conda create -n videocrafter python=3.8.5
conda activate videocrafter
git clone https://github.com/AILab-CVC/VideoCrafter.git
pip install -r requirements.txt

2.文本到视频