Paper name
VEnhancer: Generative Space-Time Enhancement for Video Generation
Paper Reading Note
Paper URL: https://arxiv.org/pdf/2407.07667
Project URL: https://vchitect.github.io/VEnhancer-project/
Code URL: https://github.com/Vchitect/VEnhancer
TL;DR
- 2024 年港中文和上海人工智能实验室出品论文。介绍了 VEnhancer,支持视频的超分辨率和插帧。使用 VEnhancer,现有的开源最先进文本到视频方法,VideoCrafter-2,在视频生成基准测试——VBench 中达到了第一名
Introduction
背景
- 高分辨率视频生成一些常见方案,这些方案存在以下问题:
- 对于基于串联管道的超分辨率+插帧方案:堆叠了几个视频扩散模型(DM),包括T2V、时间超分辨率(T-SR)和空间超分辨率(S-SR)DM。生成高分辨率和高帧率视频时显著降低了计算成本。方案的问题是:
- 使用不同的模型分别在空间和时间轴上增强视频可能是多余且耗时的,因为空间和时间超分辨率是强相关的任务。
- 部分方案只能支持固定插值比率(即,在两个连续帧之间预测3帧)或固定的上采样因子(即,4倍)
- 使用合成视频对训练T-SR/S-SR可能会导致较差的泛化能力,因为它只能生成低级细节,而没有从根本上理解视频内容的语义和结构。
- 关注于去除视频伪影和细化生成视频的扭曲内容,I2VGEN-XL:
- 细化模型通过去噪-加噪过程去除视觉伪影并重新生成视频内容
- 不能增加空间和时间分辨率。更重要的是,简单的去噪-加噪过程会显著改变原始视频内容(即,牺牲保真度)
- 细化模型通过去噪-加噪过程去除视觉伪影并重新生成视频内容
- 对于基于串联管道的超分辨率+插帧方案:堆叠了几个视频扩散模型(DM),包括T2V、时间超分辨率(T-SR)和空间超分辨率(S-SR)DM。生成高分辨率和高帧率视频时显著降低了计算成本。方案的问题是:
本文方案
- 介绍了VEnhancer,这是一个生成性的时空增强框架,通过在空间域添加更多细节并在时间域合成详细运动来改善现有的文本到视频的结果
- 给定一个生成的低质量视频,我们的方法可以同时增加其空间和时间分辨率,通过统一的视频扩散模型进行任意的上采样空间和时间尺度
- VEnhancer 有效地移除了生成视频中的生成空间伪影和时间闪烁
- 基于一个预训练的视频扩散模型,训练了一个视频ControlNet,将其注入到扩散模型中,作为对低帧率和低分辨率视频的条件
- 为了有效地训练这个视频 ControlNet,设计了时空数据增强以及视频感知调节。得益于上述设计,VEnhancer 在训练过程中表现出稳定性,并共享了一个优雅的端到端训练方式
- 广泛的实验表明,VEnhancer 在增强 AI 生成的视频方面超越了现有的最先进视频超分辨率和时空超分辨率方法
- 使用 VEnhancer,现有的开源最先进文本到视频方法,VideoCrafter-2,在视频生成基准测试——VBench 中达到了第一名
Methods
模型架构
- 遵循 ControlNet 的方法,保持预训练的视频扩散模型不变,以保留生成能力,但创建一个可训练的复制网络,用于有效的条件注入。复制了 3D-UNet 中的多帧编码器和中间块的架构和权重(图 2 中的橙色块)。该条件网络也将全帧噪声潜在变量作为输入,并输出多尺度时间一致的视频特征。这些特征将通过新添加的零卷积(图 2 中的黄色块)注入到原始的 3D-UNet 中。
时空数据增广
- 提出了一种新颖的时空数据增强策略。
- 时间尺度上随机采样的倍率从 1x 到 8x
- 空间尺度上也是 1x 到 8x 的超分辨率。送给网络时会提前通过双线性插值将它们上采样回原始的空间大小。
latent 空间噪声增广
- 噪声增强过程与视频扩散模型中使用的扩散过程相同。注意,预训练的视频扩散模型采用了 1,000 步。而噪声增强只需要破坏低层次的信息,所以设置为 300。
video-aware 的 condition
- 除了数据增强之外,还应设计相应的条件机制,以促进模型训练,并避免不同空间或时间尺度及噪声增强导致的性能平均化。
- latent、降采样因子、增强噪声的大小都作为条件输入。
Experiments
数据集
- 从互联网上收集了大约35万个高质量和高分辨率的视频片段来构成我们的训练集
- 测试数据集,我们收集了来自最先进的文本到视频方法的全面生成视频。实际上,我们选择了具有大动作和多样化内容的视频。这个测试数据集被标记为 AIGC2023,用于评估 VEnhancer 和基线在视频超分辨率和时空超分辨率任务上的性能
- 中心裁剪在 720×1280 的分辨率上训练 VEnhancer,目标帧率通过跳帧固定为 24
- 对于 VBench 上的评估,所有基于提供的提示套件生成的视频都被考虑在内,结果超过 5k 个视频。
视频超分辨率评估
- 在本文构造的数据集上精度最高
视频超分+插帧评估
- 大部分指标精度最高
vbench 评测结果
- videocrafter 使用 venhancer 后能达到 SOTA
Thoughts
- 模型和代码都完全开源,这里超分和插帧的比例范围很大(1x-8x),在资源有限的情况下可能做好 2x 比较合适
- 本文方案的耗时不可避免会比较高,这种方案和直接出高分辨率的效果、耗时对比本文没有给出