VEnhancer: Generative Space-Time Enhancement for Video Generation

Paper name

VEnhancer: Generative Space-Time Enhancement for Video Generation

Paper Reading Note

Paper URL: https://arxiv.org/pdf/2407.07667

Project URL: https://vchitect.github.io/VEnhancer-project/

Code URL: https://github.com/Vchitect/VEnhancer

TL;DR

  • 2024 年港中文和上海人工智能实验室出品论文。介绍了 VEnhancer,支持视频的超分辨率和插帧。使用 VEnhancer,现有的开源最先进文本到视频方法,VideoCrafter-2,在视频生成基准测试——VBench 中达到了第一名

Introduction

背景

  • 高分辨率视频生成一些常见方案,这些方案存在以下问题:
    • 对于基于串联管道的超分辨率+插帧方案:堆叠了几个视频扩散模型(DM),包括T2V、时间超分辨率(T-SR)和空间超分辨率(S-SR)DM。生成高分辨率和高帧率视频时显著降低了计算成本。方案的问题是:
      • 使用不同的模型分别在空间和时间轴上增强视频可能是多余且耗时的,因为空间和时间超分辨率是强相关的任务。
      • 部分方案只能支持固定插值比率(即,在两个连续帧之间预测3帧)或固定的上采样因子(即,4倍)
      • 使用合成视频对训练T-SR/S-SR可能会导致较差的泛化能力,因为它只能生成低级细节,而没有从根本上理解视频内容的语义和结构。
    • 关注于去除视频伪影和细化生成视频的扭曲内容,I2VGEN-XL:
      • 细化模型通过去噪-加噪过程去除视觉伪影并重新生成视频内容
        • 不能增加空间和时间分辨率。更重要的是,简单的去噪-加噪过程会显著改变原始视频内容(即,牺牲保真度)

本文方案

  • 介绍了VEnhancer,这是一个生成性的时空增强框架,通过在空间域添加更多细节并在时间域合成详细运动来改善现有的文本到视频的结果
    • 给定一个生成的低质量视频,我们的方法可以同时增加其空间和时间分辨率,通过统一的视频扩散模型进行任意的上采样空间和时间尺度
    • VEnhancer 有效地移除了生成视频中的生成空间伪影和时间闪烁
  • 基于一个预训练的视频扩散模型,训练了一个视频ControlNet,将其注入到扩散模型中,作为对低帧率和低分辨率视频的条件
    • 为了有效地训练这个视频 ControlNet,设计了时空数据增强以及视频感知调节。得益于上述设计,VEnhancer 在训练过程中表现出稳定性,并共享了一个优雅的端到端训练方式
    • 广泛的实验表明,VEnhancer 在增强 AI 生成的视频方面超越了现有的最先进视频超分辨率和时空超分辨率方法
    • 使用 VEnhancer,现有的开源最先进文本到视频方法,VideoCrafter-2,在视频生成基准测试——VBench 中达到了第一名

Methods

模型架构

  • 遵循 ControlNet 的方法,保持预训练的视频扩散模型不变,以保留生成能力,但创建一个可训练的复制网络,用于有效的条件注入。复制了 3D-UNet 中的多帧编码器和中间块的架构和权重(图 2 中的橙色块)。该条件网络也将全帧噪声潜在变量作为输入,并输出多尺度时间一致的视频特征。这些特征将通过新添加的零卷积(图 2 中的黄色块)注入到原始的 3D-UNet 中。
    在这里插入图片描述

时空数据增广

  • 提出了一种新颖的时空数据增强策略。
    • 时间尺度上随机采样的倍率从 1x 到 8x
    • 空间尺度上也是 1x 到 8x 的超分辨率。送给网络时会提前通过双线性插值将它们上采样回原始的空间大小。

latent 空间噪声增广

  • 噪声增强过程与视频扩散模型中使用的扩散过程相同。注意,预训练的视频扩散模型采用了 1,000 步。而噪声增强只需要破坏低层次的信息,所以设置为 300。

video-aware 的 condition

  • 除了数据增强之外,还应设计相应的条件机制,以促进模型训练,并避免不同空间或时间尺度及噪声增强导致的性能平均化。
  • latent、降采样因子、增强噪声的大小都作为条件输入。
    在这里插入图片描述

Experiments

数据集

  • 从互联网上收集了大约35万个高质量和高分辨率的视频片段来构成我们的训练集
  • 测试数据集,我们收集了来自最先进的文本到视频方法的全面生成视频。实际上,我们选择了具有大动作和多样化内容的视频。这个测试数据集被标记为 AIGC2023,用于评估 VEnhancer 和基线在视频超分辨率和时空超分辨率任务上的性能
  • 中心裁剪在 720×1280 的分辨率上训练 VEnhancer,目标帧率通过跳帧固定为 24
  • 对于 VBench 上的评估,所有基于提供的提示套件生成的视频都被考虑在内,结果超过 5k 个视频。

视频超分辨率评估

  • 在本文构造的数据集上精度最高
    在这里插入图片描述

视频超分+插帧评估

  • 大部分指标精度最高
    在这里插入图片描述

vbench 评测结果

  • videocrafter 使用 venhancer 后能达到 SOTA
    在这里插入图片描述
    在这里插入图片描述

Thoughts

  • 模型和代码都完全开源,这里超分和插帧的比例范围很大(1x-8x),在资源有限的情况下可能做好 2x 比较合适
  • 本文方案的耗时不可避免会比较高,这种方案和直接出高分辨率的效果、耗时对比本文没有给出
### 回答1: ESRGAN是增强型超分辨率生成对抗网络的缩写,它是一种深度学习模型,用于将低分辨率图像转换为高分辨率图像。它使用生成对抗网络(GAN)的方法,通过训练生成器和判别器来提高图像的质量。ESRGAN是目前最先进的超分辨率算法之一,它可以生成更加真实、细节更加丰富的高分辨率图像。 ### 回答2: ESRGAN是一种增强超分辨率生成对抗网络(Enhanced Super-Resolution Generative Adversarial Networks)的算法,它采用了图像增强技术和深度学习的方法,可以将低分辨率(LR)的图像转化为高分辨率(HR)的图像。该算法主要的贡献在于,它可以生成更加逼真的HR图像,从而更好地应用于实际的图像处理领域。 该算法主要是由两个子模型组成的,一个是生成模型(Generator),另一个是判别模型(Discriminator)。生成模型通过学习HR图像和相应的LR图像之间的关系,生成更加逼真的HR图像。而判别模型则评估生成模型生成的HR图像是否真实,从而提高生成模型的准确度。 ESRGAN算法采用特殊的损失函数,即感知损失和自适应增强损失,来优化生成模型。感知损失通过VGG网络来计算生成模型和HR图像之间的差异,以此来调整生成模型的参数。自适应增强损失则用于动态调整生成模型的输出图像的细节层次,使生成模型产生更加真实的输出图像。 ESRGAN算法在图像增强领域取得了显著的成果,其生成的HR图像质量要比先前的SRGAN算法有了很大的提升。因此,ESRGAN算法在实际应用中具有广泛的前景,可以为图像处理领域提供更加高效、准确和可靠的方法。 ### 回答3: ESRGAN(Enhanced Super-Resolution Generative Adversarial Networks)是一种利用深度学习算法进行图像超分辨率的技术。其主要思路是基于GAN模型,通过训练一个生成器去从低分辨率图像生成高分辨率图像,同时以高分辨率的真实图片为样本来训练判别器模型,使其能够区分出生成器生成的图像是否为真实高清图像。 ESRGAN相对于传统的超分辨率算法,具有以下几个优点: 1.超分辨率效果更好。传统的超分辨率算法往往是基于一些数学模型进行插值运算,因此往往会出现图像模糊、失真等问题。而ESRGAN能够通过深度学习算法学习到更加准确的纹理特征,从而可以生成更为真实的高清图像。 2.可扩展性更强。ESRGAN的GAN模型可以通过增加网络深度、增加训练数据等方式对模型进行优化,从而提高图像超分辨率效果。 3.针对性更强。ESRGAN可以针对不同种类的图像进行训练,从而能够对各种类型的图像进行超分辨率处理,具有广泛的适用性。 4.易于应用。ESRGAN训练出的模型可以很方便地应用到实际生产环境中,对于需要进行图像超分辨率处理的应用场景具有很大的帮助作用。 虽然ESRGAN在图像超分辨率方面具有较为突出的优势,但其也存在一些缺点和挑战。比如需要大量的高清图像数据用于训练,需要考虑到训练时间和计算资源的问题;还需要解决一些局部纹理复杂的图像超分辨率问题。总之,ESRGAN是一种非常有潜力的图像超分辨率算法,将有助于推动图像处理技术的进一步发展。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值