【论文精读】VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation

前言

VideoFusion[1] 是阿里达摩院在今年3月提出的一种新的基于 DPM 的视频生成方法。和之前的一些视频生成方法(Imagen Video、Make-A-Video等)相比,VideoFusion 摒弃了常见的 spatial/temporal super-resolution 方法,完全使用 DPM 来做图像和视频序列的生成。此外,VideoFusion 相关的模型和代码也在达摩院的 ModelScope 上进行了开源[2] ,可以直接在网页上直接实现相关的 demo。本文将简要介绍 VideoFusion 的原理以及相应的本地部署方法。

原理

扩散模型(Diffusion Probabilistic Model,DPM)在图像生成领域取得了非常大的进展,可以生成高质量、多样的图像。因此,一种非常自然的想法就是利用扩散模型来生成视频。然而,目前基于扩散模型的视频生成还处于一个比较初级的阶段。因为视频和图像相比是更高维的数据(多了一个时间维度),并且在 spatial-temporal 上具有更强的相关性。

扩散模型一般有两个过程,加噪(noising)过程和去噪(denoising)过程[3]。之前的一些工作中,当作者使用DPMs 来生成图像时,不同的关键帧往往使用不同的 noise。然而,我们知道,视频的帧与帧之间具有很强的相关性,相邻两帧的图像往往大部分内容是相似的,只有少部分内容是不同的。使用不同噪声生成的图像,很难保证具有足够强的相关性。因此,VideoDefusion 尝试将视频生成过程中的噪声(noise)进行分解,将噪声分成基础噪声(base noise)和残差噪声(residual noise)。其中,基础噪声保证视频帧与帧之间大部分内容的一致性,是视频中所有帧共享的噪声;残差噪声负责保证帧与帧之间的差异,保证视频的多样性,不同帧的残差噪声是不相同的。

在这里插入图片描述
此外,作者还发现,使用这种方法实际上是将视频的风格和动作进行了分解(就像是 GAN-based 方法的 content code 和 motion code)。作者给出了一张图来演示这种区别,Figure 1 中演示了三段视频,每一行都是一个视频。第一行和第二行两个视频共享基础噪声,所以体现到生成的视频中就是视频风格(背景、穿着、色调)相同,动作不同;第二行和第三行两个视频共享残差噪声,体现到生成的视频中就是动作相同,视频风格不同。

方法

图像 DPM(Diffusion Probabilistic Model)

在这里插入图片描述

视频DPM

在这里插入图片描述

分解 Diffusion 过程

在这里插入图片描述
作者也贴了张图介绍了一下 VideoFusion 的 noising 过程,实际就是每次 noising 加上两个噪声,一个是基础噪声b,只根据扩散 step 变化,加到视频中所有帧上,另一个是残差噪声r,每一帧每一个 step 的残差噪声都不同。

在这里插入图片描述

使用预训练的DPM

在这里插入图片描述

实验

作者主要使用了三个数据集(UCF101、Sky Time-lapse、TaiChi-HD做定量分析,用 Fréchet Video Distance (FVD) 、Kernel Video Distance (KVD) 、Inception Score (IS)作为评价指标。此外,作者在 WebVid-10M 上训练了一个 text-to-video 的模型,用来定性评估模型图像的生成效果。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值