VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation(用于高质量视频生成的解耦扩散模型)
英文原文链接:https://arxiv.org/abs/2303.08320
Abstract
概率扩散模型(DPM)通过向数据点内逐步加入噪声来构建前向扩散过程,再通过学习反向去噪过程来生成新样本,这种方法能处理较为复杂的数据分布,并在图像合成领域大放异彩。
但在高维数据空间中使用DPM生成视频仍然很困难。先前的方法使用标准扩散过程,在这个过程中,相同视频片段中的帧会被独立的噪声破坏,忽略了视频中应有的内容上的冗余性和时间上的相关性。
本工作提出了一种解耦的扩散过程,通过将每一帧的噪声分别为在所有帧之间共享的基础噪声和在时间轴上变化的剩余噪声两部分。而去噪过程使用两个联合学习的网络来匹配相应的噪声解耦过程。该模型可以从预训练的图像扩散模型中受益。
1. Introduction
将DPM运用到图像生成上的任务有很多,而使用DPM模型生成视频仍然处于一个早期阶段,由于视频数据处于更高维度,并且涉及到复杂的时空关系,该任务面临着许多挑战
如abstract所述,这些基于DPM的视频生成方法都使用标准扩散过程,同一个视频的不同帧之间加入了独立的噪声,而视频在有噪声的潜变量上的时间相关性也被逐渐破坏。因此,相应DPM模型在去噪过程中,就需要从互相独立的噪声样本中重建连贯的帧。然而,在去噪网络中同时对事件和空间相关性进行建模是十分困难的。
受到“连续的框架贡献大部分的内容”思路的启发,作者猜想,如果噪声中有相同的部分,那么从噪声中重建视频帧是否更有优势。在此思路下,作者提出解耦的DPM模型,在扩散过程中,将加入每一帧的噪声分为两个部分:base noise 和 residual noise,前者在连续的帧内共享。这样,不同帧的噪声潜变量将有一部分是共享的,这有助于去噪网络重建出连续的视频。
图2(a)由独立的噪声生成,图2(b)由共享的base noise生成。不同列的数据noise不同,不同行的数据由不同condition下的DALL-E 2生成
为了直观地证明上面共享思路的有效性,作者使用DALL-E2的解码器,对独立的噪声潜变量在相同条件下进行解码,生成的图片差别较大,如上图2(a)所示。但如果使用共享相同base noise(基础噪声)的噪声潜变量,即使是一个图像领域的生成器,也能生成大致相关的序列,如上图2(b)所示。这意味着减轻了对视频生成器的去噪部分的网络的要求。
此外(除可以保证视频的时间依赖性外),这种解耦还有其他的优势。
- 首先,由于base noise 在所有帧中共享,我们可以只在预训练好的、大的图像生成类DPM中跑一次前向过程来进行预测。通过这种方式,预训练模型的图像先验可以被所有帧高效地共享,从而促进视频数据的学习。
- 第二,base noise在所有帧中共享,并且很可能与视频内容相关。这个属性使得控制生成视频的内容或动作成为可能。事实上,在4.7节中发现,在充分训练的条件下,VideoFusion倾向于将base noise和视频内容相关联,residual noise和动作相关联。如图1所示。
2. Related Works
2.1 Diffusion Probabilistic Models
见论文DPM:
2.2 Video Generation
视频生成不仅需要生成高质量的帧,还需要帧之间有时序上的相关性。
先前的视频生成方法都是基于GAN的,如VGAN和TGAN,由生成器直接学习视频帧的联合分布。
基于GAN的生成方法:
在[39]中,作者提出了将视频的内容和动作解耦,分别通过内容向量和动作向量建模。[33]和[3]也提出了相似的解耦公式,内容噪音由连贯的帧共享,学习视频内容,而动作噪音建模物体轨迹。其他一些工作则首先为视频数据训练向量自编码器,然后使用自回归(auto-regress)transformer在潜空间内学习视频分布。
基于DPM的生成方法:
在[16]中,作者将图像领域的二维去噪网络扩展为三维,即将帧堆叠成新的维度。在[43]中,DPM再去噪过程中,将已知帧作为条件来进行视频预测和插值。然而,这些方法在扩散过程中,通常将视频帧看做独立的样本,这使得DPM很难在去噪过程中重建连贯的视频
3. Decomposed Diffusion Probabilistic Model
3.1 视频数据的标准扩散过程
其中 ϵ t i ∼ N ( 0 , 1 ) , i = 1 , 2 , . . . , N \epsilon ^i_t \sim N(0,1), i=1,2,...,N