[VFI&DIFF]Motion-aware Latent Diffusion Models for Video Frame Interpolation

阿男官官

已于 2024-06-30 20:48:57 修改

阅读量1k

点赞数 23

分类专栏： Diffusion论文阅读文章标签：计算机视觉视频图像处理深度学习

于 2024-06-16 22:04:13 首次发布

本文链接：https://blog.csdn.net/weixin_41905577/article/details/139716502

版权

Diffusion论文阅读专栏收录该内容

11 篇文章 0 订阅

订阅专栏

视频帧插值的运动感知潜在扩散模型

Zhilin Huang1,2* Yijie Yu1,2* Ling Yang3 Chujun Qin4 Bing Zheng1,2 Xiawu Zheng2,5 Zikun Zhou2† Yaowei Wang2 Wenming Yang1,2†

1 Tsinghua University 2 Peng Cheng Laboratory 3 Peking University 4 China Southern Power Grid 5 Xiamen University
paper, code

文章目录

Abstract
Introduction
2. Related Work
- 2.1. Image-to-Event Generation
- 2.2. Video Frame Interpolation
3. Preliminary
- 3.1. Representation of Event Volume
- 3.2. Latent Diffusion Models
4. Methods
5. Experiment

Abstract

对于VFI任务，相邻帧间的运动估计对避免运动模糊性起着至关重要的作用。然而，现有的VFI方法总是难以准确预测连续帧之间的运动信息，这种不精确的估计会导致帧模糊和视觉上不相干的插值帧。本文提出了一种新的扩散框架，运动感知潜在扩散模型（MADIFF），它是专门为VFI任务设计的。通过在整个扩散采样过程中结合条件相邻帧与目标插值帧之间的运动先验，MADIFF逐步细化中间结果，最终产生视觉上平滑和真实的结果。在基准数据集上进行的大量实验表明，我们的方法取得了显著超过现有方法的最先进的性能，特别是在涉及具有复杂运动的动态纹理的具有挑战性的场景下。

Introduction

然而，这些基于深度学习的VFI方法往往会产生不真实的纹理、伪影和低感知的结果。原因是优化目标的主要贡献者-因此模型的最终性能-仍然是它们的输出和真插值帧之间基于L1/ L2的失真损失。

扩散模型将VFI任务作为有条件图像生成的一种形式，通过将相邻帧进入去噪网络，以进行目标插值帧生成。然而，这些方法并不能明确地模拟插值帧与给定的相邻条件帧之间的帧间运动，这是防止由于运动模糊而产生模糊插值帧的关键因素。这在涉及复杂的运动、遮挡或亮度突变的复杂动态场景中尤为重要。

图1. 编码器和解码器使图像和隐空间之间的投影成为可能，扩散过程在隐空间中发生。I2E为image-to-event generator，它以两个连续帧作为输入，能够生成事件体积。m表示从I2E中提取的运动提示。

为了解决这些挑战，本文提出了一种新的潜在扩散框架，即运动感知潜在扩散模型（MADIFF），用于视频帧插值任务。具体来说，采用最近提出的潜在扩散模型（LDMs）。LDM包括一个将图像映射到潜在空间的自动编码器和一个去噪的Unet，它在潜在空间内执行反向扩散过程，形成了框架的基础。为了将给定条件相邻帧与插值帧之间的帧间运动先验合并到MADIFF中，提出了一种新的向量量化运动感知生成对抗网络，VQMAGAN。

首先使用预训练过的EventGAN来预测反映连续两帧之间像素级强度变化的事件。随后，利用插值帧与相邻两个条件帧之间的事件体量作为运动提示，以增强VQ-MAGAN解码器内的图像重建。VQ-MAGAN具有在帧间运动提示的指导下，通过聚合给定相邻帧的上下文细节来预测目标插值帧的能力。此外，对于LDM中的去噪过程，将插值帧和相邻两个帧之间的运动提示作为附加条件。

在VQ-MAGAN和去噪U-Net的训练过程中，直接利用地面真实插值帧来提取插值帧与相邻条件帧之间的帧间运动提示。由于在LDM采样过程中地面真插值帧是未知的，因此在插值帧与条件相邻帧之间提取运动提示是不可行的。为了消除采样阶段和训练阶段之间运动线索提取的差异，使采样过程中的运动线索可用，提出了一种新的运动感知采样方法（MA-SAMPLING）。

具体来说，在采样过程中，使用前一个时间步长中预测的粗插值帧与条件相邻帧一起提取帧间运动提示。然后将提取的运动提示输入VQ-MAGAN和去噪U-Net，用于预测当前时间步长中的插值帧。通过逐步细化插值帧，MADIFF可以有效地将帧间的运动提示集成到采样过程中，从而产生视觉上的平滑和真实的帧。

在各种VFI基准数据集上进行的大量实验，包括低分辨率和高分辨率内容（高达4K），表明我们的MADIFF实现了最先进的性能，显著优于现有的方法，特别是在涉及具有复杂运动的动态纹理的具有挑战性的场景下。

Contribution：

本文提出了一种新的向量量化运动感知生成对抗网络VQ-MAGAN，该网络将目标插值帧与给定相邻条件帧之间的帧间运动提示充分整合到插值帧的预测中。
提出一种新的运动感知采样方法，MA-SAMPLING，以消除采样阶段和训练阶段之间运动提示提取的差异，使采样过程中运动提示的提取可行，并逐步细化预测的插值帧。
我们通过定量和定性的实验证明，所提出的方法达到了最先进的性能，显著优于现有的方法。

2. Related Work

2.1. Image-to-Event Generation

2.2. Video Frame Interpolation

3. Preliminary

3.1. Representation of Event Volume

每个事件 $\mathbf{e}$ 都可以用一个元组 $(x, y, t, p)$ 来表示，这里的 $x$ 和 $y$ 表示事件的空间位置， $t$ 代表事件节点， $p=\pm1$ 表示两极。为了便于处理事件，事件分散到一个固定大小的三维时空volume中，其中每个事件 $(x, y, t, p)$ 插入到volume中，该volume具有 $B = 9$ 时间通道，具有一个线性核：
$t^{\ast}_{i}=(B-1)\cdot\frac{t_{i}-t_{1}}{t_{N}-t_{1}},\\ V(x,y,t)=\sum_{i}max(0,1-|t-t^{\ast}_{i}|).$
这保留了事件在 $x\text{-}y\text{-}t$ 空间中的分布，并在许多任务中显示出了成功。

由于EventGAN生成的事件volume是不同极性的事件volume沿时间维度的连接，因此最终的事件volume是严格的非负的。在MADIFF中，直接利用EventGAN生成的事件volume作为帧间运动提示。

3.2. Latent Diffusion Models

LDMs是DDPM的变体，它在自动编码器的潜空间中执行去噪过程，即 $\mathcal{E}(.)$ 和 $\mathcal{D}(.)$ ，由预训练的VQ-GAN或VQ-VAE实现。与在像素级数据中执行去噪过程相比，LDM可以在保持高视觉质量的同时降低计算成本。

对于LDM的训练，将随机采样训练图像 $x$ 的潜码 $z$ 转换为噪声，采用转移核定义的马尔可夫过程：
$q(z_{t}|z_{t-1})=\mathcal{N} (z_{t}; \sqrt{\alpha_{t} }z_{t-1} , (1-\alpha)\mathbf{I} )$
这里的 $t = 1, 2, ..., T$ ， $z_{0}=z$ ，而 $\alpha_{t}$ 是一个控制噪声注入速率的超参数。当噪声量足够大时， $z_{T}$ 根据 $\mathcal{N}(0,\mathbf{I})$ 近似分布。为了将噪声转换回数据，用于样本生成，通过学习反向转换核来估计反向扩散过程：
$p_{\theta}(z_{t-1}|z_{t})=\mathcal{N}(\mu_{\theta}(z_{t}),\sum_{\theta}(z_{t}))$
然后把它作为 $q(z_{t-1}|z_{t})$ 的近似值。 $\mu_{\theta}(z_{t})$ 用神经网络 $\epsilon_{\theta}(z_{t},t)$ （称为分数模型[63,64]）参数化， $\sum_{\theta}$ 被固定为一个常数。评分模型可以通过去噪评分匹配的进行优化。在样本生成过程中，在每个时间步长内，去噪U-Net先预测 $\hat{z}_{0}$ 。最后，VQ-GAN或VQ-VAE的解码器从去噪的潜在表示 $\hat{z}_{0}$ 中生成图像 $\hat{I}_{0}$ ，而不考虑任何上下文信息。

4. Methods

4.1. Motion Hints Extraction

在MADIFF中，我们利用预先训练好的EventGAN来捕获插值帧与条件相邻帧之间的帧间运动提示。具体来说，给定插值帧 $I_{0}\in\mathbb{R}^{H\times W\times3}$ 和两个条件相邻帧 $I_{-1}, I_{+1}\in\mathbb{R}^{H\times W\times3}$ ，其中 $I_{-1}$ 表示前一帧， $I_{+1}$ 表示下一帧。运动提示提取过程表述如下：
$m_{-1\to0}=f_{I2E}(I_{-1},I_{0})\\ m_{0\to+1}=f_{I2E}(I_{0},I_{+1})$
其 $f_{I2E}(.)$ 为预训练的EventGAN， $m_{i\to j}$ 表示从帧 $i$ 到帧 $j$ 提取的运动提示。在实践中，我们直接使用预测的事件volume $EV_{i\to j}\in \mathbb{R}^{H\times W\times(2\times B)}$ 作为 $m_{i\to j}$ 。此外，我们提出的MADIFF是一个通用的框架，它可以轻松地融入不同的运动相关模型。
在这里插入图片描述

4.2. VQ-MAGAN

在这里插入图片描述
Implementation Details

编码器 $\mathcal{E}$ 通过给定的地面真实目标帧 $I_{0}\in\mathbb{R}^{H\times W\times 3}$ 作为输入，产生潜在编码 $z_{0}= \mathcal{E}(I_{0})$ ，这里的 $z_{0}\in \mathbb{R}^{\frac{H}{f}\times \frac{W}{f}\times 3}$ ， $f$ 是一个超参数，设置为 $f = 32$ 。

解码器 $\mathcal{D}$ 通过取 $z_{0}$ 和由 $\mathcal{E}$ 之后的两个相邻帧 $I_{−1}, I_{+1}$ 中提取的特征金字塔 $\phi_{-1}, \phi_{+1}$ 来重构目标帧 $\hat{I}_{0}$ 。此外，利用运动提示提取器来捕获地面真实目标帧 $I_{0}$ 与相邻帧 $I_{−1}$ 和 $I_{+1}$ 之间的帧间运动提示 $m_{-1\to 0}$ 和 $m_{0\to +1}$ 。然后，我们将 $m_{-1\to 0}$ 和 $m_{0\to +1}$ 作为通过运动感知扭曲（MA-WARP）模块在解码器 $\mathcal{D}$ 中进行上下文聚合的额外指导。具体来说，对于插值帧的特征 $h^{l}_{0}\in\mathbb{R}^{U\times V \times C}$ 和运动提示 $m_{-1\to 0},m_{0\to +1}\in \mathbb{R}^{H\times W\times(2\times B)}$ ，第 $l$ 层首先重塑运动提示到 $U\times V$ 的分辨率，获得 $m^{l}_{-1\to 0},m^{l}_{0\to +1}\in \mathbb{R}^{U\times V\times(2\times B)}$ 。然后对每个运动提示，通过可学习的神经网络生成2通道偏移图分别为 $\Omega^{l}_{-1\to 0}$ 和 $\Omega^{l}_{0\to +1}$ ，它反映了相邻帧到目标插值帧的像素级特征相关性:
$\Omega^{l}_{-1\to 0}=f_{\Omega}(h^{l}_{0}, m^{l}_{-1\to 0},\phi^{l}_{-1})\\ \Omega^{l}_{+1\to 0}=f_{\Omega}(h^{l}_{0}, m^{l}_{0\to +1},\phi^{l}_{+1})$
然后，引入了扭曲函数 $f_{warp}(.)$ ，作为一种聚合机制：
$h^{l}_{0 \gets -1}=f_{warp}(\Omega^{l}_{0\gets-1}, \phi^{l}_{-1})\\ h^{l}_{0 \gets +1}=f_{warp}(\Omega^{l}_{0\gets+1}, \phi^{l}_{+1})$
MA-WARP还生成一个门控图 $g\in[0,1]^{U\times V\times 1}$ 来解释遮挡，以及一个残差图 $\delta\in\mathbb{R}^{U\times V\times C}$ ，以进一步提高性能：
$\tilde{h}^{l}_{0} = g\cdot h^{l}_{0\gets-1}+(1-g)\cdot h^{l}_{0\gets +1}+\delta,\\ g=f_{g}(h^{l}_{0\gets-1}, h^{l}_{0\gets+1}),\\ \delta=f_{\delta}(h^{l}_{0})$
这里的 $f_{g}(.)$ 和 $f_{\delta}(.)$ 是可学习的神经网络， $\tilde{h}^{l}_{0}$ 是MA-WARP第 $l$ 层解码器的输出。通过在解码器层中分层应用MA-WARP，VQ-MAGAN能够充分利用运动提示，准确地从相邻帧中聚合金字塔上下文。与VQ-FIGAN相比，我们的VQ-MAGAN能够合并目标插值帧与条件相邻帧之间的帧间运动。

Training VQ-MAGAN
VQMAGAN的训练，遵循VQGAN的原始训练设置，其中损失函数包括基于LPIPS的感知损失、基于补丁的对抗性损失和基于向量量化（VQ）层的潜在正则化项。特别地，我们使用地面真插值帧来提取给定条件相邻帧的运动提示。
由于在VQMAGAN训练过程中提供了地面真目标帧来提取运动提示，VQ-MAGAN的重建任务可能变得更加容易，可能会降低推理阶段的重建性能。为了解决这个问题，我们在训练阶段只利用概率为0.5的运动提示来协助VQ-MAGAN的重建过程。

4.3. De-noising with Conditional Motion Hints

Implementation Details
经过训练的VQMAGAN的编码器允许我们访问一个紧凑的潜在空间，其中我们通过根据预定义的噪声计划逐步加入目标帧 $I_0$ 的潜在 $z_0$ 来执行前向扩散，并学习反向（去噪）过程来执行条件生成。此外，与以往的方法相比，我们在去噪过程中还加入了动态帧间运动提示。为此，我们采用噪声预测参数化[23]扩散模型和训练去噪通过最小化重加权变分下界条件似然对数 $\log p_{\theta}(z_{0}|z_{-1}, z_{+1}, m_{-1\to 0},m_{0\to +1})$ ， $z_{-1}, z_{+1}$ 潜在的表示两个条件相邻帧， $m_{i\to j}$ 表示 $i$ 帧和 $j$ 帧间的运动提示。

具体来说，去噪U-Net $\epsilon_{\theta}$ 作为输入噪声潜在表示 $z_{t}$ 目标帧 $I_{0}$ （采样的 $t$ 步向前扩散过程长度 $T$ ），扩散步骤 $t$ ，以及条件潜在表示 $z_{−1}$ ， $z_{+1}$ 相邻帧 $I_{−1}$ ， $I_{+1}$ 。它被训练为通过最小化来预测在每个时间步长 $t$ 中添加到 $z_{0}$ 中的噪声
$\mathcal{L}=\mathbb{E}[||\epsilon=\epsilon_{\theta}(z_{t},t,z_{-1},z_{+1},m_{-1\to0},m_{0\to +1})||^{2}]$
其中 $t\sim \mathcal{U}(1,T)$ 。 $\epsilon_{\theta}$ 的推导和训练过程的全部细节提供在附录A。训练是通过预先定义的噪声计划在 $z_{0}$ 中交替添加一个随机高斯噪声，并让网络 $\epsilon_{\theta}$ 预测在给定的步骤 $t$ 中添加的噪声，根据 $z_{−1}$ ， $z_{+1}$ 和 $m_{i\to j}$ 。

Training of De-noising U-net与VQ-MAGAN一致

4.4. MA-SAMPLING of MADIFF

如上所述，VQ-MAGAN和去噪U-net都是基于从插值帧和条件相邻帧中提取的帧间运动提示。在VQ-MAGAN和去噪U-Net的训练阶段，直接使用地面真实插值帧以强制的方式提取运动提示。然而，插值帧在采样阶段是未知的，使得在插值帧和相邻帧之间的帧间运动提示的提取不可行。而直接从给定的相邻帧中提取的运动提示往往是不准确的，不能提供足够的指导，导致如Tab. 6所述的次优性能。为了消除训练阶段和采样阶段之间运动线索提取的差异，使采样过程中的运动线索可用，我们提出了一种新的MA-SAMPLING。
在这里插入图片描述
在引入MA-SAMPLING之前，我们提供了一个审查抽样过程在以往LDM VFI任务[16]：在每个时间步长内，首先去噪U-net $\epsilon_{\theta}$ 预测基于邻近帧 $I_{-1}$ ， $I_{+1}$ 的潜在表示 $z_{−1}$ ， $z_{+1}$ 的噪声 $\tilde{\epsilon}$ 。则得到的 $\hat{z}_{0|t}$ 如下：
$\hat{\epsilon}=\epsilon_{\theta}(\hat{z}_{t},t,z_{-1},z_{+1})\\ \hat{z}_{0|t}=\hat{z}_{t}-\hat{\epsilon}$

其中 $\epsilon_{\theta}(.)$ 是去噪U-net， $\hat{z}_{0|t}$ 表示在时间 $t$ 步的预测 $z_{0}$ （特别是我们将 $\hat{z}_{0|1}$ 表示为 $\hat{z}_{0}$ ）， $\hat{z}_{t}$ 是采样过程中前一个时间步 $t + 1$ 得到的预测 $\hat{z}_{0|t+1}$ 的噪声潜在表示。而 $\hat{z}_{t}$ 可以通过使用 $\hat{\epsilon}$ 和预定义的正向过程的相关参数作为eq (3)来计算。最后，VQ-GAN的解码器利用编码器 $\mathcal{E}$ 从 $I_{−1}$ ， $I_{+1}$ 中提取的特征金字塔 $\phi_{-1}$ ， $\phi_{+1}$ ，从 $\hat{z}_{0|1}$ 中生成图像 $\hat{I}_{0}$ 。

MA-SAMPLING具有在插值帧和相邻帧之间合并精确的运动提示的能力，从而逐步细化预测的目标帧。具体地说，在时间步长 $t$ ，首先去噪U-net $\epsilon_{\theta}$ 预测噪声 $\tilde{\epsilon}$ 的潜表示， $z_{−1}$ , $z_{+1}$ 为条件相邻帧 $I_{−1}$ ， $I_{+1}$ ，额外的运动提示 $\hat{m}_{0\to+1|t+1}$ ， $\hat{m}_{-1\to0|t+1}$ 。 $\hat{z}_{0|t}$ 是
$\hat{\epsilon}=\epsilon_{\theta}(\hat{z}_{t},t, z_{−1},z_{+1}, \hat{m}_{-1\to0|t+1}, \hat{m}_{0\to+1|t+1})\\ \hat{z}_{0|t}=\frac{1}{\sqrt{\alpha}_{t}}(\hat{z}_{t}-\frac{1-\alpha_{t}}{\sqrt{1-\bar{\alpha}_{t}}}\hat{\epsilon})$
其中， $\hat{m}_{-1\to0|t+1}, \hat{m}_{0\to+1|t+1}$ 从预测的插值帧 $\hat{I}_{0|t+1}$ 和相邻帧 $I_{-1}$ 和 $I_{+1}$ 得到：
$\hat{I}_{0|t+1}=\mathcal{D}(\hat{z}_{0|t+1})\\ \hat{m}_{-1\to0|t+1}=f_{I2E}(I_{-1},\hat{I}_{0|t+1})\\ \hat{m}_{0\to+1|t+1}=f_{I2E}(\hat{I}_{0|t+1},I_{+1})\\$
$\hat{z}_{t-1}$ 可以使用 $\hat{\epsilon}$ 和预定义的正向过程的相关参数作为以往方法采样过程(3)来计算。特别是，在时间步长 $T$ 时，运动提示 $\hat{m}_{-1\to0|T+1}$ 和 $\hat{m}_{0\to+1|T+1}$ 都被空特征 $\mathbf{O}\in\mathbb{R}^{H\times W \times (2\times B)}$ 所取代。

最后，解码器 $\mathcal{D}$ 产生插值帧 $\hat{I}_{0|1}$ （简化表示 $\hat{I}_{0}$ ）从去噪潜在表示 $\hat{z}_{0|t+1}$ 即 $\hat{z}_{0}$ ，充分考虑功能金字塔 $\phi_{-1}$ ， $\phi_{+1}$ 提取编码器 $\mathcal{E}$ 从 $\hat{I}_{-1}$ ， $\hat{I}_{+1}$ 上下文的指导下运动提示 $\hat{m}_{-1\to0|1}$ , $\hat{m}_{0\to+1|1}$ 。在附录A中提供了完整的细节和伪代码。

5. Experiment

5.1. Detail & Setup as LDMVFI

5.3. Quantitative Comparison

在这里插入图片描述

5.4. Qualitative Comparison

在这里插入图片描述

5.5. Ablation Study

在这里插入图片描述

阿男官官

关注

23
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
[VFI&DIFF]Motion-aware Latent Diffusion Models for Video Frame Interpolation

提出MADIFF。对于VFI任务，相邻帧间的运动估计对避免运动模糊性起着至关重要的作用。然而，现有的VFI方法总是难以准确预测连续帧之间的运动信息，这种不精确的估计会导致帧模糊和视觉上不相干的插值帧。本文提出了一种新的扩散框架，运动感知潜在扩散模型（MADIFF），它是专门为VFI任务设计的。通过在整个扩散采样过程中结合条件相邻帧与目标插值帧之间的运动先验，MADIFF逐步细化中间结果，最终产生视觉上平滑和真实的结果。
复制链接

扫一扫