论文阅读：(CVPR 2022) Motion-Adjustable Neural Implicit Video Representation

最新推荐文章于 2024-06-22 10:55:53 发布

倘若我问心无愧呢丶

最新推荐文章于 2024-06-22 10:55:53 发布

阅读量1.2k

点赞数 1

分类专栏：论文阅读文章标签：计算机视觉人工智能 python

原文链接：https://mai-t-long.com/Phase_NIVR/index.html

版权

论文阅读专栏收录该内容

23 篇文章

订阅专栏

Motion-Adjustable Neural Implicit Video Representation

Abstract

隐式神经表征(INR)已成功表征静态图像。当代基于图像的INR，通过使用基于傅里叶的位置编码，可以被视为从具有不同频率的正弦模式到图像内容的映射。受此观点的启发，我们假设可以通过替换其输入的正弦模式来生成基于单个图像的INR模型的时间变化内容。利用正弦函数中的相位信息与其位移之间的关系，在传统的基于图像的INR模型中加入了变相位位置编码模块,并将其与相移产生模块耦合，该模块确定每帧的相移值。该模型在视频上进行端到端训练，通过将相移正弦函数映射到对应帧，共同确定每次的相移值，实现隐式视频表示。大量视频实验表明，这种模型能够学习将相位变化的位置嵌入解释为相应的时变内容嵌入。更重要的是，我们发现学习的相移矢量往往捕获有意义的时间和运动信息的视频。特别是，控制相移矢量会导致产生的视频的时间动态发生有意义的变化，持非平凡的时间和运动编辑效果，如时间插值、运动放大、运动平滑和视频循环检测。

1. Introduction

最近，内隐神经表征(INR)成为表征视觉数据的一种强大范式[19,20,29,30,34]。值得注意的是，最近已经成功地将INR用于二维图像的表示，用于图像处理和合成[1,5,6]。基于图像的INR采用基于坐标的多层感知器(MLP),通常使用基于傅里叶的位置编码，将2D像素坐标映射到相应的颜色值。已有的研究也对基于视频的INR进行了研究，认为它是基于图像的INR的自然扩展[15,29]。这种方法使用时间作为coordinateMLP模型的额外输入坐标，有效地将视频视为一个3D体积,没有在视频帧之间显式建模固有的时间连接。

另外，在计算机视觉研究中，视频通常被认为是一组随时间变化的图像序列[23,32]。本研究从这个角度探讨了基于视频的INR。我们研究了是否有可能利用基于图像的INR来生成由两个观察结果激发的时间变化的视频内容。首先，基于图像的INR使用基于傅里叶的位置编码[34]，将不同频率的正弦模式映射到二维图像内容。改变输入正弦波必然会导致产生的输出也相应改变。因此，原则上可以通过改变单个基于图像的INR的正弦函数来生成一个随时间变化的图像序列。其次，正弦函数的位移可以用它们相位角的位移进行数学建模。因此，时变正弦信号可以通过在不同时间分配不同的相移来实现。

基于这些观察，我们为视频开发了一种隐式神经表征。我们以基于图像INR的帧级方式对像素生成过程建模，并利用其位置编码中的相位信息来生成时间变化的视频内容。该模型由帧生成模块和移相生成模块两部分组成。我们的帧生成模块将每个像素坐标 $C = (x, y)$ 映射到颜色值 $M_f (c)$ 在接收平面对应的坐标上。这个帧生成模块是一个标准的基于图像的INR模型，对其位置编码(PE)操作进行了最小但重要的修改。与标准INR不同，我们PE中的每个正弦函数都不是静态的，而是在每次 $t$ 时由一个相移矢量 $\phi(t)$ 进行移动。其中的映射 $\phi$ 是由相移生成模块 $M_p$ 生成的，端到端与 $M_f$ 联合训练。经过训练， $M_p$ 可以提供视频中每个对应帧的每帧相移矢量。在进入帧生成阶段之前，可以对那些学习到的相移矢量进行外部操作，从而可能通过修改动力学实现新的生成内容。这使得我们的神经内隐视频表示具有运动可调性。

在提出的神经内隐视频表示方法中，我们主要围绕两个问题进行研究。首先，模型能否适应视频? 与空间坐标编码在帧间固定的标准INR方法相比，帧生成模型的输入坐标编码在帧与帧之间不断变化，这使得记忆每个位置的像素值更具挑战性。第二，学习的相空间有任何有意义的结构吗? 由于每一个时间的图像内容都与相移矢量相关联，所以我们很有兴趣去看看，是否操纵学习到的每帧相移序列可以在生成的视频中产生有意义的变化。我们对不同视频内容的实验给出了肯定的答案。我们发现，该模型可以学习将学习到的变相位位置编码解释为相应的时变视频内容。有趣的是，我们发现所得到的相空间对应着视频中有意义的信息。操作生成的相移矢量可以从视频中实现不同的时间动力学效果，如时间插值、运动幅度调整和运动滤波，如图1所示。
在这里插入图片描述
本文的贡献如下：

我们引入了一种运动可调的神经隐式视频表示方法。我们的表示法没有将时间维度等同为空间维度，而是将时间映射到驱动信号来调制帧生成过程，有效地适应规则的基于图像的INR来生成时间变化的视频内容。
我们报告了一个有趣的发现，即基于傅里叶的位置编码中的相位信息可以灵活地用于捕获视频中的时间动态。我们的工作增加了在INR中使用基于傅里叶的位置编码的研究，补充了先前研究频率信息在基于傅里叶的位置嵌入中的作用的工作。
我们对各种真实世界的视频进行了实验，证明我们的神经隐式视频表示不仅可以表示视频，还可以允许修改视频内容的某些时间动力学方面，使运动可调神经隐式视频表示可能对视频处理应用有用。

2. Related Work

内隐神经表示已经被证明是一种强大的表示视觉数据的方法，例如三维数据建模和图像表示。基于图像的INR框架已经被开发用于许多应用，包括图像压缩[6]、超分辨率[5]和图像合成[1,31]。在这篇论文中，我们专注于探索一种运动可调的神经内隐视频表示。不同于标准的方法推广基于图像的INR方法去拟合一个3D视频体素，我们在一个常规2D基于图像的INR中，利用基于傅里叶的位置编码中的相位信息来学习时变视频内容。

面向3D动态场景的隐神经表示： 继神经辐射场的巨大成功后，很多方法将NeRD拓展到建模视频数据的3D时变场景。沿这条线的现有作品通常将视频帧视为动态3D场景在图像平面上的投影。这些方法明确地建模3D场景和每帧相机姿势。本文研究的是在没有任何三维场景和摄像机信息的更轻松的环境下，采用基于图像的INR模型来捕获视频中不变变化的内容。

基于傅里叶特征的位置编码： 位置编码(position encoding, PE)是指通过将低维输入坐标映射到高维向量来表示位置信息的机制，通常是通过一组正弦函数。最初是由Vaswani等人制作的。
通过他们的Transformer论文[37]，位置编码也被证明对隐式神经表示模型[19]至关重要。最近的工作研究了PE中的频率成分对模型拟合质量的重要性[29,34]。我们的工作增加了INR中基于傅里叶特征的位置编码的研究，表明除了频率信息，基于傅里叶的PE中的相位信息也可以用来实现视频建模。

基于相位的运动建模： 我们的工作部分灵感来自基于相位的运动处理的丰富文献[7,10,17,18,38]。这些工作建立在视频中的运动信息与其相位信息之间的联系上，这些相位信息通过频域提取分析[39]实现各种运动编辑应用，如运动估计[7,10]、运动放大[38]和帧插值[17,18]。在本文中，我们探索了利用嵌入在基于傅里叶的位置编码中的相位信息的可能性，以帮助隐式神经表示模型学习视频数据中的时间动态信息。

3. Neural Impliciti Video Representation

我们首先回顾了基于图像的INR，并受启发使用相移生成时间变化的内容。基于图像的INR将图像表示为一个连续函数 $\to v$ ，其中 $c = (x, y)$ 表示归一化图像平面上的二维坐标， $v = (R, G, B)$ 为对应的颜色值。映射函数 $f$ 由多层感知器（MLP） $M_f$ 的权值参数化。在实践中，输入坐标 $c$ 首先通过位置编码器模块映射到高维向量 $γ$ 。然后 $M_f$ 将产生的位置编码映射到最终的颜色值 $v$ (图2左)。我们采用了广泛使用的基于傅里叶的位置编码方案[13,19,37]，该方案通过将c的正弦函数级联形成编码 $c$

在这里插入图片描述

在这里插入图片描述
运动可调的神经隐式视频表示。我们将基于图像的隐神经表示扩展建模一个视频。我们使用相移生成网络 $M_p$ 确定每个 $t$ 时刻的相移量 $\phi (t)$ 。帧生成网络 $M_f$ 根据位置嵌入编码和相移量 $\phi (t)$ 生成相对应的视频帧。在推断过程，可以曹总其中的相移量 $\phi (t)$ 来生成带有修改动态的新视频。

3.1 Neural Implicit Video Representation

正弦函数的唯一可以通过改变相位角来实现。据此，我们共同确定了每次的相移值，以及将相移位置编码映射到相应视频帧的基于图像的INR模型，如图2右边所示。这就引出了神经隐式表示，接下来我们介绍两个主要组件。

帧生成： 帧生成模型 $M_f$ 产生每个2D视频帧。为了方便基于图像的INR， $M_f$ 使用一个带有傅里叶位置编码的坐标MLP将2D坐标 $c$ 映射到相应的像素值。为了确保在每个不同的时刻生成不同的视频内容，我们修改了它的位置编码模块，以支持基于相位的位置编码。 具体地说，我们在每个正弦函数中加入一个显式的相移项。因此，将式2中的每频率位置嵌入修改为
在这里插入图片描述
其中 $\phi_i (t)$ 是一个二维向量，表示时刻t下相位移动的第 $i$ 个分量。通过这个微小的改变，Mf可以在不同时间对同一 $(x, y)$ 坐标生成不同的值，将一种图像生成模型用于视频生成。

相移生成： 我们用一个神经网络 $M_p$ 将时刻 $t$ 映射到相移 $\phi (t)$ 。由于映射具有连续性，我们将 $M_p$ 设置为一个1D的隐式神经表示。具体而言，输入t首先使用公式一的常规位置编码映射到一个位置嵌入 $\gamma (t)$ 。然后由MLP处理产生的位置嵌入，以生成输出其中的 $\phi (t)$ 。

模型训练： 在每次训练迭代中，我们随机抽取一个视频帧 $v_i$ 和它的帧索引 $i$ ，将其归一化到 $[- 1, 1]$ 并通过我们的模型生成帧 $\hat{V_i}$ 。模型根据以下重构损失函数训练：
在这里插入图片描述
前一项是简单的L1损失，后一项是感知损失，即 $\Phi (\cdot)$ 表示由与训练VGG-19提取的特征图。均衡参数设置为0.2。在训练过程中，以不对称的方式优化两个MLP是有益的。特别地，我们只在视频中平均采样的帧数的一半上更新两个网络的参数。对于剩余的帧，我们只更新相移产生网络 $M_p$ 的参数在反向传播时冻结 $M_f$ 参数。这样， $M_f$ 避免了对所有帧的过拟合，同时仍然能够指导 $M_p$ 的更新，从而可以正确解释预测的相移来生成保持帧。我们发现这样的非对称训练程序对于学习结构良好的相空间至关重要。

4. Experiments

4.1 Implementation Details

两个MLP都是五个隐藏层然后每层各256个隐藏单元。每一层用的都是Sin激活函数。对于帧生成网络，输出层有三个神经元，输出相对应的RGB值。每个神经元后跟了一个Tanh激活函数将输出压缩到[-1,1]。对于相移生成网络 $M_p$ ，输出神经元的数量是位置编码中频率通道数量的两倍。位置编码的频率通道数N由输入视频每维的采样个数L决定， $N = [log_2(L) + i_0]$ ，以此来考虑奈奎斯特采样率。时间维度取L为视频的长度，空间维度取帧的小边。（应该是视频空间分辨率比较小的那一边的长度）在公式二和公式三中，我们将 $i_0 =1$ 用于所有实验。ADAM优化器，学习率0.0001，6000个epoch。在一个NVIDIA 2080Ti GPU上训练一个分辨率为256 × 452的120帧视频需要大约18个小时。

4.2 Learning to Fit Video Data

我们研究了将变相位置编码和生成的相移相结合是否会损害模型对视频数据的拟合能力。与标准的INR公式相比，由于输入空间坐标的位置嵌入在帧间不断变化，我们的模型在拟合坐标-颜色映射方面更具挑战性。我们对来自WAIC-TSR数据集[22]的25个视频进行了神经隐式视频表示(阶段- nivr)测试，该数据集涵盖了不同的内容和运动类型。对于每个视频，我们使用前120帧并调整它们的大小，使小边为128像素。

为了比较，我们还直接拓展了一个INR到视频，命名为Direct-VINR，它包含t作为额外的输入坐标。我们使用与我们的模型中相同的模型架构进行实验Direct-VINR。我们在数据集中的每个视频上训练这两个模型，并从它们的重构视频中计算PNSR/SIIM重构得分。结果(32.5 /0.905 vs 31.98/0.897)表明我们的方法与Direct-VINR的性能相当。这表明，结合相位变化的位置编码，虽然使学习问题对映射网络更具挑战性，但并不妨碍模型拟合视频。图3显示了一些重建的示例视频的30帧片段。与数值分数一致，我们观察到从两种方法重建的视频往往具有相当的视觉质量。
在这里插入图片描述

4.3 Phase-based Motion Manipulation

前面的实验展示了我们的模型将每帧相位信息映射到帧内容的能力。然而，目前还不清楚学习阶段是否捕获了有意义的时间动态结构或只是作为模型记忆框架内容的索引。在本节中，我们检查如何操作产生的相移序列 $\phi (t)$ 影响输出帧中的变化。

时域插值： 我们研究插值两个相移矢量是否对应于视频域中有意义的插值。我们在WAIC-TSR数据集中选取了5个覆盖不同场景类型且重建质量良好的视频(PSNR≥28.5)。我们从每个采样的视频中提取120帧，以原始帧率的一半重新训练我们的模型。在这个测试中，我们在调整为256 × 452的视频帧上训练模型，以便观察到更多的细节。经过训练，我们使用 $M_p$ 在每次t时刻生成相移矢量，并在每对连续相移矢量之间进行插值，得到插值后的相移序列。我们使用球面线性插值来解释相位[27]的圆性质。所得到的相移序列用于帧生成模块 $M_f$ 来生成最终帧。
在这里插入图片描述
图4显示了插值后的视频结果。为了便于检查，视频在图中设置为每秒两帧。首先，可以观察到插值帧具有与原始帧相当的视觉质量。这表明该模型确实可以将内插相移矢量的位置嵌入解释为可信的视频内容，而不是将它们视为非分布样本。第二，帧的外观连续变化，表明该模型可以关联相移矢量的变化改变视频域的变化，而不是简单地从最近的帧中复制内容。最后，我们检查插值帧是否为相应相邻帧的像素空间平均结果。我们发现，通常情况下插值帧与帧平均结果是不同的(注意图4中平均结果中冰立方周围的鬼影)。我们观察到，当运动足够小时，插值的视频确实捕获了插值的运动。然而，对于较大的帧间运动，该模型可能无法识别跨帧的相应大运动区域作为单一运动的一部分。在这些情况下，插值倾向于减少为一个混合操作，导致可以在“跑步者”序列中观察到的偶尔的重影工件(图4最上面一行中的第三个例子)。

运动滤波： 之前的插值检验表明，学习到的相移矢量可以与视频内容的时间状态相关联。此外，我们还做了一个简单的实验来测试低通滤波后学到的移相序列是否能够平滑视频中的运动。对于这个测试，我们收集了一些在较长的运动轨迹上有一些抖动的物体运动的视频，例如音叉在移动时振动(图1(右下))。在对每个视频训练我们的模型后，我们将生成的相移序列视为一个多维时间序列，并对其应用一个时间窗口大小为7的中值滤波器。利用滤波后的相移序列和帧生成模型Mf合成新视频。

我们观察到，滤波学习的相移序列导致产生的视频与减少高频抖动，而大尺度的运动被保留。请注意，图1(右下)中音叉的整体上下运动被保留了下来，而它的振动基本上被消除了。此外，图5中的基础混凝土平台是稳定的，但其整体运动方向保持不变。