（论文笔记）NeRV: Neural Representations for Videos

本文链接：https://blog.csdn.net/qq_43598044/article/details/127140099

简要介绍

提出了一种新的视频神经表示，在神经网络中编码视频，将视频表示为以帧索引作为输入的神经网络，编码过程是神经网络拟合视频帧，解码过程是简单的前馈操作。

主要内容

视频使用一系列帧来捕捉动态视觉场景，可以理解为2D空间中的曲线，每个点都可以用空间状态的（x，y）对来表示，如果已有一个（x，y）对模型，即给定x，可以获得对应的状态y。以此类推，可以将视频解释为视觉世界的记录，可以在其中找到每个时间戳对应的RGB状态。文章提出如下假设： NeRV假设
显示和NeRV的比较
如上图，左图视频的传统表示为帧序列，右图将视频表示为神经网络，由MLP和多个NeRV块组成。
基于时空坐标的INR为逐像素表示，输出每个像素的RGB值，而NeRV输出整个图像。给定大小为TWH的视频，逐像素表示需要对视频采样TWH次，而NeRV只需采样T次。对于高分辨率视频，NeRV在编码时间和解码速度上都会显示极大优势，NeRV利用MLP+ConvNets架构来输出图像，而逐像素表示使用简单的MLP输出像素的RGB值，NeRV简化了优化问题，并有了更好的重建质量。
NeRV可用于视频压缩，传统的视频压缩框架的解码过程较复杂，而NeRV将视频压缩转化为模型压缩问题，三个步骤：模型剪枝、模型量化、熵编码。
NeRV是可学习的隐函数，可用于去噪任务，并且已经证明了它对噪声和扰动的鲁棒性，给定带噪声的视频作为输入，无需任何的额外操作即可生成高质量的去噪输出，甚至优于传统的去噪方法。
网络结构
MLP直接输出所有像素值会产生巨大的参数，尤其是当分辨率很大时。因此NeRV在MLP后堆叠多个NeRV块，以便不同位置的像素可以共享卷积核，从而形成有效的网络。NeRV块由卷积层、激活层和一个上采样层（通过实验证明采用PixelShuffle 技术效果最好）组成。
。