(论文笔记)NeRV: Neural Representations for Videos

简要介绍

提出了一种新的视频神经表示,在神经网络中编码视频,将视频表示为以帧索引作为输入的神经网络,编码过程是神经网络拟合视频帧,解码过程是简单的前馈操作。


相关知识

二维图像最常见的显示表示为离散的像素点,但实际的图像信号是连续的。用连续函数去拟合连续信号是一种可行的方法,但连续函数的形式未知,随着神经网络的流行,用神经网络去拟合连续函数的这种表示方法被称为“隐式神经表示“ (Implicit Neural Representation,INR)。INR可以表示函数、图像、视频、体素:INR数学表示
对于图像,INR函数将二维坐标映射到rgb值。对于视频,INR函数将时刻t以及图像二维坐标xy映射到rgb值。对于一个三维形状,INR函数将三维坐标xyz映射到0或1,表示空间中的某一位置处于物体内部还是外部。当然还有其他形式,如NERF将xyz映射到rgb和sigma。总而言之,这个函数就是将坐标映射到目标值。


主要内容

`

视频使用一系列帧来捕捉动态视觉场景,可以理解为2D空间中的曲线,每个点都可以用空间状态的(x,y)对来表示,如果已有一个(x,y)对模型,即给定x,可以获得对应的状态y。以此类推,可以将视频解释为视觉世界的记录,可以在其中找到每个时间戳对应的RGB状态。文章提出如下假设:NeRV假设
显示和NeRV的比较
如上图,左图视频的传统表示为帧序列,右图将视频表示为神经网络,由MLP和多个NeRV块组成。
基于时空坐标的INR为逐像素表示,输出每个像素的RGB值,而NeRV输出整个图像。给定大小为TWH的视频,逐像素表示需要对视频采样TWH次,而NeRV只需采样T次。对于高分辨率视频,NeRV在编码时间和解码速度上都会显示极大优势,NeRV利用MLP+ConvNets架构来输出图像,而逐像素表示使用简单的MLP输出像素的RGB值,NeRV简化了优化问题,并有了更好的重建质量。
NeRV可用于视频压缩,传统的视频压缩框架的解码过程较复杂,而NeRV将视频压缩转化为模型压缩问题,三个步骤:模型剪枝、模型量化、熵编码。
NeRV是可学习的隐函数,可用于去噪任务,并且已经证明了它对噪声和扰动的鲁棒性,给定带噪声的视频作为输入,无需任何的额外操作即可生成高质量的去噪输出,甚至优于传统的去噪方法。
网络结构
MLP直接输出所有像素值会产生巨大的参数,尤其是当分辨率很大时。因此NeRV在MLP后堆叠多个NeRV块,以便不同位置的像素可以共享卷积核,从而形成有效的网络。NeRV块由卷积层、激活层和一个上采样层(通过实验证明采用PixelShuffle 技术效果最好)组成。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值