NeRV阅读_nerv 视频压缩-CSDN博客

本文链接：https://blog.csdn.net/qq_49130177/article/details/138193569

NeRV提出了一种新颖的视频表示方法，利用隐式神经网络表示视频帧，具有快速解码的优势。文章探讨了其优点如模型压缩和高效架构，但也指出了训练时间和神经网络结构的局限性。实验结果显示，即使在压缩后，NeRV在视频质量和压缩性能上表现出色。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

创新点：

传统方式将视频表示为帧序列。NeRV创新性的将视频表示为以帧索引为输入的隐式神经网络。

像素级表示对于输入的每个坐标输出每个像素的RGB。
NeRV对于输入的每个时间帧t输出整幅图像。
在时间t处的一帧，θ参数化的函数f。

NeRV在解码速度上表现出了极大的优势。
NeRV使用MLP+卷积网络架构输出图像，而像素级表示使用简单的MLP输出像素的RGB值。

局限性：

1.训练时间比传统视频压缩方法的编码时间更长。
2.神经网络的结构设计不是最优，对神经网络结构设计进行更多的探索可以获得更高的性能。

Architecture

NeRV将视频压缩转化为模型压缩，且不会显著恶化性能。
模型压缩的目的：通过减少参数的数量来简化原始模型，同时保持模型的准确性。

Embedding

将输入映射到高嵌入空间，可以更好地拟合高频变化的数据。

b和l为网络的超参数。

NeRV block

受超分辨率网络的启发，设计NeRV块，采用Pixel Shuffle技术进行升尺度。卷积层和激活层也被插入以增强表达能力。

不同位置的像素共享卷积核，形成一个高效的网络。

Loss

计算预测图像和真实图像的所有像素位置的损失。

fθ(t)是NeRV的预测，vt真实值，α是超参数。

Compression

Pruning

在过拟合的前提下，使用Pruning来减小模型的大小。
根据权重值的大小，将阈值以下的权重设置为零。
θq是所有参数θ的q百分位值，在Pruning之后，对模型进行微调以重新获得表示。

Quantization

在训练过程之后进行量化。

μmax和μmin是输入张量μ的最大值和最小值，bit是量化模型的长度，scale是比例因子，round是就近舍入。
每个参数都可以量化到bit长度，因为μ的参数数量较大，存储scale和μmin的开销可以忽略。

Entropy Encoding

用熵编码进一步压缩模型大小，使得模型缩小10%左右。

Experiments

Training speed是时间/epoch，Encoding Time是总的训练时间。
S,M,L是不同大小的模型。

实验表明更大的epoch可以导致更好的过拟合结果，只要训练更多的epoch，最终的表现没有过拟合。

压缩性能对于不同尺寸的NeRV模型非常稳健。
prune到稀疏度为40%的模型仍然可以达到与完整模型相当的性能。
quant到8位的模型相对于32位的原始模型仍然保持了良好的视频质量。

BPP较小时能够匹配当前最先进的方法，显示了其在高速率视频压缩方面的巨大潜力。
BPP变大时，限制于GPU资源，性能差距大多是因为缺少充分的训练(2080ti)。
在相似的内存预算下，NeRV的图像细节质量更好。

视频去噪的PSNR结果。
为啥能给视频去噪？原理是啥？