NeRV阅读

image.png

创新点:

传统方式将视频表示为帧序列。NeRV创新性的将视频表示为以帧索引为输入的隐式神经网络。
image.png
像素级表示对于输入的每个坐标输出每个像素的RGB。
NeRV对于输入的每个时间帧t输出整幅图像。
在时间t处的一帧,θ参数化的函数f。
image.png
NeRV在解码速度上表现出了极大的优势。
NeRV使用MLP+卷积网络架构输出图像,而像素级表示使用简单的MLP输出像素的RGB值。

局限性:

1.训练时间比传统视频压缩方法的编码时间更长。
2.神经网络的结构设计不是最优,对神经网络结构设计进行更多的探索可以获得更高的性能。

Architecture

image.png
image.png
NeRV将视频压缩转化为模型压缩,且不会显著恶化性能。
模型压缩的目的:通过减少参数的数量来简化原始模型,同时保持模型的准确性。

Embedding

将输入映射到高嵌入空间,可以更好地拟合高频变化的数据。
image.png
b和l为网络的超参数。
image.png

NeRV block

受超分辨率网络的启发,设计NeRV块,采用Pixel Shuffle技术进行升尺度。卷积层和激活层也被插入以增强表达能力。
image.png
不同位置的像素共享卷积核,形成一个高效的网络。
image.png

Loss

计算预测图像和真实图像的所有像素位置的损失。
image.png
fθ(t)是NeRV的预测,vt真实值,α是超参数。
image.png

Compression

image.png

Pruning

在过拟合的前提下,使用Pruning来减小模型的大小。
根据权重值的大小,将阈值以下的权重设置为零。image.png
θq是所有参数θ的q百分位值,在Pruning之后,对模型进行微调以重新获得表示。

Quantization

在训练过程之后进行量化。
image.png
μmax和μmin是输入张量μ的最大值和最小值,bit是量化模型的长度,scale是比例因子,round是就近舍入。
每个参数都可以量化到bit长度,因为μ的参数数量较大,存储scale和μmin的开销可以忽略。

Entropy Encoding

用熵编码进一步压缩模型大小,使得模型缩小10%左右。

Experiments

image.png
Training speed是时间/epoch,Encoding Time是总的训练时间。
S,M,L是不同大小的模型。
image.png
实验表明更大的epoch可以导致更好的过拟合结果,只要训练更多的epoch,最终的表现没有过拟合。
image.png
压缩性能对于不同尺寸的NeRV模型非常稳健。
prune到稀疏度为40%的模型仍然可以达到与完整模型相当的性能。
quant到8位的模型相对于32位的原始模型仍然保持了良好的视频质量。
image.png
BPP较小时能够匹配当前最先进的方法,显示了其在高速率视频压缩方面的巨大潜力。
BPP变大时,限制于GPU资源,性能差距大多是因为缺少充分的训练(2080ti)。
在相似的内存预算下,NeRV的图像细节质量更好。
image.png
视频去噪的PSNR结果。
为啥能给视频去噪?原理是啥?

  • 5
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值