HNeRV阅读

image.png

NeRV的缺点:

1.位置嵌入没有与框架的内容相结合,内容不可知。
2.模型参数分布不均,靠后层(接近输出)比靠前层(接近嵌入)具有更少的参数。
这也是隐式表达共同的缺点:以牺牲可泛化性为代价,具有简单性。

HNeRV优点:

1.用可学习的编码器生成内容自适应的嵌入。
2.引入HNeRV block,构建参数在整个网络上分布较为均匀的视频解码器。
3.HNeRV对帧的顺序没有依赖,可以有效地随机访问帧来并行解码帧。
image.png

HNeRV局限性:

1.将视频存储为一个神经网络,对于新的视频,需要训练来适应。
2. 最佳的嵌入和模型大小以及网络架构仍然是一个开放的问题。
3.增加靠后层的参数提高了性能,但运行速度减慢
image.png
紧凑性(ppp),重建质量(PSNR),解码速度(FPS)。
Ppp计算:模型参数量/视频的像素数量。

Architecture

image.png
与NeRV只输入时间帧t不同,HNeRV输入的是一帧帧图片或者视频信息。
图片经过可学习的ConvNeXt blocks,得到微小的嵌入,即图中的Embed(这指的是一个数据结构,而不是一个embde block),在输入给创新的HNeRV blocks得到decoder后的图片。
创新的HNeRV block和NeRV的区别只在于卷积核大小以及输出的通道数不同,目的是得到更均衡的模型参数。image.png
NeRV块使用固定的K = 3,且Cout = Cin / 2。
对于后面的层,参数很少,不足以存储高分辨率的视频内容。

Downstream

压缩:

与NeRV的压缩基本相同,但Prune会使大部分参数权重为0,后续熵编码的时候有误差。
image.png
image.png
什么意思?是说不用Prune+Entropy了?
代码中也只找到Quant的代码。

视频修复:

对于部分失真视频,只计算非遮蔽像素的损失。
image.png
M是掩码,其中失真像素为1,其他为0。

Experiments

image.png
将Kmax = 5的NeRV记为(1,5),因为FC层可看作1*1的卷积层。
image.png
创新的HNeRV层使得靠后层的参数量增加。但也不算很均匀啊?
image.png
大多数压缩方法以自回归的方式对帧进行编码和解码,不能随机访问帧。
HNeRV可以并行解码,解码时间随解码帧数线性减少。
相比之下,H.264和H.265仍然需要对大部分帧进行解码,即使只需要其中的一部分。

  • 5
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值