基于神经网络的时域处理

155 篇文章 141 订阅
31 篇文章 5 订阅

本文来自提案JVET-V0090 《Neural network based temporal processing》,提出使用神经网络进行时域处理以增强输出图像的细节和预测图像的质量。

简介


在上篇文章中介绍了通过生成虚拟参考帧来提升运动预测质量的方法,但是参考帧的增加会提高计算复杂度。文中提出的时域处理模型不需要增加参考帧,通过对重建图像的处理既能提升输出图像的细节又能提高预测精度。它包含两个模型,第一个模型在输出前对解码图像进行处理,第二个模型对参考图像进行处理。

整体架构

Fig.1是整个架构,灰色格子里是两个模型。整个处理过程分为两个阶段:基于NN的重建、基于NN的帧间预测。第一个阶段是在deblocking后对重建图像使用神经网络处理,使得解码后的图像细节更丰富,输出的图像主观质量更好,模型的输入包括一个前向参考帧和一个后向参考帧,模型处理后的图像用于输出和放入DPB用于参考。第二个阶段对DPB中的参考图像进一步处理以提高帧间预测效果。

两个模型的结构是相同的,但是分别训练。模型包括两部分,PCD (Pyramid, Cascading and Deformable)用于提取时域和空域信息,TSA (Temporal and Spatial Attention)用于提高重要特征的注意力。第一个模型的损失函数是重建像素和原始像素的差值,第二个模型的损失函数是参考像素和下一帧像素的差值。Fig.2是两个模型的对比。

在PCD模块中,前后、后向参考帧和当前帧作为输入生成特征,然后计算当前帧的可变卷积的pixel offset map。TSA模块时域注意力机制会在embedding space计算帧的相似性,对更相似的帧提供更多注意力。

实验结果


实验平台选择VTM11,模型训练和推导的参数信息如下,

实验结果如下,

感兴趣的请关注微信公众号Video Coding

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值