基于神经网络的时域处理

最新推荐文章于 2023-04-06 16:07:09 发布

Dillon2015

最新推荐文章于 2023-04-06 16:07:09 发布

阅读量1.4w

点赞数 1

分类专栏： H.266/VVC 视频编码深度学习文章标签：神经网络深度学习帧间预测

本文链接：https://blog.csdn.net/dillon2015/article/details/125548728

版权

视频编码同时被 3 个专栏收录

216 篇文章 56 订阅

订阅专栏

H.266/VVC

155 篇文章 141 订阅

订阅专栏

深度学习

31 篇文章 5 订阅

订阅专栏

本文来自提案JVET-V0090 《Neural network based temporal processing》，提出使用神经网络进行时域处理以增强输出图像的细节和预测图像的质量。

简介

在上篇文章中介绍了通过生成虚拟参考帧来提升运动预测质量的方法，但是参考帧的增加会提高计算复杂度。文中提出的时域处理模型不需要增加参考帧，通过对重建图像的处理既能提升输出图像的细节又能提高预测精度。它包含两个模型，第一个模型在输出前对解码图像进行处理，第二个模型对参考图像进行处理。

整体架构

Fig.1是整个架构，灰色格子里是两个模型。整个处理过程分为两个阶段：基于NN的重建、基于NN的帧间预测。第一个阶段是在deblocking后对重建图像使用神经网络处理，使得解码后的图像细节更丰富，输出的图像主观质量更好，模型的输入包括一个前向参考帧和一个后向参考帧，模型处理后的图像用于输出和放入DPB用于参考。第二个阶段对DPB中的参考图像进一步处理以提高帧间预测效果。

两个模型的结构是相同的，但是分别训练。模型包括两部分，PCD (Pyramid, Cascading and Deformable)用于提取时域和空域信息，TSA (Temporal and Spatial Attention)用于提高重要特征的注意力。第一个模型的损失函数是重建像素和原始像素的差值，第二个模型的损失函数是参考像素和下一帧像素的差值。Fig.2是两个模型的对比。