Deep Frame Prediction for Video Coding 个人理解

最新推荐文章于 2025-04-22 16:42:07 发布

cs_software_

最新推荐文章于 2025-04-22 16:42:07 发布

阅读量893

点赞数

文章标签：深度学习视频编解码

本文链接：https://blog.csdn.net/cs_softwore/article/details/100014209

版权

一、文章地址：https://arxiv.org/abs/1901.00062，已经被TCSVT2019接受。

二、概述。提出一个DNN网络进行视频编解码中的帧间预测，需要配合H265使用，可以认为是H265的一个补充、一个附加的工具，可以嵌入到H265。论文主要创新点：1、双向和单项预测融合到一个网络中；2、预测帧不需要额外的运动信息，有利于节省码流。

三、论文思想：

0、网络结构

本文的网络派生于文献Video Frame Interpolation via Adaptive Separable Convolution(ICCV2017)，网络可以分为10个处理模块，分别命名为B1、B2……B10，本文与Video Frame Interpolation via Adaptive Separable Convolution中的网络主要不同是增加了B1模块，就是在图片进行通道融合前，增加了T状态和两条路径的conv+ReLU处理。从网络结构中可以看出，利用本文提出的DNN进行预测需要两帧图片，为了保证通道分辨率一样，需要将图片格式转化为YUV444。

B1-B10模块的输入输出尺寸：

1、再讨论下增加的T状态，

T矩阵的大小为M*N(图像尺寸)状态有两个值，如果单项预测，分别取-20、-10，如果是双向预测，分别取-10、10。

2、skip结构

这里的skip结构并不是采用通道融合操作，而是特征相加，理解这一点，就可以理解table1中输入输出尺寸了。

3、B10有四个分支，输出特征后采用如下公式计算：

代表矩阵点乘，其中公式中的K可以通过以下两个公式获取：

4、损失。

本文采用了三种损失L2、感知损失、几何损失。其中感知损失采用VGG-19网络的relu4_4层作为特征提取函数。

几何特征采用图像的一阶导特征：

5、实验。

（1）训练过程采用预训练+finetune方法，先用少量小分辨率视频预训练，再采用大量大分辨率图片finetune。

（2）一些消融实验。

去掉T结构(temp idex)、adapt layer(B1)、skip结构、几何损失都会降低编码性能。

（3）在视频中的表现

从实验表格中可以看出，本文的帧预测方法可以节省一些码流，但是编解码时间大幅增加(表格最后两行)。这是在MS-SSIM指标相当的情况下相对节省的码流。此方法预测的帧的PSNR会比H265低很多，然后作者给出的解释是他们没有用到运动信息，通过我们近段时间的工作发现，深度学习编解码图片或视频，确实很难保证一个网络在PSNR和MS-SSIM两个指标上同时达到或超过H265的水平，所以作者给的理由只能说是自圆其说，也不知他们是否尝试将T结构的值换成运动信息。

本文还是做了很多工作的，我只是大概描述一些自己理解的东西，如果需要详细了解文章，可以精读原文。