一、文章地址:https://arxiv.org/abs/1901.00062,已经被TCSVT2019接受。
二、概述。提出一个DNN网络进行视频编解码中的帧间预测,需要配合H265使用,可以认为是H265的一个补充、一个附加的工具,可以嵌入到H265。论文主要创新点:1、双向和单项预测融合到一个网络中;2、预测帧不需要额外的运动信息,有利于节省码流。
三、论文思想:
0、网络结构
本文的网络派生于文献Video Frame Interpolation via Adaptive Separable Convolution(ICCV2017),网络可以分为10个处理模块,分别命名为B1、B2……B10,本文与Video Frame Interpolation via Adaptive Separable Convolution中的网络主要不同是增加了B1模块,就是在图片进行通道融合前,增加了T状态和两条路径的conv+ReLU处理。从网络结构中可以看出,利用本文提出的DNN进行预测需要两帧图片,为了保证通道分辨率一样,需要将图片格式转化为YUV444。
B1-B10模块的输入输出尺寸:
1、再讨论下增加的T状态,
T矩阵的大小为M*N(图像尺寸)状态有两个值,如果单项预测,分别取-20、-10,如果是双向预测,分别取-10、10。
2、skip结构
这里的skip结构并不是采用通道融合操作,而是特征相加,理解这一点,就可以理解table1中输入输出尺寸了。
3、B10有四个分支,输出特征后采用如下公式计算:
代表矩阵点乘,其中公式中的K可以通过以下两个公式获取:
4、损失。
本文采用了三种损失L2、感知损失、几何损失。其中感知损失采用VGG-19网络的relu4_4层作为特征提取函数。
几何特征采用图像的一阶导特征:
5、实验。
(1)训练过程采用预训练+finetune方法,先用少量小分辨率视频预训练,再采用大量大分辨率图片finetune。
(2)一些消融实验。
去掉T结构(temp idex)、adapt layer(B1)、skip结构、几何损失都会降低编码性能。
(3)在视频中的表现
从实验表格中可以看出,本文的帧预测方法可以节省一些码流,但是编解码时间大幅增加(表格最后两行)。这是在MS-SSIM指标相当的情况下相对节省的码流。此方法预测的帧的PSNR会比H265低很多,然后作者给出的解释是他们没有用到运动信息,通过我们近段时间的工作发现,深度学习编解码图片或视频,确实很难保证一个网络在PSNR和MS-SSIM两个指标上同时达到或超过H265的水平,所以作者给的理由只能说是自圆其说,也不知他们是否尝试将T结构的值换成运动信息。
本文还是做了很多工作的,我只是大概描述一些自己理解的东西,如果需要详细了解文章,可以精读原文。