Deep Frame Prediction for Video Coding 个人理解

一、文章地址:https://arxiv.org/abs/1901.00062,已经被TCSVT2019接受。

二、概述。提出一个DNN网络进行视频编解码中的帧间预测,需要配合H265使用,可以认为是H265的一个补充、一个附加的工具,可以嵌入到H265。论文主要创新点:1、双向和单项预测融合到一个网络中;2、预测帧不需要额外的运动信息,有利于节省码流。

三、论文思想:

0、网络结构

本文的网络派生于文献Video Frame Interpolation via Adaptive Separable Convolution(ICCV2017),网络可以分为10个处理模块,分别命名为B1、B2……B10,本文与Video Frame Interpolation via Adaptive Separable Convolution中的网络主要不同是增加了B1模块,就是在图片进行通道融合前,增加了T状态和两条路径的conv+ReLU处理。从网络结构中可以看出,利用本文提出的DNN进行预测需要两帧图片,为了保证通道分辨率一样,需要将图片格式转化为YUV444。

B1-B10模块的输入输出尺寸:

1、再讨论下增加的T状态,

T矩阵的大小为M*N(图像尺寸)状态有两个值,如果单项预测,分别取-20、-10,如果是双向预测,分别取-10、10。

2、skip结构

这里的skip结构并不是采用通道融合操作,而是特征相加,理解这一点,就可以理解table1中输入输出尺寸了。

3、B10有四个分支,输出特征后采用如下公式计算:

 

代表矩阵点乘,其中公式中的K可以通过以下两个公式获取:

4、损失。

本文采用了三种损失L2、感知损失、几何损失。其中感知损失采用VGG-19网络的relu4_4层作为特征提取函数。

几何特征采用图像的一阶导特征:

5、实验。

(1)训练过程采用预训练+finetune方法,先用少量小分辨率视频预训练,再采用大量大分辨率图片finetune。

(2)一些消融实验。

去掉T结构(temp idex)、adapt layer(B1)、skip结构、几何损失都会降低编码性能。

(3)在视频中的表现

从实验表格中可以看出,本文的帧预测方法可以节省一些码流,但是编解码时间大幅增加(表格最后两行)。这是在MS-SSIM指标相当的情况下相对节省的码流。此方法预测的帧的PSNR会比H265低很多,然后作者给出的解释是他们没有用到运动信息,通过我们近段时间的工作发现,深度学习编解码图片或视频,确实很难保证一个网络在PSNR和MS-SSIM两个指标上同时达到或超过H265的水平,所以作者给的理由只能说是自圆其说,也不知他们是否尝试将T结构的值换成运动信息。

本文还是做了很多工作的,我只是大概描述一些自己理解的东西,如果需要详细了解文章,可以精读原文。

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值