TCSVT-2019-基于卷积神经网络的增强双向预测

本文来自TCSVT 2019的论文《Enhanced Bi-Prediction With Convolutional Neural Network for High-Efficiency Video Coding》

介绍

传统的平均加权运动补偿是基于时域匀速运动和空域匀速运动的假设,无法很好地描述旋转、仿射变换和变形等不规则运动;此外,传统的加权预测是pixel-to-pixel级别的预测,与patch-to-patch级别的预测对比如下图所示,可以清楚的看出patch-to-patch利用的信息比pixel-to-pixel利用信息更多,传统加权预测方法存在很大改进空间。

 本文提出采用基于CNN的融合方法来提高预测精度,如下图所示,使用CNN来替代传统的平均加权预测方法。

网络结构

网络结构如下所示,输入是前向预测块和后向预测块,网络输出为融合后的预测块。网络共6层卷积层,前五层采用Relu激活函数,并使用skip connection残差连接两个预测块的平均值。

  损失函数:MSE Loss

在HEVC中集成方法

对于Merge模式,由于Merge候选可能运动信息不准确,因此在率失真优化选择最佳候选MV时使用线性平均加权,选出最佳候选后使用CNN加权;对于AMVP模式,仅在运动估计后的加权预测使用CNN加权。

尽管HEVC中帧间编码块具有各种大小和非对称分区,但是根据统计数据,在双向预测中,大小为64×6432×3216×16Pus area占总area75%,因此本文将网络应用于大小分别为64×6432×3216×16亮度分量的预测单元。

 实验

本文针对不同Qp训练不同的模型,并对于训练数据集,采用两种数据扩充方法:

1. 下采样,双三次插值

2. 以小于CTU大小的步长移动帧,以生成不同的CTU划分,提高编码块的多样性

训练数据来自于HM16.15解码器,并将两个方向的预测值归一化到[0,1]作为网络的输入。

本文还针对网络的是否用skip connect结构、卷积核尺寸、卷积核数、卷积层数进行消融实验对比。

将网络集成到HM-16.15参考软件的性能如下图所示:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值