VCIP2021:基于神经网络的双向预测blending过程

本文来自VCIP2021论文《Neural Network based Inter bi-prediction Blending》

介绍


双向预测最终会产生两个MV和两个参考块,这两个参考块通过加权最终形成一个预测块,这个过程即为blending。双向预测能减少编码失真、亮度变化、块内小运动引起的误差。

VVC中提出了多种工具来提升双向预测过程的表现,例如BCW技术对两个参考块分别赋予一个权重,最终的预测块由两个参考块加权生成,相比在HEVC中进行双向预测时预测值等于前向预测值和后向预测值的均值,BCW的加权预测效果更好,同时为了降低复杂度BCW使用一组固定权重{-1/4,3/8,1/2,5/8,5/4}。另一个技术是BDOF,基于光流的概念计算出来的运动修正值来调整4x4子块的双向预测值。还有一个技术是几何划分GPM,每个像素的权重取决于它到边界的距离。最后还有一个技术是CIIP,它将帧内预测和帧间预测结合了起来。

基于神经网络的双向预测blending


简介


论文提出使用神经网络来进行双向预测时两个参考块的blending过程。网络模型通过全连接神经网络构成,输入是两个参考块,输出是最终的预测块,网络结构如Fig.1所示。

应用条件:

该方法不需要在码流中传输额外信息,但是需要一些条件限制其是否开启。由于该方法和BDOF不兼容,所以论文中关闭了BDOF。且该模型仅在亮度分量上训练,对于色度分量还是使用原始的blending方法。为了平衡复杂度,设置了三个档次的开启条件,如表1所示。

实验结果


训练数据集使用BVI-DVC和UVG数据集,使用STAD作为loss 函数,使用Hadamard矩阵进行变换。具体信息如表4所示。

实验平台使用VTM11.0,QP={22,27,32,37,42}。

模型大小比较

首先比较网络大小的影响,使用RA配置,从表5和表6可得,大模型的gain增加了0.5%但是解码复杂度增加了40%

不同配置比较

表7和表8比较了不同配置下的效果,

LDB配置

一个有趣的现象,该工具在LDB配置下也会有增益,如表9,在LDB配置下两个参考帧都来自前面,而BDOF在LDB配置下效果不好。

该工具在VTM上相比于BDOF的效果如表10,BD-Rate增益2.2%以上。

感兴趣的请关注微信公众号Video Coding

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值