基于深度学习的参考帧生成

155 篇文章 135 订阅
31 篇文章 5 订阅

本文来自提案JVET-T0058和JVET-U0087,该方法通过插帧的方法生成虚拟参考帧用于帧间预测。整个模型由几个子模型组成,分别进行光流估计、补偿和细节增强。

整体架构

整体架构如Fig.1所示,在视频编码过程中DPB中存着用于运动估计的参考帧,根据GOP结构当前帧有一个或多个前向、后向参考帧。提案中默认使用POC距离当前帧最近的两个参考帧生成虚拟参考帧,如Fig.1中当前帧POC是5,则使用POC为4和6的帧生成参考帧。生成的虚拟参考帧会被放入DPB用于参考,虚拟参考帧的POC设置为和当前帧相同。为了防止影响时域MVP中根据POC距离的MV缩放过程,虚拟参考帧的MV都设为0且被用作长期参考帧。在提案中,当前帧解码完成后虚拟参考帧就从DPB中移除。

对于高分辨率序列(4K或8K)由于资源受限不能对整帧直接使用神经网络处理,此时假设虚拟参考帧被分为多个区域,每个区域单独使用网络生成,然后将这些区域拼成参考帧。

网络模型


一般的视频插帧大都利用了光流估计和补偿,一般使用双向光流方法,然后通过一个线性模型将两个光流合成一个。提案中仅使用单光流模型。

如Fig.2,首先通过光流估计模型生成光流(输入为POC距离最近的两个参考帧),然后通过backward warping过程处理光流,处理后的光流和两个参考帧再通过fusion过程合成中间帧。中间帧会通过细节增强模型提升质量,细节增强模型包含两部分,PCD(Pyramid, Cascading and Deformable)用于时空优化和TSA (Temporal and Spatial Attention)用于提高重要特征的attention。

实验结果

感兴趣的请关注微信公众号Video Coding

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值