CVPR2021|FVC: A New Framework towards Deep Video Compression in Feature Space【论文阅读笔记】

作者

Zhihao Hu, Guo Lu, Dong Xu

相关链接

1.前言

这是2021年CVPR的一篇论文,作者来自北航,北理工和悉尼大学。文中提出了一个特征空间视频编码框架(FVC),其关键在于:这个视频压缩框架内所有主要的操作(运动估计,运动压缩,运动补偿和残差压缩)都是在特征空间实现的,带来了更进一步的视频压缩性能提升。

2.介绍

近年来,深度学习越来越多被用在视频压缩编码领域。比如Wu等人提出的基于插帧的压缩策略,但是其光流还是用的传统方法来
最近深度视频压缩方面的工作通过将深度神经网络应用于混合视频压缩框架,已经取得了令人印象深刻的结果。其大部分工作都只是依赖于像素级的操作(如运动估计和运动补偿)来减小冗余。可是这类像素级的范例会受到以下三个限制:1,很难得到精确的像素级光流信息,特别是带有复杂非刚性模式的视频;2.即使能够提取足够精确的运动信息,像素级运动补偿也可能引入额外的伪影;3.压缩像素级的残差信息仍然是一项不平凡的任务。
可变形卷积的最新进展表明在特征空间中对齐两个连续帧是可行的。基于卷积核的可学习位移图(即动态卷积核),可变形卷积可以决定从输入特征采样哪些位置。通过使用基于动态核的可变形卷积,我们可以更好地处理两个连续帧之间更复杂的非刚性运动模式,从而改善运动补偿的结果,并减轻后续残差压缩模块的负担。然而,将特征空间操作和可变形卷积无缝地结合到现有的混合深度视频压缩框架中,并以端到端的方式训练整个网络,仍然是一项不平凡的任务。
由此,文中提出一种新的特征空间视频压缩网络(FVC),可以通过在特征空间上的操作减少空时冗余。算法包含四部分:
(1)基于两个连续帧提取的表示估计运动信息(可变形卷积中卷积核的位移图)
(2)通过自编码器风格的网络(auto-encoder style network)来压缩位移图(offset maps),并将重构后的位移图用于可变形卷积操作,生成预测特征,用于更精确的运动补偿。
(3)采用另一种自编码器风格的网络压缩原始特征与预测特征之间的残差特征
(4)使用一种多帧特征融合模块,将多个之前帧的一组参考特征结合起来,实现更好的帧重建。

3.方法

在这里插入图片描述

3.1 Overview

整个视频压缩框架见上图所示。其包括3大步骤:1.deformable compensation;2.residual compression;3.multi-frame feature fusion。
整体流程:

3.2 Deformable Compensation

在这里插入图片描述

3.3 Multi-frame Feature Fusion

在这里插入图片描述

3.4 Residual Compression and Other Details

3.5 Loss Function

4.实验

4.1. Experimental Setup

4.2. Experimental Results

4.3. Ablation Study and Analysis

参考

码字不易,如果您觉得有帮助,欢迎点赞和收藏~~

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值