Learning to Compress Videos without Computing Motion 个人理解

文献地址:https://arxiv.org/pdf/2009.14110.pdf

目录

一、概述

二、文章贡献

三、论文思想

四、实验

五、结论与总结


一、概述

同样是端到端的利用深度学习来解决视频编解码问题,提供了一个新的思路:不进行运动估计的情况下进行视频压缩。

二、文章贡献

1、无论输入视频帧的尺寸或所需的压缩率如何,我们框架的所有模块都仅从端到端进行了一次训练;

2、创新性地利用位移差异来捕捉运动,避免了运动估计和运动压缩的计算开销;

3、组合LTSM-UNet有效地捕获了空间和时间信息,用于从抽象的视频代码中重新创建视频帧;

4、整个视频压缩系统使用单个损失函数共同优化。

三、论文思想

首先,看一下整体框架:

视频片段划分:将视频帧划分成GOP,第一帧为主帧,其余帧为非主帧。

再次,整个算法总共有三个子模块:

1、Displacement Calculation Unit (DCU) 位移计算单元

2、Displacement Compression Network (DCN)位移压缩网络

3、Frame Reconstruction Network (FRN) 帧重构网络

这三个子模块是按照如下算法组合的:

先计算位移,然后对位移进行压缩,最后重构。需要特别说明的是主帧,因为主帧没有参考帧,所以首先和自己进行位移计算、压缩、重构,重构出一个参考帧,后面就和非主帧的计算步骤一样了。这里如果借助H265中的I、IDR帧划分思想,不知道有没有可能对算法有提升?

最后,我们分别看一下这三个子模块。

DCU模块:

这个单元模块是基于相邻帧像素移动不大的思想,然后就在x、y方向上扰动。虽然没有了运动估计、运动补偿和运动压缩模块,可以少一些计算量,但是有12个位移估算图,这都送到后续的压缩和重构网络中,计算量也不小。

DCN模块:

(a)网络结构如下:

(b)量化

(c)熵编码

采用PixelCNN。

FRN模块:

主要就是LSTM-Unet网络。

损失函数:

文献中提到的bpp计算方式如下:

四、实验

硬性指标比对如下:

硬性指标上看,表现比较一般。

消融实验:

               

不能少了主观视觉的比对:

                     

五、结论与总结

端到到的视频编解码不进行运动估计、运动补偿、运动压缩这个新思路还是可以探索的。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值