文献地址:https://arxiv.org/pdf/2009.14110.pdf
目录
一、概述
同样是端到端的利用深度学习来解决视频编解码问题,提供了一个新的思路:不进行运动估计的情况下进行视频压缩。
二、文章贡献
1、无论输入视频帧的尺寸或所需的压缩率如何,我们框架的所有模块都仅从端到端进行了一次训练;
2、创新性地利用位移差异来捕捉运动,避免了运动估计和运动压缩的计算开销;
3、组合LTSM-UNet有效地捕获了空间和时间信息,用于从抽象的视频代码中重新创建视频帧;
4、整个视频压缩系统使用单个损失函数共同优化。
三、论文思想
首先,看一下整体框架:
视频片段划分:将视频帧划分成GOP,第一帧为主帧,其余帧为非主帧。
再次,整个算法总共有三个子模块:
1、Displacement Calculation Unit (DCU) 位移计算单元
2、Displacement Compression Network (DCN)位移压缩网络
3、Frame Reconstruction Network (FRN) 帧重构网络
这三个子模块是按照如下算法组合的:
先计算位移,然后对位移进行压缩,最后重构。需要特别说明的是主帧,因为主帧没有参考帧,所以首先和自己进行位移计算、压缩、重构,重构出一个参考帧,后面就和非主帧的计算步骤一样了。这里如果借助H265中的I、IDR帧划分思想,不知道有没有可能对算法有提升?
最后,我们分别看一下这三个子模块。
DCU模块:
这个单元模块是基于相邻帧像素移动不大的思想,然后就在x、y方向上扰动。虽然没有了运动估计、运动补偿和运动压缩模块,可以少一些计算量,但是有12个位移估算图,这都送到后续的压缩和重构网络中,计算量也不小。
DCN模块:
(a)网络结构如下:
(b)量化
(c)熵编码
采用PixelCNN。
FRN模块:
主要就是LSTM-Unet网络。
损失函数:
文献中提到的bpp计算方式如下:
四、实验
硬性指标比对如下:
硬性指标上看,表现比较一般。
消融实验:
不能少了主观视觉的比对:
五、结论与总结
端到到的视频编解码不进行运动估计、运动补偿、运动压缩这个新思路还是可以探索的。