Learning to Compress Videos without Computing Motion 个人理解

最新推荐文章于 2023-05-18 05:19:20 发布

cs_software_

最新推荐文章于 2023-05-18 05:19:20 发布

阅读量342

点赞数

分类专栏：视频编解码深度学习文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cs_softwore/article/details/109338762

版权

深度学习同时被 2 个专栏收录

14 篇文章 2 订阅

订阅专栏

视频编解码

9 篇文章 13 订阅

订阅专栏

文献地址：https://arxiv.org/pdf/2009.14110.pdf

目录

二、文章贡献

三、论文思想

五、结论与总结

一、概述

同样是端到端的利用深度学习来解决视频编解码问题，提供了一个新的思路：不进行运动估计的情况下进行视频压缩。

二、文章贡献

1、无论输入视频帧的尺寸或所需的压缩率如何，我们框架的所有模块都仅从端到端进行了一次训练；

2、创新性地利用位移差异来捕捉运动，避免了运动估计和运动压缩的计算开销；

3、组合LTSM-UNet有效地捕获了空间和时间信息，用于从抽象的视频代码中重新创建视频帧；

4、整个视频压缩系统使用单个损失函数共同优化。

三、论文思想

首先，看一下整体框架：

视频片段划分：将视频帧划分成GOP，第一帧为主帧，其余帧为非主帧。

再次，整个算法总共有三个子模块：

1、Displacement Calculation Unit (DCU) 位移计算单元

2、Displacement Compression Network (DCN)位移压缩网络

3、Frame Reconstruction Network (FRN) 帧重构网络

这三个子模块是按照如下算法组合的：

先计算位移，然后对位移进行压缩，最后重构。需要特别说明的是主帧，因为主帧没有参考帧，所以首先和自己进行位移计算、压缩、重构，重构出一个参考帧，后面就和非主帧的计算步骤一样了。这里如果借助H265中的I、IDR帧划分思想，不知道有没有可能对算法有提升？

最后，我们分别看一下这三个子模块。

DCU模块：

这个单元模块是基于相邻帧像素移动不大的思想，然后就在x、y方向上扰动。虽然没有了运动估计、运动补偿和运动压缩模块，可以少一些计算量，但是有12个位移估算图，这都送到后续的压缩和重构网络中，计算量也不小。

DCN模块：

(a)网络结构如下：

(b)量化

(c)熵编码

采用PixelCNN。

FRN模块：

主要就是LSTM-Unet网络。

损失函数：

文献中提到的bpp计算方式如下：

四、实验

硬性指标比对如下：

硬性指标上看，表现比较一般。

消融实验：

不能少了主观视觉的比对：

五、结论与总结

端到到的视频编解码不进行运动估计、运动补偿、运动压缩这个新思路还是可以探索的。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
Learning to Compress Videos without Computing Motion 个人理解

文献地址：https://arxiv.org/pdf/2009.14110.pdf目录一、概述二、文章贡献三、论文思想四、实验五、结论与总结一、概述同样是端到端的利用深度学习来解决视频编解码问题，提供了一个新的思路：不进行运动估计的情况下进行图片压缩。二、文章贡献1、无论输入视频帧的尺寸或所需的压缩率如何，我们框架的所有元素都仅从端到端进行了一次训练；2、创新性地利用位移差异来捕捉运动，避免了运动估计和运动压缩的计算开销；3、组合LTSM-UNet有效地捕获了
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。