一种人机友好的视频压缩方案(HMFVC)

本文是我在看过:HMFVC: A Human-Machine Friendly Video Compression Scheme这篇论文后自己的总结。
这篇论文主要是说作者提出了一个新颖的LSR结构,这个结构可以从原始图像中提取语义信息用来机器分析,并且这个语义信息还可以用来预测信号,实现图像重建,满足人类需求。并且在这篇论文中,作者做了大量的对比和验证实验,来说明这种结构的好处。
下面是涉及到的一些知识:
高斯金字塔和拉普拉斯金字塔(图像编码方法)
高斯金字塔就是把一个原始图像进行下采样操作,得到了一组分辨率不同的图像。如图所示:
高斯金字塔
下面是下采样过程,首先输入J级图像,然后对J级图像进行下采样得到了J-1级近似图像,如果对J-1级图像进行上采样 ,得到了一个预测的J级图像,使用原始J级图像减去预测J级图像可以得到J级残差。这些残差组成的图像叫做拉普拉斯金字塔。我们可以利用拉普拉斯金字塔完成图像的重建。
高斯金字塔和拉普拉斯金字塔
下面这个图就是使用拉普拉斯金字塔重建图像的过程:
拉普拉斯金字塔重建图像
前面引入高斯矩阵和拉普拉斯矩阵是为了引出光流估计模型SpyNet,光流估计模型将传统的拉普拉斯金字塔与深度学习结合起来。就是说把原始图像减去预测图像得到残差的过程用卷积的方法代替了。这里有必要说一下,光流是什么?光流的概念是指在连续的两帧图像中由于图像中的物体移动或者摄像头的移动导致的图像中目标像素的移动。光流是二维矢量场,表示了一个点从第一帧到第二帧的位移。另外如果使用光流估计模型要有两个假设:1、场景的像素强度在相邻像素之间基本不变;2、相邻像素具有相似的运动。
下面是光流估计模型的结构图(从其他博主那找的):文章链接
从这个三层的金字塔网络结构,我们可以看到原始图像先经过三次下采样,然后将两幅图片作为卷积神经网络G0的输入,得到了v0,v0是I0对应的光流图(其实也是残差图),此时的v0就是V0。然后V0经过上采样得到了预测的V1,同时I1的两张图片经过卷积神经网络,得到了v1(光流残差)。v1+预测的V1就得到了重建的光流图V1。接下来的过程类似,就不再过多的阐述。
在这里插入图片描述
对于每一层的光流更新都是单独进行的训练,把一个大任务划分成了一个个小任务。这样做的好处就是大大提高了速度和准确度。并且需要训练的参数数量也减少很多。
训练过程
有了上面的铺垫,就可以引出作者提出的LSR结构。LSR提取结构主要是包括四部分:输入、SpyNet、语义增强块(SEB)、输出。LSR Extraction 的输入由原始当前帧和原始前一帧组成。SpyNet来提取语义信息,SEB用来去除外部干扰,增强语义信息。输出的是当前帧的光流信息。至于为什么要使用SEB模块,后文作者通过做实验,说明了使用SEB可以增强机器分析的精确度。
下图是LSR特征提取的结构图:
LSR EXTRATION
到此为止,LSR EXTERATION模块就结束了。接下来我们可以通过对lt进行压缩编码形成语义比特流完成机器分析任务。也可以用lt对当前帧 进行预测。
将重建的lt和当前帧前一帧的重建值作为输入,首先对解码的lt进行反语义增强,来消除SEB在LSR提取中的影响。在iSEB模块之后,在先前重建帧Xt-1上变形。然后我们将扭曲的帧和之前重建帧连接起来送入细化网络。最后在refine net之后生成当前的重构帧。
在这里插入图片描述
原始帧减去重构帧就得到了残差,我们对残差进行编码,形成信号比特流,可以用于人类视觉。
HMFVC整体框架
下面内容是上述框架啊中的一些训练参数:
训练参数
训练策略:作者的训练策略是分成了两步,第一步是先训练机器分析那部分,训练完了以后固定这部分参数。第二步训练人类视觉重建那部分。
第一步:
在这里插入图片描述
第二步:
在这里插入图片描述
HMFVC的实现:
作者提出了三种帧类型:I帧、P帧、L帧。
I-Frame代表使用传统的图像编解码器压缩,不依赖于其他帧;
L-Frame代表使用LSR特征提取进行压缩;
P-Frame代表是从前一个L帧的解码LSR中推断出来的;由光流网预测。
下面是几个GOP的结构,作者会通过实验说明L帧占比的多少和机器分析精确度有什么关系。关系就是L占比越大,机器分析就越精确。
GOP结构图
M的计算公式:
M的计算公式
基于上述的GOP结构,作者发现连续的LSR的关系在动作识别中没有得到充分利用。所以作者提出了一个简单但有效的函数来进一步提高分析性能,依据和GOP中语义信息。具体来说Visual Analysis模块可以生成一个向量Vi来表示每个类别的概率。概率最大的类别是预测标签。但是LSR中的语义信息可能会在特定帧中丢失,因此我们通过聚合函数A计算GOP级别的概率分布V:V=A(vi)。通过这个操作来减少每帧的偶然错误。
在这里插入图片描述
实验结果:
实验配置:
数据集:UCF-101 ,13320个视频,101个类别;
学习率:0.0001,参数更新4500次迭代,batchsize=16,QP={23,26,29,36,40,45}
评估方法:
作者将分析性能和编码效率与传统的编解码器和学习的视频压缩方法进行了比较。
分析性能:
从下图中可以看出:黑色水平线表示原始视频的识别准确率(86.68% top-1 准确率 和 99.02% top-5 准确率)。其他水平线(包括紫色、红色和深绿色线)表示所提出的HMFVC 的性能。由于两个原因,HMFVC 的分析精度不会随着比特率的下降而下降。其次,在训练策略的第二步,LSR 编码器/解码器中的参数是固定的,以在每个比特率下保持压缩的 LSR。与其他人工视频压缩方法相比,HMFVC 优于它们,尤其是在低比特率时。这两个图证明了HMFVC 是一种可行的视觉分析解决方案。
在这里插入图片描述
在 PSNR 方面,HMFVC 可以实现与 DVC 和 x264 相当的性能。在 MS-SSIM 方面,具有不同 M 的 HMFVC 在每个比特率上都优于 x264。与 x265 和 DVC 相比,HMFVC 在相对较高的比特率方面优于它们。这是合理的,因为随着总码率的增加,分析码率的比例降低。总的来说,所提出的 HMFVC 可以实现与锚点相当的视频重建性能和与原始视频相似的视觉分析性能。
在这里插入图片描述
为了更好的说明HMFVC的性能,作者又展示了三张HMFVC与X.265性能对比的雷达图。从下图中可以看到,除了PSNR的值,HMFVC与传统的编解码器和学习视频压缩方法相比,是一种更全面的视频压缩解决方案。
在这里插入图片描述
消融研究:
作者为了提高分析性能引入了两个模块,一个是SEB(语义增强块),一个是聚合函数。作者通过对比试验来说明这两个模块可以提高分析性能。
如下图所示:
在这里插入图片描述
对HMFVC框架的分析:
作者从时间复杂度,语义比特流占比,分析精确度和重建质量之间的关系,为何使用LSR结构可以提高分析精度,HMFVC的可扩展性等方面做了实验说明,这里就不再详细展开说明了。
文章在实际情况是如何的?
可以扩展到其他新的任务,新的数据上去。HMFVC的结构比较灵活,可以满足不同的分析需求(例如有的需要机器分析更精确,有的需要更好的视频质量共人类观看)。另外,在LSR结构中使用清泉的SpyNet光流估计模型,可以减少训练的参数量(有人做了实验:SpyNet的参数量居然比FlowNet少了足足96%),所以可以加速压缩过程。
该文章与其他文章的不同点和相同点:
在这里插入图片描述
作者使用的方法的优缺点:
在这里插入图片描述

结论:
在本文中,我们提出了一种人机友好的视频压缩方案。特别是,我们设计了一种名为 LSR 的创新紧凑表示方法,以缩小分析和压缩之间的领域差距。一方面,LSR 可以通过用于动作识别的视觉分析模块进行分析。另一方面,LSR 用于预测待编码帧以供人类观看。得益于精心设计的网络结构,HMFVC 可以加快分析过程并节省存储空间。对于机器分析,HMFVC 压缩视频的准确性与原始视频相比具有竞争力,优于现有的学习视频压缩方法和传统编解码器。对于人工监控,我们的方法可以实现与 x265 相当的性能,并且显着优于 H.264。

最后附上我的思维导图:
思维导图

补充:该文章只是做的阅读笔记。

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值