论文速读之A New Framework Based on Spatio-Temporal Information for Enhancing Compressed Video

摘要

在视频压缩过程中会产生压缩伪影;人们提出了许多方法来解决这个问题。大部分使用光流去进行时域的运动补偿去获取更好时域信息。然而光流可能不准确,因为压缩视频可能会被各种压缩伪影扭曲。光流还引入了额外的模型复杂度并且消耗很多算力。它也容易受到在显著运动和严重遮挡场景下误差传播的影响。针对这些问题,我们提出了一种高效的具有多帧结构,通过时空信息引导的质量增强网络。
我们的算法采用了时空可变形卷积来聚合时间信息。我们将待增强帧及其相邻的参考帧定义为输入来联合预测偏移场以使时空取样位置变形。具体的,我们通过设计一个高效的,有着大接收野的,可变形对齐模块去处理消除压缩伪影时的困难,来达到增强重建视频质量的目的。

引言

视频一直是互联网上的重要内容。随着视频平台和流媒体的发展,视频内容已成为网络流量的主要组成部分。根据思科数据公司的报告流量预测,移动视频流量占59%。为了防止未压缩的视频内容从占用大量的带宽,视频压缩降低比特率的技术尤其重要。
在这里插入图片描述

近年来,人们注意到了由视频压缩引起的伪影越来越多。压缩伪影对视频的破坏性严重降低了视频的QOE。另一方面,基于压缩视频的如识别、检测、跟踪等视觉任务会不够准确。
压缩视频时,大多数常见的伪影可分为两类,空间域伪影和时域伪影,包括模糊效应、块效应、振铃效应等,如上图1所示。因此越来越多的工作正在这个领域取得进展[8]-[10]。例如,用于单帧图像的伪影消除和质量增强算法已经得到发展。传统的图像增强方法使用特定的压缩优化转换系数的标准,以消除伪影[11]、[12],但鲁棒性有限。随着深度学习的显著进步,卷积神经网络(CNN)被大量用于图像增强算法[13-[15]。这些方法通常从大量训练数据学习非线性映射来进行图像重建增强。虽然他们效率很高,它们不能直接用于压缩视频,因为它们在没有时间信息的情况下逐帧处理图像。
另一方面,有几项关于压缩视频增强的研究。Yang等人提出了多帧质量增强(MFQE)方法:利用时间信息进行视频质量增强(VQE)[16]。具体来说,MFQE使用高质量帧作为参考帧,使相邻低质量的目标帧可以通过一种新的多帧图像增强方法(MF-CNN)。尽管MFQE方法已经取得了进步,其采用的稠密的光流的时间融合方案可能不是理想的方式。因为在视频压缩过程中,产生了大量压缩的伪影。
压缩伪影是一种高概率的像素级破坏视频内容。因此,光流可能不准确并且花费了很多的算力。
针对上述问题,提出了一种基于时空变形融合[17]的注意力网络引导框架。具体地说,该框架利用时间注意机制收集时间信息来替代显式光流估计,从而获得最相关的上下文信息并避免不必要的噪声。为了更好地完成这项任务,我们采取了相关方法,并作出了以下贡献:
01.我们提出了具有双向、残差和卷积方式LSTM(BRCLSTM)结构的可变形卷积网络(Deformable Convolutional Networks, DCN),并在LSTM前进行对齐操作,以便更好地引用时间信息。
02我们利用时间注意(TA)机制,根据帧的距离和质量分配不同的权值,可以得到更准确的信息
03我们使用多尺度损失(MSL)来解决不同尺度压缩失真的影响,例如块效应、振铃。

相关工作

A.图像和视频增强
压缩的图像和视频质量增强任务可以分为两类:单帧的和
多帧的方法。一些传统的单帧图像方法:Foi等人采用逐点形状自适应DCT(SA- DCT)[18]降低块效应和振铃效应。Jancsary等人提出了减少图像块效应的方法:采用回归树域(RTF)的影响,是基于JPEG压缩工件。然后是深度学习方法,Dong等人提供了一个四层的ARCNN来减少JPEG造成的伪影。
然后,提出了DnCNN和MemNet[19]图像恢复的几个任务,包括质量增强。VRCNN[20]被提出作为一个大小的可变滤波器剩余学习卷积神经网络,用于HEVC Intra编码的后处理,以提高视频压缩的质量增强。最近,Yang等人提出了一种多帧输入的MFQE模型,通过考虑压缩视频的质量增
相邻帧的信息。然而,我们发现该方法的结果依赖于运动估计的准确性,而对压缩视频的运动估计的准确性也是一个具有挑战性的任务。

B.时域信息

在与视频相关的任务中,我们通常使用跨越多个帧的附加信息。如何正确使用这些附加信息尤为重要。Karpathy等人首先引入了几种基于卷积的融合方案,将时空信息结合起来进行视频分类。随后,对这些低水平视觉任务的融合方案进行了研究,并利用基于TV的光流估计算法对连续帧之间的运动进行补偿,提高了融合的精度。进一步将基于Total Variation的光流估计器替换为CNN,实现端到端训练[22]。此后,时间融合与运动补偿在各种视觉任务中得到了广泛的应用。然而,这些方法严重依赖于精确的光流,难以处理一般问题和特定任务的问题,例如遮挡,明显的运动,压缩伪影。为了解决这个问题,Shi等人引入了ConvLSTM网络,从扩展范围的相邻帧中挖掘上下文信息。

提出的方法

拟议框架的概述。我们将目标帧与相邻的参考帧连接起来作为输入。首先,偏移量预测网络接受输入并为可变形卷积预测偏移量。第二,变形卷积网络进行时空变形融合。最后,包含BRCLSTM和编解码器子网的质量增强模块进一步对齐时空信息并补充其他信息。
框架的概述:我们将目标帧与相邻的参考帧连接起来作为输入。首先,偏移量预测网络接受输入并为可变形卷积预测偏移量。第二,变形卷积网络进行时空变形融合。最后,包含BRCLSTM和编解码器子网的质量增强模块进一步对齐时空信息并补充其他信息。

A.总览
我们的方法的目标是从压缩的视频中去除被压缩伪影所扭曲的伪影。具体来说,压缩帧IL是时刻t。为了更好地利用时间信息,我们将前面时刻的帧和后面时刻的帧作为参考,以提高当前帧的质量。增强的序列可以表示为:
在这里插入图片描述
该方法的框架如图2所示,其中包括时间变形融合模块和质量增强(QE)模块。我们将目标帧和参考帧作为输入,然后进行时空卷积融合来融合上下文信息。此外,可变形的偏移量可以通过偏移量预测网络得到。QE模块包括BRCLSTM时间编码器,它是一个循环网络,用来学习相邻帧的残差信息。利用BRCLSTM,可以将目标帧融合到更优秀、更有效的信息中。QE不仅要考虑时间信息,还要考虑其他信息,比如亮度和颜色变化。为了解决这些情况,我们使用了多尺度编码器-解码器,以补充该信息。

B.时空可变形卷积融合模块
为了处理压缩视频片段的时空信息,早期融合可以用前向时间融合的表达式表示
在这里插入图片描述
式中,表示结果的特征图,K捐赠为卷积核的大小,Wt表示第t个通道的卷积核;Sp表示任意空间位置表示常规采样偏移量。尽管EF效率高,容易受到噪声干扰,降低了质量增强的增益。在这种情况下,我们利用增强-时间变形卷积向常规采样偏移量添加一个可学习偏移量
在这里插入图片描述
提出了一种新的偏移量预测网络,该网络包含了残差模块和基于U-Net的编码器解码器模块。残差模块中的残差可以初步提取局部特征,而基于U-Net的编解码模块可以进一步放大接收域,提取多尺度特征。与提出偏移量预测网络,可以更准确地预测变形偏移量δ(𝑡,𝑠𝑝)

C. BRCLSTM Network
一般来说,视频内容与相邻帧的相关性很高。在很多情况下,连续几帧的背景不会有太大的变化,这意味着视频的低频信息在短时间内是非常相似的。因此,我们可以考虑使用循环网络来调整框架,使整个网络能够更有效地获取有用的信息。
长短期记忆(LSTM),多模态LSTM,或ConvLSTM是一种特殊的循环神经网(RNN),主要是解决梯度消失问题和长序列训练过程中的梯度爆炸。与与普通rnn相比,LSTM可以执行更长的序列更好。[24,图3]显示了BRCLSTM单元在-帧;随着变化,LSTM单元将学习提取相邻帧的残差信息,并提取特征从压缩帧映射并传回。对于输入Z被传送到两个ConvLSTM对手取向。输出h由h+和h-相加形成。公式为(4)-(7)在下面:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
D.编解码网络
编码器-解码器是一个非常常见的框架学习。编码器是一个网络,接收输入和输出特征图。这些特征图是另一个输入特征和信息的表示的。解码器也是一个网络,通常都有相同的网络结构作为编码器,但相反的方向。它获得
特征从编码器映射并输出结果,即最接近实际输入或预期输出。当实现编码器-解码器,编码器和解码器不是固定的。根据不同的任务,您可以选择CNN、RNN、LSTM等,可以自由组合和独立。在CNN的编码器-解码器架构中
网络中,输入数据通常被压缩成特征图
用较小的空间尺寸,然后由译码器。在编码器-解码器体系结构中,跳过特征映射的连接经常像在U-Net[23]中那样使用体系结构改善深度神经网络的性能和收敛性。
另外,我们还做了一些修改:参考MAGNet[24]架构的编码器解码器,使其更好地用于视频增强任务。我们去掉引导图,减少训练的复杂性以及参数的数量。同时,为了
获得高质量的输出图像,我们使用了多尺度
监督的损失函数,监督中间输出解码器的每个尺度。输入通过四个编码器层由每一个信道传递给四个信道对应的具有跳跃连接的卷积层。
每个解码器的激活都要经过另一个解码器
卷积层生成中间预测的损耗是用于中间预测和连接的译码器激活。带有编码器和解码器的参数θE,θD编码器和解码器的方程可以表示为:
在这里插入图片描述
MSL的损失函数可以表示为:
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值