视频超分技术是指什么？

一叶知秋dong

已于 2024-04-19 17:48:03 修改

阅读量3.8k

点赞数 19

文章标签：音视频

于 2024-04-18 21:56:41 首次发布

本文链接：https://blog.csdn.net/dxpqxb/article/details/137939234

版权

简介

超分辨率技术（Super Resolution），是通过硬件或软件的方法提高图像或视频帧的分辨率，通过一系列低分辨率图像获取到高分辨率图像的过程。

目前超分辨率技术主要可以分为两类，单图像超分辨率（Single Image Super Resolution,简称SISR）和视频超分辨率（Video Super Resolution，简称VSR）。

超分辨率技术不仅可以应用在一些低分辨率的老片和手机拍摄的不清晰场景中，也可以对多次压缩的一些新电影进行恢复，提高这些视频质量，给客户更好的观看体验。

同时超分辨率技术还可以应用在清晰的视频源中，将视频的分辨率从1080P提高到4K，支持视频在更大的屏幕上播放，提供更高清的视野。视频超分辨率在许多应用领域都有广泛的应用，包括医学图像重建、人脸图像重建、远程传感、全景视频、无人机监控、超高清电视等。

比如左图是原始图片，右图是经过超分技术修复后的图像。

超分辨率可以通过多种技术来实现，其中包括传统的插值方法和基于深度学习的方法。

基于传统插值的实现

我们看到的图片或者视频，都是通过显示设备显示一个个像素来进行表达的。像素是在特定的时间点上能表达一个特定颜色的点，类似一片片马赛克。一幅图片就是由多个像素进行表达的。一幅图片有多少行和多少列像素，通常就是我们说的图片和视频的分辨率。

如下图所示：

为了提高这些图像的质量，可以通过提升分辨率来得到更高质量的图像。最直接朴素的想法就是用相邻的像素来填补空白，即近邻取样插值。但是这样的算法会出现有阶梯状锯齿，明显不能很好地提高图像的质量。双线性插值、双三次插值、Lanczos插值等算法可以提高比近邻取样插值更好的效果。这一类传统的算法，往往被归为图像缩放技术。一般缩放的比例不会太高。

基于深度学习的实现

基于深度学习的视频超分算法，一般会采用卷积神经网络（CNN）、生成对抗网络（GAN）或者循环神经网络（RNN）。架构基本上都是将低分辨率作为输入，然后进行帧间对齐，特征提取，特征融合，最后重建生成高分辨率视频，通过学习大量训练数据的特征和映射关系，实现从低分辨率到高分辨率的映射。

视频超分与图像超分最大的不同之处在于，视频超分可以利用相邻帧间的信息，从而极大提高超分算法的性能。

视频帧与帧之间存在着帧间压缩，而超分算法正是利用了这些帧间信息，从不同的角度进行还原重建，从而生成高分辨率的视频。运动估计和补偿算法在视频超分中有着非常重要的作用，很多算法都以此为基础。运动估计是为了提取出帧间的运动信息，然后根据运动信息将不同的帧进行对齐。

基于运动估计和运动补偿算法

VSRnet

VSRnet是图像超分算法SRCNN在视频上的扩展，最大的改进就是增加了运动估计和运动补偿模块，输入图像由一幅变成多帧。运动信息的提取采用了Druleas算法。

VESPCN

VESPCN即Video efficient sub-pixel convolutional network，引入了一个空域运动补偿变换模块（MCT），运动补偿后的帧作为卷积网络的输入，再经过特征提取和融合，最后经过一个亚像素卷积层做上采样得到高分辨率视频。MCT模块采用CNN由粗到精来提取运动信息、进行运动补偿。粗估网络以2个连续帧作为输入，经过5层卷积和1层亚像素卷积，得到粗略的光流运动信息，然后进行运动补偿。粗估网络的输入为粗估网络得到的光流信息和运动补偿帧，经过卷积网络得到更精细的运动信息和运动补偿帧。

RBPN

受后向投影算法的启发，RBPN算法设计了一个投影模块。投影模块位于特征提取模块和重建模块之间。特征提取分为两个部分，一是对目标帧的低分辨率进行特征提取，二是对目标帧、相邻帧、及两帧的光流图的组合进行特征提取。投影模块由编码器和解码器组成。编码器由单图超分模块（处理目标图得到的特征图）、多图超分模块（处理目标帧、相邻帧、及两帧的光流图的组合得到的特征图）和残差块组成（处理前述两个模块，得到残差），将残差图与单图超分的结果叠加，送入解码器，解码器由残差块和下采样卷积组成。解码器的输出进入下一个投影模块，将所有投影模块的解码器的输出送入重建模块，得到超分帧。投影模块可以重复使用，直到遍历所有的帧。

可变卷积

上述这一类的超分算法，其共同点是都运用运动估计和运动补偿技术来将相邻的图像与目标图像进行对齐，但是都无法保证运动信息的准确性，特别是当有光线变化或者较大的运动的时候。针对这点，可变形卷积被用来代替运动估计和补偿，来对齐图像。下述算法将对这种方法进行简要介绍。

可变卷积于2017年提出，与传统的卷积层不同的点是，传统卷积层，每一层都的核都是固定大小；可变卷积在核中加入了偏移量，如此以来，输入特征通过卷积操作，便可以更好地对几何模型进行变换。采用可变卷积的视频超分算法主要有EDVR，DNLN，TDAN，D3Dnet，VESR-Net。本文选取EDVR和VERSR-Net进行简要介绍。

EDVR

该算法夺取了NTIRE19 Challenge的冠军。该算法有两个关键的模块：a、金字塔、级联和可变形对齐模块（PCD），用来解决复杂运动和大运动；b、时空注意融合模块（TSA），用来融合多个对齐的特征图。最后是重建模块。此外，输入模糊图像时，可以增加预处理模块来去模糊。该框架也可以用来进行其它类型的视频处理。

VERSR-Net

该算法夺得优酷视频增强和超分算法挑战赛的冠军。它由特征编码器，特征融合器和重建模块组成。特征编码器由一个卷积层和多个CARB组成。特征融合模式借鉴了EDVR算法中的PCD模块，用来进行特征帧对齐。然后将特征图分解，形成空域，时域和不同颜色通道的特征，然后将这些特征进行融合。重建模块先经过CARB模块，然后进行特征解码，最后将特征与双三次插值的得到的高分辨图进行叠加，得到最终结果。

非对齐超分算法

除了前述的对齐方法之外，还有多种非对齐算法，即重建时不需要对帧进行对齐操作。可以细分为二维卷积法（FFCVSR）、三维卷积法（动态上采样滤波（DUF）、循环卷积法（双向循环卷积网络（BRCN）、非局部网络法。除了二维卷积法之外，其余方法都使用了时空域联合信息。这类方法依靠神经网络学习得到特征和运动信息，因而不需要帧对齐。

各算法性能对比

根据各种算法提供的实验数据，EDVR，RBPN和FFCVSR是三个比较优秀的算法，特别是EDVR和RBPN都已经被多次验证过，比早期的超分算法更高效。EDVR是NTIRE2019挑战赛的冠军，该挑战赛目标是处理大运动场景和各种真实的视频场景，因而EDVR也是近来超分领域比较流行的算法。近期的超分算法比更早期的算法高效，可能得益于硬件计算能力的提升，使更深和更复杂的网络变得更容易。这几个优秀的算法，也都有一个明显的特点，就是它们都有相应的模块来处理高频分量和时间相关信息，如EDVC里面的跨层PCD对齐，RBPN里的后向投影和特征上下文。

虽然视频超分的性能已经有了显著的提升，但深度神经网络的引入，使得训练和预测的计算复杂度、存储开销都非常高。随着移动设备的发展，高效轻量级网络的需求变得更为迫切。特别是在实时通信领域，对视频超分提出了更高的要求，由于实时通信还有更多模块使用计算资源，因此实时通信中的超分，不但需要极为简洁的设计，10毫秒级的处理算法才能真正落地；另外对帧的时延也有较高要求，往往目标帧之后的帧是不能作为输入，以减少时延，这对网络结构的设计也有更高的要求。

随着人工智能和设备运算能力的持续进步，视频质量恢复(Video Restoraion)在RTC系统中的地位必将水涨船高，而视频超分是视频质量恢复的最核心组件。在前文提到的技术基础之上，拍乐云也自研了可适配于主流移动设备的超分算法，并将持续投入开发，为用户提供更高品质的实时视频体验。