腾讯优图提出LCVR-MQVI算法，勇夺NTIRE 2021双赛道冠亚军

最新推荐文章于 2023-07-28 12:32:11 发布

我爱计算机视觉

最新推荐文章于 2023-07-28 12:32:11 发布

阅读量962

点赞数

文章标签：网络算法计算机视觉人工智能深度学习

近日，在NTIRE 2021比赛上，腾讯优图提出的LCVR-MQVI算法在Video Super-Resolution: Track 2 Spatial-Temporal赛道和Track 1 Spatial赛道上分别获得了冠军和亚军的成绩。

NTIRE比赛是图像与视频增强领域的权威比赛，由ETH Zurich（苏黎世联邦理工学院）的Computer Vision Laboratory组织，与CVPR2021共同举办。

这次腾讯优图同时参与了视频空间超分(video spatial super-resolution)和时空超分(video spatial-temporal super-resolution)两个赛道。其中，相比于传统的单图超分或者视频插帧，视频的时空超分可以同时提升视频的分辨率和帧率，带来更好的观看体验，因此也更具有实用价值，吸引了包括百度、字节跳动、旷视、华为等公司以及南洋理工、北大、上海交大、复旦等知名高校的参与。

针对本次比赛需要同时提升视频的分辨率和帧率的要求，通过大量的对比实验，最终我们确定了先超分后插帧的两阶段技术框架LCVR-MQVI。整体的框架如图1(d)所示，对于输入的低分辨率低帧率视频，我们首先通过提出的双向对齐超分网络LCVR进行超分，然后将超分后的图片送入改进的多尺度插帧网络MQVI进行插帧。下面我们分别对两部分的创新点进行介绍。

图1 LCVR-MQVI整体框架图

超分辨率框架LCVR

我们提出了一种新的超分辨率框架LCVR（Local to Context Video Super-Resolution），相比于其他单图超分以及视频超分框架，我们的LCVR可以更好地利用视频中的过去和未来的信息辅助当前帧的超分。具体来说，我们的方法有如下改进：

将多帧超分模型的local思想与视频超分模型中的context思想进行了结合，提出一种新的视频超分模型local to context；

在local部分，我们采用了EDVR模型，并进行了改进，例如将block替换为attention block等等。利用EDVR的DCN运动补偿，可以更好地利用前后帧LR输入的信息；

在context部分，我们在BasicVSR建模的基础上做了修改，我们将local的超分结果以及中间特征作为context的输入，优化local超分结果得到最终优化后的超分图像。另外在context的光流估计部分，我们使用PWCNet，通过计算前后local超分图像的光流信息，从而获得了更准确的光流结果。

插帧框架MQVI

我们提出了一种新的插帧框架MQVI（Multi-Level Quadratic Video Interpolation）。相比于大多数现有的基于线性假设估计中间帧光流状态的模型，我们的模型基于匀加速运动估计中间帧光流，因此可以更好地对真实世界中物体的运动进行拟合。同时，我们在QVI的基础上引入了coarse-to-fine的思想，通过多尺度网络对初识的预测结果进行不断的微调以实现更好的预测。具体来说，我们的MQVI相比于原始的QVI有以下的改进：

使用RAFT光流网络替换PWCNet以实现更精确的光流估计；

使用QVI的输出作为初始的中间帧，通过多尺度微调网络对初始中间帧进行不断的微调。多尺度微调网络的输入包括上一层网络的输出，当前尺度warp到中间帧的图像，输出则为对上一层输出结果进行微调的残差；

通过多尺度的输入训练策略使网络可以更好的适应不同程度的运动。

结果评估与可视化

图2 比赛结果

对于时空超分任务(track 2)，我们提出的方法在比赛的测试集上取得了27.68dB的PSNR，领先第二名0.29dB，在空间超分任务上(track 1)，我们提出的方法也取得了32.96dB的成绩，领先第三名0.29dB。

下面我们也对比赛测试集上的部分结果进行可视化，首先图3展示了LCVR的空间超分能力，其中左边为原始输入通过bicubic的方式进行上采样，右边则为我们的LCVR算法超分的结果。可以看到我们的方法由于可以利用视频的过去和未来的信息，得到了更加清晰的超分结果。

图3 Bicubic上采样与LCVR空间超分效果对比

图5则展示了LCVR-MQVI模型在时空超分联合任务上的效果。相比于图4，我们的算法可以同时提高视频的分辨率和帧率。

图4 LCVR-MQVI时空超分输入（插值放大播放效果）

图5 LCVR-MQVI时空超分效果

随着互联网的蓬勃发展，视频已经成为越来越多人获取资讯以及娱乐的方式。而短视频的出现让越来越多的人可以即时分享自己创作的内容。然而由于个人创作者创作设备还有方法的不专业以及大量早期生产的影视作品，互联网上存在着大量的低分辨率、低帧率的视频，影响着人们的观看体验。因此如果能通过自动化的算法将这些低质量的视频转换为高质量的视频具有重要的现实意义。

本文转载自腾讯优图。

END