【论文阅读笔记】Real-Time Video Super-Resolution on Smartphones with Deep Learning, Mobile AI 2021 Challenge_ai real-time immersive convergence fitting-CSDN博客

本文链接：https://blog.csdn.net/qq_19784349/article/details/123519413

论文小结

这比赛的目标是在移动手机上得到实时运行的视频超分算法，目标在480p（实际上是 $180 * 30$ ）分辨率输入下得到HD分辨率，且有80FPS。训练数据集为REDS，4倍超分，在OPPO Find x2手机上，865的芯片，Qualcomm Adreno 650 CPU，浮点数网络（之前的SISR目标是定点数网络）。
视频超分比赛输入为 $180 * 320$ ，目标是4倍上采样，图像超分输入为 $640 * 360$ ，目标是3倍上采样；

验证运行时间和限制算子的平台仍然是AI benchmark和TF Lite。
在这里插入图片描述

论文简介

数据集

数据集为REDS，一共有300段视频，240段视频用于训练，30段视频用于验证，30段视频用于测试。每段视频长度为 $100$ 帧，每帧分辨率为 $1280 * 720$ ，帧率为24FPS。制作数据时，使用双三次（bicubically）下采样，下采样因子为4。

指标

最后的分数指标计算和SISR比赛一样。 $\frac{2^{2*PSNR}}{C*runtime}$

参赛情况

视频超分比赛有125个注册参与者，有4个团队入围了最终阶段。下表为4个团队的结果，其中Noah_TerminalVision团队使用的算法有算子与TF Lite的GPU算子不兼容，只能在CPU上进行。
在这里插入图片描述

Diggers是挑战赛的冠军，也只有该团队的解决方案使用了帧间依赖，其他方案使用标准的单帧方法进行上采样。Diggers使用循环连接（Recurrent Connections）利用帧间依赖，以获得更好的重构结果。单帧方法只比Diggers团队差一点点，但都比简单的双三次插值要好得多。
下图展示了几个团队的算法超分的感官效果。
在这里插入图片描述

算法介绍

Diggers

Diggers使用双向循环网络，利用前后视频帧作为额外信息。网络结构如下图所示，对于每个输入帧，先使用两个特征提取模块（FEB Module），得到两个特征图，分别用于forward（blue）和backward（orange）。Forward特征用于结合前面帧的特征，反馈到后续帧的HR信息，Backward特征则反之。最后结合多帧的信息来获得当前帧的feature maps。得到的前向特征和反向特征进入一个选择单元模块（SEL Block，Selection units Layer）。上采样采用一个IMDB模块，两个卷积和Image Resize层。
训练策略为：batchSize为16，训练31个epochs，初始化学习率为 $4e^{-3}$ ，从第7个epoch开始，每2个epoch学习率衰减为 $0.7$ (乘以 $0.7$ )， $L_1$ 作为Loss，Adam作为优化器。然后再用 $L_2$ 作为Loss训练31个epochs，学习率策略与前一阶段31个epochs一样。
在这里插入图片描述

ZTE VIP

ZTE VIP团队的算法没有帧间依赖，其对每帧单独进行上采样，这样能大幅提高推理速度。比赛的标准是输入tensor为10帧concat到一起，即输入为 $B * H * W * (3 * 10)$ ，其中 $B = 1$ 。ZTE VIP团队先将输入reshape成 $(B * 10) * H * W * 3$ ，即 $10 * H * W * 3$ ，该做法把输入的连续帧认为是单独的帧。然后分别进入几个残差块，和depth-to-space层中获得最后的上采样图像。残差块的数目和大小由NAS搜出来的，组成条件有Loss和FLOPs。模型最后有5个残差块，每个包含2个 $3 * 3$ Conv，Channel数目为8。
训练策略为： $L_1$ 作为Loss，batchSize为4，训练100个epochs，Adam作为优化器，初始化学习率为 $2e^{-4}$ ，学习率缩放因子为 $0.5$ ，每400个epoch变一次学习率。具体细节可在论文上查看。https://ieeexplore.ieee.org/document/9522982

在这里插入图片描述

Rainbow

Rainbow团队也提出一个纯CNN的方案，生成每帧的高分辨率图像。其使用3个IMDB-s模块，接着depth-to-space上采样。对每个视频帧分别如此进行，加上一个全局的Skip Connection用于改善视觉效果。
训练策略为： $L_1$ 作为Loss，Adam作为优化器，初始学习率为 $2e^{-4}$ ，每 $50 k$ 次迭代学习率减半，batchSize为8；
在这里插入图片描述

Noah_TereminalVision

Noah_TereminalVision提出一个TinyVSRNet网络，其包含3个残差块，每个块有2个卷积，卷积通道数为16，然后再接着一个depth-to-space和一个全局skip connection（在上采样之后）。
训练策略为：训练时使用重参数结构，重参数组件为非对称卷积 $3 * 3$ 、 $1 * 3$ 和 $3 * 1$ ，在训练时分开，在测试时合为同一个。重参数的训练方式可以给TinyVSRNet增加 $0.05 d B$ 的PSNR。使用 $L_1$ 作为Loss，使用Adam优化器训练 $1$ 百万次迭代，使用循环损失策略，每 $200 K$ 次迭代从 $5e^{-4}$ 降到 $1e^{-6}$ 。