【论文阅读笔记】Real-Time Video Super-Resolution on Smartphones with Deep Learning, Mobile AI 2021 Challenge

论文地址:https://arxiv.org/abs/2105.08826

论文小结

  这比赛的目标是在移动手机上得到实时运行的视频超分算法,目标在480p(实际上是 180 ∗ 30 180*30 18030)分辨率输入下得到HD分辨率,且有80FPS。训练数据集为REDS,4倍超分,在OPPO Find x2手机上,865的芯片,Qualcomm Adreno 650 CPU,浮点数网络(之前的SISR目标是定点数网络)。
  视频超分比赛输入为 180 ∗ 320 180*320 180320,目标是4倍上采样,图像超分输入为 640 ∗ 360 640*360 640360,目标是3倍上采样;

  验证运行时间和限制算子的平台仍然是AI benchmark和TF Lite。
在这里插入图片描述


论文简介

数据集

  数据集为REDS,一共有300段视频,240段视频用于训练,30段视频用于验证,30段视频用于测试。每段视频长度为 100 100 100帧,每帧分辨率为 1280 ∗ 720 1280*720 1280720,帧率为24FPS。制作数据时,使用双三次(bicubically)下采样,下采样因子为4。

指标

  最后的分数指标计算和SISR比赛一样。 S c o r e = 2 2 ∗ P S N R C ∗ r u n t i m e Score = \frac{2^{2*PSNR}}{C*runtime} Score=Cruntime22PSNR

参赛情况

  视频超分比赛有125个注册参与者,有4个团队入围了最终阶段。下表为4个团队的结果,其中Noah_TerminalVision团队使用的算法有算子与TF Lite的GPU算子不兼容,只能在CPU上进行。
在这里插入图片描述

  Diggers是挑战赛的冠军,也只有该团队的解决方案使用了帧间依赖,其他方案使用标准的单帧方法进行上采样。Diggers使用循环连接(Recurrent Connections)利用帧间依赖,以获得更好的重构结果。单帧方法只比Diggers团队差一点点,但都比简单的双三次插值要好得多。
  下图展示了几个团队的算法超分的感官效果。
在这里插入图片描述


算法介绍

Diggers

  Diggers使用双向循环网络,利用前后视频帧作为额外信息。网络结构如下图所示,对于每个输入帧,先使用两个特征提取模块(FEB Module),得到两个特征图,分别用于forward(blue)和backward(orange)。Forward特征用于结合前面帧的特征,反馈到后续帧的HR信息,Backward特征则反之。最后结合多帧的信息来获得当前帧的feature maps。得到的前向特征和反向特征进入一个选择单元模块(SEL Block,Selection units Layer)。上采样采用一个IMDB模块,两个卷积和Image Resize层。
  训练策略为:batchSize为16,训练31个epochs,初始化学习率为 4 e − 3 4e^{-3} 4e3,从第7个epoch开始,每2个epoch学习率衰减为 0.7 0.7 0.7(乘以 0.7 0.7 0.7), L 1 L_1 L1作为Loss,Adam作为优化器。然后再用 L 2 L_2 L2作为Loss训练31个epochs,学习率策略与前一阶段31个epochs一样。
在这里插入图片描述

ZTE VIP

  ZTE VIP团队的算法没有帧间依赖,其对每帧单独进行上采样,这样能大幅提高推理速度。比赛的标准是输入tensor为10帧concat到一起,即输入为 B ∗ H ∗ W ∗ ( 3 ∗ 10 ) B*H*W*(3*10) BHW(310),其中 B = 1 B=1 B=1ZTE VIP团队先将输入reshape成 ( B ∗ 10 ) ∗ H ∗ W ∗ 3 (B * 10)*H*W*3 (B10)HW3,即 10 ∗ H ∗ W ∗ 3 10*H*W*3 10HW3,该做法把输入的连续帧认为是单独的帧。然后分别进入几个残差块,和depth-to-space层中获得最后的上采样图像。残差块的数目和大小由NAS搜出来的,组成条件有Loss和FLOPs。模型最后有5个残差块,每个包含2个 3 ∗ 3 3*3 33Conv,Channel数目为8。
  训练策略为: L 1 L_1 L1作为Loss,batchSize为4,训练100个epochs,Adam作为优化器,初始化学习率为 2 e − 4 2e^{-4} 2e4,学习率缩放因子为 0.5 0.5 0.5,每400个epoch变一次学习率。具体细节可在论文上查看。https://ieeexplore.ieee.org/document/9522982

在这里插入图片描述

Rainbow

  Rainbow团队也提出一个纯CNN的方案,生成每帧的高分辨率图像。其使用3个IMDB-s模块,接着depth-to-space上采样。对每个视频帧分别如此进行,加上一个全局的Skip Connection用于改善视觉效果。
  训练策略为: L 1 L_1 L1作为Loss,Adam作为优化器,初始学习率为 2 e − 4 2e^{-4} 2e4,每 50 k 50k 50k次迭代学习率减半,batchSize为8;
在这里插入图片描述

Noah_TereminalVision

  Noah_TereminalVision提出一个TinyVSRNet网络,其包含3个残差块,每个块有2个卷积,卷积通道数为16,然后再接着一个depth-to-space和一个全局skip connection(在上采样之后)。
  训练策略为:训练时使用重参数结构,重参数组件为非对称卷积 3 ∗ 3 3*3 33 1 ∗ 3 1*3 13 3 ∗ 1 3*1 31,在训练时分开,在测试时合为同一个。重参数的训练方式可以给TinyVSRNet增加 0.05 d B 0.05dB 0.05dB的PSNR。使用 L 1 L_1 L1作为Loss,使用Adam优化器训练 1 1 1百万次迭代,使用循环损失策略,每 200 K 200K 200K次迭代从 5 e − 4 5e^{-4} 5e4降到 1 e − 6 1e^{-6} 1e6

举办方和参赛者

举办方为:

  • 苏黎世联邦理工学院
  • OPPO
  • AI Witchlabs, Switzerland(苏黎世一家企业)
  • 首尔大学

参赛方:

  • Diggers。电子科技大学
  • ZTE VIP。中兴
  • Rainbow。西安电子科技大学,电子工程学院
  • Noah_TerminalVision。华为
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值