Real-Time Video Super-Resolution on Smartphones with Deep Learning,Mobile AI 2021 Challenge: Report

这篇文章是2021移动AI竞赛 视频超分赛道上的总结报告。关于本次竞赛的介绍可以参看比这之前这是2021移动AI挑战赛---视频超分赛道上的总结文章,关于2021移动AI挑战赛的详细介绍可以参看笔者之前写的一篇博客,本文主要介绍优胜的4只队伍的解决方案。

Challenge Methods

1. Diggers 

        队伍Diggers提出了一个双向递归模型来解决视频超分任务,他们在超分当前视频帧时使用由过去帧和未来帧计算出来的特征图作为额外信息。如图Fig3所示。这个模型结构基于论文[34]和[15]所提出的思想,对于每一个输入帧,使用两个特征提取模块(FEBs)产生对应的特征图:前向[蓝色]和反向[黄色],然后结合当前帧和之前帧的前向特征图,然后传给其他特征提取模块,为当前帧产生最终的前向特征图。至于反向传播帧,处理过程是类似的,通过将帧序列置反。然后将获得的最终的前向反向特征传给选择单元层(SEL)模块,一个IMDB模块和两个卷积的图像尺度放缩层,该层执行最终的帧尺度 放缩。

       在训练阶段,21帧子序列的高低分辨率视频段作为模型的输入和对应输出。首先,模型训练31个epoches,batchsize等于16, 学习率4e-3,从第7个epoch开始,每隔2个epoch,学习率乘以0.7。接下来,模型训练另外的31个epoches,batchsize等于32,相同的学习率策略。损失函数使用L2 损失,优化器是Adam。在训练阶段使用随机翻转作为数据增广。

2. ZTE VIP

        Team ZTE VIP 提出一个执行单帧上采样的模型(如图Fig4),完全不考虑帧间依赖关系,这能够极大地提升推理速度。在它的第一层,输入做尺度放缩,batchsize等于视频帧数,然后他们被单个残差块单独处理,一个depth-to-space执行最终的帧上采样操作。残差块数量和他们的尺寸由模型结构搜索算法(NAS)[38]计算,它的评估标准由保真度损失和模型FLOPS的数量组成。最终的模型包含5个残差块,每个残差块包含2个中间通道数为8的3x3卷积。损失函数是L1, batchsize等于4,优化器是Adam,初始学习率是2e-4,训练400个epoch之后,学习率降低为原来的一半,一共训练1000个epoch。该方案的更详细介绍见[42]。

3. Rainbow

       与上一个方案类似,队伍Rainbow提出了一个纯CNN模型,执行单帧视频上采样,如图Fig5所示。作者提出了一个网络结构,这个网络结构包含3个信息多蒸馏块IMDB_s[15],后接一个depth-to-space上采样层,单独处理每一个视频帧。采用全局skip连接提升模型结果的保真度。采用L1损失,优化器是Adam,初始学习率是2e-4, 每迭代50k步,学习率降低为原来的一半。采用水平和垂直翻转作为数据增广方式。

4.Noah_Terminal Vision

        队伍Noah TerminalVision提出了一个微小视频超分TinyVSRNet结构,包含3个残差块(每个包含两个16通道数的卷积),后接一个depth-to-space上采样层和一个全局skip连接(执行双线性图像上采样)。主结构如图Fig6所示。作者也提出了一个“单帧”解决方案,将通道维度的10个视频帧转换到batch维度(通过split和concat层)。为了提升模型性能,他们采用论文[11]所提方案,在训练阶段使用3个对称卷积核(3x3, 1x3, 3x1), 在推理阶段将它们融合到一个卷积核里面。通过这种操作,TinyVSRNet的结果提升了0.05dB。训练使用L1损失,优化器采用Adam,100万次迭代,每隔20万步,学习率从5e-4降低到1e-6。

reference

[11]. Xiaohan Ding, Yuchen Guo, Guiguang Ding, and Jungong Han. Acnet: Strengthening the kernel skeletons for powerful cnn via asymmetric convolution blocks. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 1911–1920, 2019. 6

[15]. Zheng Hui, Xinbo Gao, Yunchu Yang, and Xiumei Wang. Lightweight image super-resolution with information multidistillation network. In Proceedings of the 27th ACM International Conference on Multimedia, pages 2024–2032, 2019. 5, 6

[34]. Takashi Isobe, Fang Zhu, Xu Jia, and Shengjin Wang. Revisiting temporal modeling for video super-resolution. arXiv preprint arXiv:2008.05765, 2020. 5

[38]. Heewon Kim, Seokil Hong, Bohyung Han, Heesoo Myeong, and Kyoung Mu Lee. Fine-grained neural architecture search. arXiv preprint arXiv:1911.07478, 2019. 6

[42]. Shaoli Liu, Chengjian Zheng, Kaidi Lu, Si Gao, Ning Wang, Bofei Wang, Diankai Zhang, Xiaofeng Zhang, and Tianyu Xu. Evsrnet: Efficient video super-resolution with neural architecture search. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, pages 0–0, 2021. 6, 7

 

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值