论文地址:https://arxiv.org/abs/2105.08826
论文小结
这比赛的目标是在移动手机上得到实时运行的视频超分算法,目标在480p(实际上是
180
∗
30
180*30
180∗30)分辨率输入下得到HD分辨率,且有80FPS。训练数据集为REDS,4倍超分,在OPPO Find x2手机上,865的芯片,Qualcomm Adreno 650 CPU,浮点数网络(之前的SISR目标是定点数网络)。
视频超分比赛输入为
180
∗
320
180*320
180∗320,目标是4倍上采样,图像超分输入为
640
∗
360
640*360
640∗360,目标是3倍上采样;
验证运行时间和限制算子的平台仍然是AI benchmark和TF Lite。
论文简介
数据集
数据集为REDS,一共有300段视频,240段视频用于训练,30段视频用于验证,30段视频用于测试。每段视频长度为 100 100 100帧,每帧分辨率为 1280 ∗ 720 1280*720 1280∗720,帧率为24FPS。制作数据时,使用双三次(bicubically)下采样,下采样因子为4。
指标
最后的分数指标计算和SISR比赛一样。 S c o r e = 2 2 ∗ P S N R C ∗ r u n t i m e Score = \frac{2^{2*PSNR}}{C*runtime} Score=C∗runtime22∗PSNR
参赛情况
视频超分比赛有125个注册参与者,有4个团队入围了最终阶段。下表为4个团队的结果,其中Noah_TerminalVision团队使用的算法有算子与TF Lite的GPU算子不兼容,只能在CPU上进行。
Diggers是挑战赛的冠军,也只有该团队的解决方案使用了帧间依赖,其他方案使用标准的单帧方法进行上采样。Diggers使用循环连接(Recurrent Connections)利用帧间依赖,以获得更好的重构结果。单帧方法只比Diggers团队差一点点,但都比简单的双三次插值要好得多。
下图展示了几个团队的算法超分的感官效果。
算法介绍
Diggers
Diggers使用双向循环网络,利用前后视频帧作为额外信息。网络结构如下图所示,对于每个输入帧,先使用两个特征提取模块(FEB Module),得到两个特征图,分别用于forward(blue)和backward(orange)。Forward特征用于结合前面帧的特征,反馈到后续帧的HR信息,Backward特征则反之。最后结合多帧的信息来获得当前帧的feature maps。得到的前向特征和反向特征进入一个选择单元模块(SEL Block,Selection units Layer)。上采样采用一个IMDB模块,两个卷积和Image Resize层。
训练策略为:batchSize为16,训练31个epochs,初始化学习率为
4
e
−
3
4e^{-3}
4e−3,从第7个epoch开始,每2个epoch学习率衰减为
0.7
0.7
0.7(乘以
0.7
0.7
0.7),
L
1
L_1
L1作为Loss,Adam作为优化器。然后再用
L
2
L_2
L2作为Loss训练31个epochs,学习率策略与前一阶段31个epochs一样。
ZTE VIP
ZTE VIP团队的算法没有帧间依赖,其对每帧单独进行上采样,这样能大幅提高推理速度。比赛的标准是输入tensor为10帧concat到一起,即输入为
B
∗
H
∗
W
∗
(
3
∗
10
)
B*H*W*(3*10)
B∗H∗W∗(3∗10),其中
B
=
1
B=1
B=1。ZTE VIP团队先将输入reshape成
(
B
∗
10
)
∗
H
∗
W
∗
3
(B * 10)*H*W*3
(B∗10)∗H∗W∗3,即
10
∗
H
∗
W
∗
3
10*H*W*3
10∗H∗W∗3,该做法把输入的连续帧认为是单独的帧。然后分别进入几个残差块,和depth-to-space层中获得最后的上采样图像。残差块的数目和大小由NAS搜出来的,组成条件有Loss和FLOPs。模型最后有5个残差块,每个包含2个
3
∗
3
3*3
3∗3Conv,Channel数目为8。
训练策略为:
L
1
L_1
L1作为Loss,batchSize为4,训练100个epochs,Adam作为优化器,初始化学习率为
2
e
−
4
2e^{-4}
2e−4,学习率缩放因子为
0.5
0.5
0.5,每400个epoch变一次学习率。具体细节可在论文上查看。https://ieeexplore.ieee.org/document/9522982
Rainbow
Rainbow团队也提出一个纯CNN的方案,生成每帧的高分辨率图像。其使用3个IMDB-s模块,接着depth-to-space上采样。对每个视频帧分别如此进行,加上一个全局的Skip Connection用于改善视觉效果。
训练策略为:
L
1
L_1
L1作为Loss,Adam作为优化器,初始学习率为
2
e
−
4
2e^{-4}
2e−4,每
50
k
50k
50k次迭代学习率减半,batchSize为8;
Noah_TereminalVision
Noah_TereminalVision提出一个TinyVSRNet网络,其包含3个残差块,每个块有2个卷积,卷积通道数为16,然后再接着一个depth-to-space和一个全局skip connection(在上采样之后)。
训练策略为:训练时使用重参数结构,重参数组件为非对称卷积
3
∗
3
3*3
3∗3、
1
∗
3
1*3
1∗3和
3
∗
1
3*1
3∗1,在训练时分开,在测试时合为同一个。重参数的训练方式可以给TinyVSRNet增加
0.05
d
B
0.05dB
0.05dB的PSNR。使用
L
1
L_1
L1作为Loss,使用Adam优化器训练
1
1
1百万次迭代,使用循环损失策略,每
200
K
200K
200K次迭代从
5
e
−
4
5e^{-4}
5e−4降到
1
e
−
6
1e^{-6}
1e−6。
举办方和参赛者
举办方为:
- 苏黎世联邦理工学院
- OPPO
- AI Witchlabs, Switzerland(苏黎世一家企业)
- 首尔大学
参赛方:
- Diggers。电子科技大学
- ZTE VIP。中兴
- Rainbow。西安电子科技大学,电子工程学院
- Noah_TerminalVision。华为