前言:发表在ECCV workshop2020上的一篇文章,在QVI的方法上做的改进,是AIM2020时域超分辨挑战赛的第一
论文地址:【here】
代码地址:【here】
Enhanced Quadratic Video Interpolation
引言
QVI的插帧方法性能很不错,但是仍然存在重影,伪影和不准确的运动的情况(ghosting, artifacts and inaccurate motion)
重影
伪影
不准确的运动
该文章从三个方面提出了改进的方法,并分别在不同阶段进行训练
- 修正的二次流预测rectified quadratic flow prediction formula (RQFP)
- 残差语义合成网络 residual contextual synthesis network(RCSN)
- 多尺度融合网络 multi-scale fusion network
网络架构
原本的QVI作改进后的网络
残差语义网络
以及融合网络
修正的二次流预测
pipeline如下
在原本的QVI中,二次流预测只用到了F0-1和F0-(-1)两个流,通过
便可以求出加速度和初速度
然而四张连续的图片中,不止两个流可以利用,中间有三段间隔理应有三个不相关的流,该文章用到了三个流0-(-1),0-1, 0-2,构建了一个公式
化成矩阵形式
由于限制太多,解不出来,于是解这样的一个超定方程overdetermined equation利用最小二乘的方法,即
于是解得了修正后的加速度和初速度,这样的加速度和初速度可以满足近似二次的运动而不是正好二次的运动
作者为了解释近似二次和正好二次运动的区别,用了小车图来阐释;t=1时刻,正好二次(理想二次)的小车在b行,c,d行的近似二次的小车运动超前一点
但是作者并不是直接拿来这样的修正加速度和初速度,而是与原本QVI求得的加速度和初速度结合起来用,作了一个mask,用来结合两者的求得结果
其中里面的阿尔法由tanh形式的公式求得
残差语义合成网络
利用了原图像,特征图,边缘图三个一起进行融合,生成的是残差图,不是原图,作者给的解释是第一,原有QVI已经很好了,不想破坏原本好的结果,第二,残差图更方便学,第三,更好的验证它带来的性能增益
多尺度特征融合网络
在经过了前面的网络设计与训练后,可以得到一个well-trained model,于是分别在不同尺度上输入这个网络,最后upsample成原分辨率进行合成。融合网络生成的是一个特征图权重,分别指代大分辨率图上的权重,和小分辨率图upsample之后的权重
训练策略
1 训原有的QVI
2 加上残差语义融合模块微调
3 加上修正的二次流预测之后微调
4 加上多尺度语义特征融合网络后微调
实验结果
与之前的方法对比
与其他比赛结果对比
总结
这篇文章对QVI的改动很多也很丰富,其中印象深刻的是修正的二次流处理那部分,这样分阶段的训练策略稍微有些不太好理解,代码也已经开源了,之后多多学习吧