本文中心思想
将模糊图像中FMO的外观和位置输出到一系列的子帧中,即进行时间超分辨率。模糊帧的物理生成模型被假设为多个具有锐利边缘的子帧的时间集成。
DeFMO提出的网络不局限于运动物体为球体,而是可以重建任意形状FMO的锐利轮廓和外观,综合了FMO去模糊、3D建模和子帧跟踪。并且在合成的数据集进行自监督的去模糊训练,但是具有很好的泛化性能够很好地迁移到真实数据集上。
DeFMO的思路
输入数据是由干净的背景和合成的具有FMO的图像组成。通过编码器提升至特征空间,通过渲染器将每个时间间隔对应的锐利的前景图像进行重建。最后再将每个时间点对应的重建子帧进行FMO模糊图像重建与输入进行约束。网络结构如下所示:
网络的整体思路可以总结为:对FMO模糊图像进行一个A到B再到A的循环过程,从模糊图像重建为一个序列的前景目标锐利的子帧再将子帧序列重新合成为模糊FMO图像。
损失函数的约束
本文提出的网络结构由五部分的损失函数约束,如下所示:
第一部分Lf为外观重建损失,对应如下部分:
损失函数的表达式:
由于输入是单一的模糊图像所以重建子帧的时候不清楚时间轴的方向,因此本文方法采用的是对时间轴的两个方向都进行评估并选取标签最佳对齐的时间方向的损失。这边的Lr代表的是渲染时候的损失:
这里前两项是对mask的约束,最后一项是针对前景进行约束。这部分的损失是需要真实标签。
第二部分是图像重建损失,对应如下部分:
该项损失函数针对再合成的FMO模糊图像与原图进行约束,属于自监督度量。其表达式如下:
第三项是时间一致性损失函数:在图中对应如下部分:
渲染图Rt在相近的时间点是相似的,两个不同时间点的渲染图之间的相似性可以被定义为图像域归一化互相关的最大值。如下所示:
第四部分是图像的锐度损失:
这部分损失的主要是对前景的锐度重建进行约束,实现的方法就是针对mask的进行约束。因为前景是由图像乘mask得到,如果mask的值不是0,1的二值图那么得到的前景目标将不会是干净的。因此该损失函数项的作用就是利用最小化图像域上逐像素的二进制熵H2的平均值来使得所有像素期望值接近0或者1。其表达式如下:
最后一项为特征空间的约束:
由于本文使用数据集是合成的数据集,这个数据集中有图像对是相同的FMO在相同的运动轨迹上运动并与不同的背景图像进行合成。在经过编码器提到特征层面之后我们所希望得到的是前景的特征即FMO的特征,两个前景相同轨迹相同但是背景不同的输入,在特征空间中网络希望得到的是相同的潜在表示。在图中所示位置如下:
因此该损失函数约束的内容就是相同前景不同背景的图像对在特征层面要尽可能的相似,其表达式如下所示,X1和X2表示的是两幅图像生成的潜在空间:
实验结果