Eilertsen G, Mantiuk R K, Unger J. Single-frame Regularization for Temporally Stable CNNs[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 11176-11185.
摘要:
当应用于视频序列时,大多数训练来描述图像到图像映射的cnn会产生时间不稳定的结果,从而导致闪烁的伪影和其他不一致。为了将CNNs用于视频材料,以往的方法主要是在训练和/或推理阶段对帧与帧之间的运动信息(光流)进行估计,或者探索循环学习结构。我们对这个问题采取了不同的方法,将时间稳定性作为成本函数的正则化。正则化是针对帧之间可能发生的不同类型的运动而制定的,因此可以在不需要视频材料或昂贵的运动估计的情况下训练时间稳定的CNNs。训练可以作为一个微调操作来执行,而不需要修改CNN的架构。我们的评估表明,训练策略导致了时间平滑性的大幅改善。此外,对于小的数据集,正则化可以在很大程度上提高泛化性能,这比单纯的增强策略更有效。
我们不再依赖于自定义的架构,而是采用一种简单、高效和通用的方法来解决CNN的时间稳定性问题。我们把稳定性作为损失函数的正则化项,它可能适用于任何CNN。根据对时间变化处理的预期行为的观察,我们制定了两个不同的正则化。结果是一种在时域稳定CNNs的轻量级方法。它可以通过微调预先训练好的CNN权重来应用,不需要特殊用途的训练数据或CNN架构。通过大量的彩色化和单曝光高动态范围(HDR)重建实验,证明了正则化策略的有效性
贡献:
- 提出了两种新的CNNs时间稳定正则化算法,它们都能模拟视频序列中连续帧的动态。
- 提出了一种基于感知动机的平滑度度量方法,用于评价时间稳定性。
- 评价结果表明,该训练方法在保持甚至提高CNN性能的同时,显著提高了时间稳定性。
- 对于训练数据有限的场景,正则化策略的泛化性能明显优于传统的数据扩充
本文考虑图像到图像的监督训练CNNs,总损失为:
第一项是CNN的主要目标,促进重建从输入图像x到 真值 y。给定任意CNN,训练了获得Lrec损失, 增加项Lreg是唯一本文修改以适应CNN视频材料,提高CNN的时间稳定性。标量α是用来控制正则化项的权重。
三种不同的正则化项,三种正则化项都依赖于对输入图像的扰动:
- Stability regularization
Zheng et al. [39] 中介绍的正则化项,给一个输入图像 x, 加上一个小的扰动 , 正则化项为:
扰动是每像素独立的正态分布噪声,正则项的目的是使得 原输入图像和扰动后的图像的预测结果尽可能相似。
- Transform invariance regularization
时间一致性的经典度量方法是使用两个连续帧
W描述了利用两帧之间的光流场从第一帧到第二帧的 扭转操作。如果存在不能用流场运动来解释的帧与帧之间的变化,则这些变化被注册为不一致性。 此方法需要视频数据或是光流信息,本文为了打破这个限制(不适用视频或是光流信息),引入了基于几何变换的帧内扭转:
模拟相邻两帧,如果这些帧在时间上是一致的,那么执行翘曲以注册这两个帧应该会产生相同的结果,即
则
- Sparse Jacobian regularization
监督学习通常依赖于将一个函数拟合到若干训练点上,而不考虑这些点附近的函数行为。更可取的做法是,不仅向训练提供函数值,而且还提供函数在给定点处的雅可比矩阵形式的偏导信息, 为cnn 提供完整jacobian 矩阵 不现实,需要雅可比矩阵的元素太多。本文然而,我们将证明,即使我们使用雅可比矩阵的稀疏估计,并且只对输入空间的几个随机方向采样,我们也可以大大提高预测的稳定性和准确性。
在图像到图像映射的情况下,我们知道通过平移、旋转和缩放转换的输入补丁应该产生转换后的输出patch。每一个变换都映射到输入和输出空间中的一个向量变化,我们可以用数值方法估计它的偏导数。也就是说,我们希望训练函数f的偏导数尽可能地接近于ground truth输出patch的偏导数
表示表示其中一个转换对输入空间的影响
是训练集中x对应的输出patch
表示转换后的输出patch
为了符号统一:
定义 :
度量平滑的方法:
测量方法计算了参考和重建视频序列之间的高时间频率之比。首先从两个序列中提取高时间频率分量的能量
如果S < 1,则重构视频的平滑度不如ground truth视频,对于S > 1则相反
[39] S. Zheng, Y. Song, T. Leung, and I. Goodfellow. Improving the robustness of deep neural networks via stability training. In Proceedings of IEEE conference on Computer Vision and Pattern Recognition (CVPR 2016), pages 4480–4488, 2016.