连续图像效果过渡的深度网络插值
摘要
用户口味的多样性激发了不同输出效果之间的连续过渡的可能性。
提出了一种简单而通用的方法来在许多低水平视觉任务中实现对不同图像效果的平滑控制,包括图像恢复、图像到图像转换和风格转换。深度网络插值(Deep Network Interpolation, DNI),是在两个或多个相关网络的参数空间中进行线性插值。通过调整插值系数可以实现图像效果的平滑控制。
一、介绍
对于每个特定的任务,深度网络学习一个确定性映射,并为相同的输入输出固定的图像。然而,一个确定的输出不能满足不同的用户口味和不同场景的需求,限制了实际使用的适用性。
在现实应用中,需要对不同输出效果之间的连续过渡进行平滑控制。例如:
(1)使用均方误差(MSE)损失训练的模型往往产生过光滑的图像,而使用生成对抗网络(GAN)训练的模型产生生动的细节,但有一些噪声(如图1,第一行)。这两种不同效果之间的平衡结果在减少人为因素的情况下更加赏心悦目。
Figure 1.
(2)许多图像恢复任务需要处理多种退化水平,如不同的噪声水平和模糊核。大多数现有方法只能处理有限的退化水平。在实践中训练大量的模型来实现连续退化水平代价很大。因此,具有调整修复强度灵活性的模型将扩大应用范围。
(3)在图像到图像的翻译和图像风格的转换等操作中,不同的用户有不同的审美。在这些应用中,通过滑动条实现对各种效果的平滑控制很有吸引力。
本文方法:深度网络插值(DNI),通过对已有训练网络的参数空间进行线性插值,实现图像效果的连续过渡。DNI对这两个深度网络的所有相应参数均采用线性插值。然后可以通过一个可控的插值系数来推导各种插值模型。使用相同的输入对这些插值模型执行前馈操作,使我们能够输出不同效果A和B之间的连续过渡。
DNI具有以下优点:
(1)过渡效果平滑,插值过程中没有突变。这种过渡可以很容易地通过一个插值系数来控制。
(2)线性插值操作简单。每次转换都不需要网络训练,DNI的计算可以忽略不计。
(3) DNI兼容VGG、ResNet、DenseNet等流行的网络结构。
主要贡献:
(1)在参数空间内插值的新概念及其在低层次视觉任务中的应用。
(2)证明了在参数空间内的插值比单纯的像素插值能获得更好的结果。
二、方法
2.1 DNI
两个有相同结构的网络G_A 和G_B,分别实现不同的效果A和B。
网络由卷积、上下采样和非线性激活等常见操作组成,CNN中的参数主要是卷积层的权重,称为滤波器,对输入图像或先验特征进行滤波。
假设它们的参数θ_A和θ_B具有“强相关性”,即G_A和G_B在同一位置的滤波器阶数和滤波器模式相似。
目标是利用DNI实现效果A和B之间的连续过渡。
DNI对这两个模型的所有相应参数进行插值,得出一个新的插值模型G_interp,它的参数为:
α是插值系数。实际上,它是两个参数向量θ_A和θ_B的线性插值。插值系数α控制效应A和B的平衡。通过平滑滑动α,实现连续过渡效应,而不会发生突变。
DNI可以扩展到N个模型,表示为G1、G2、,GN,其参数彼此“密切相关”。DNI的公式为:
通过调节(α1,α2,…,αN),可以实现具有连续过渡的丰富多样的效应。
插值在网络中具有参数的所有层上执行,包括卷积层(权重+偏差)和归一化层。
只要待插值模型的结构保持不变,DNI网络结构的选择是灵活的。DNI与流行的网络结构(如VGG、ResNet和DenseNet)兼容。DNI的计算只与参数数量成正比。
2.2 理解DNI
通过实证研究认识网络插值,网络插值的滤波器和网络学习的滤波器可以很好地拟合,所以完全可以通过DNI公式插值网络学习的两端的滤波器来拟合中间过程的滤波器。
(1)微调使得不同网络的参数之间具有较高的相关性,为有意义的插值提供了可能。
(2)一系列相关任务的微调过滤器呈现持续变化。
(3)插值滤波器能够很好地拟合实际学习滤波器。
网络间相关性的微调
微调有助于保持过滤器的次序和模式:将预先训练好的网络(N20 run1)微调到相关任务(N60):
Figure 2.
保持了滤波器顺序和滤波器模式。这两个网络参数之间的“高度相关性”为有意义的插值提供了可能性。
已学习的相关任务的过滤器显示出持续的变化
当我们从一个预先训练过的模型(N20)中为相关任务(N30, N40, N50和N60)微调几个模型时,相应的学习过的滤波器与平滑过渡具有内在联系。如图3第一行:
Figure 3.
随着噪声水平的增加,经过训练的滤波器呈现出逐渐的变化。
用ρ_ij来衡量F_i和F_j的相关性:
用第一个N20滤波器计算每个滤波器的相关指数,并绘制曲线(图3中的蓝色曲线)。结果表明,学习后的滤波器之间关系密切,随着噪声水平的增加呈现逐渐变化 。
插值滤波器与学习滤波器很好地拟合
学习滤波器的连续变化表明,可以通过插值两端得到中间滤波器,为了验证这一结果,在N20和N60模型的滤波器之间进行了线性插值,在最优系数α的情况下,插值滤波器可以直观地拟合那些学习过的滤波器(第二行红色帧,图3)。我们进一步计算每个插值滤波器与第一个N20滤波器的相关指数。学习滤波器和插值滤波器的相关曲线也非常接近。
通过插值网络的最终性能得到最优α。用从0到1的α,间隔为0.05进行DNI。为每个噪声等级选择最佳α,使插值网络在测试数据集上产生最高的PSNR。
三、应用
DNI可以应用于广泛的低水平视觉任务,如图像恢复、图像到图像的平移和图像风格转移。在第4.4节中给出了另一个关于人脸属性平滑转换的例子,说明了语义变化的潜力。
3.1 图像恢复
如图4,DNI能够平滑地改变从MSE效应到GAN效应的输出。通过适当的插值系数,它可以在保持纹理的同时,在很大程度上减少伪影,从而产生视觉效果。
Figure 4.
将DNI与逐像素插值相比:像素插值无法分离伪影和细节。水波纹理和伪影在过渡期间同时出现并增强。相反,DNI首先增强生动的水波而不产生伪影,然后更精细的纹理和不希望出现的噪声相继出现。 有效的分离有助于在保留有利纹理的同时去除不愉快的伪影,优于像素插值。
通过调整训练过程中MSE损失和GAN损失的权重,还可以得到不同混合效应的几个模型。
缺点:然而,这种方法需要调整损失和训练许多网络来实现不同的平衡,因此实现持续控制成本很高。
调整去噪强度
去噪的目的是从一个有噪声的观测中恢复一个干净的图像。
提供了一个去噪模型专门处理特定的高斯噪声级N40。我们使用DnCNN作为我们的实现。但如图5所示,由于图像内容不同,确定的输出(黄色帧)并不令人满意。特别是草的去噪强度太大,产生过平滑的效果,而在平滑的天空区域,需要更大的去噪强度来去除不需要的伪影。
Figure 5.
我们所提出的DNI仅通过调整N20、N40和N60不同去噪模型的插值系数α即可实现可调去噪强度。
3.2 图像到图像转换
旨在学习将图像从一个域转换到另一个域。
DNI可以实现两种画家风格之间的连续过渡。使用流行的CycleGAN作为我们的实现。首先训练一个捕捉梵高特征的网络,然后对其进行微调,以创作出Cézanne风格的画作。通过调整插值系数,DNI能够生成给定的景观照片中这两种风格的各种混合。
图6(a)呈现了从梵高风格到Cézanne风格的平稳过渡
Figure 6.
DNI可以实现对特定图像区域的平滑、自然的转换。训练一个模型生成浅自由度的花卉照片,然后用identity mapping对其进行微调。然后DNI可以通过插值这两个模型来产生连续的自由度转换,如图6(b)。
DNI可以进一步应用于实现其他维度的连续图像转换,如光线变化,即,将日间照片转换为夜间照片。DNI只接受日夜照片培训,能够生成一系列图像,模拟夜晚的来临。如图6(c)。
3.3 风格转换
将一件或多件艺术品的风格转换为输入图像时,有几个可控因素,例如,风格混合,笔画调整,内容与风格的平衡。DNI能够在不同风格之间生成从大到小的平滑过渡,同时平衡内容和风格。此外,DNI可以在多个模型之间应用,以同时实现对各种因素的连续控制。例如,可以根据用户口味同时调整笔划和风格,如图7所示。
Figure 7.
4.4 语义转换
四、总结
提出了参数空间内插值的新概念,即在多个相关网络的相应参数之间进行线性插值。通过调整插值系数,图像效果平滑变化。