AAAI2020/风格迁移:Ultrafast Photorealistic Style Transfer via Neural Architecture基于神经结构搜索的超快逼真风格转移
0.摘要
真实感风格转换的关键挑战是,算法应该忠实地将参考照片的风格转换为内容照片,而生成的图像应该看起来像相机捕捉到的图像。虽然已经提出了一些照片逼真风格的转移算法,但它们需要依赖于后处理和/或预处理,以使生成的图像看起来逼真。如果我们禁用额外的处理,这些算法将无法在细节保存和照片真实感方面产生似是而非的逼真风格化。在这项工作中,我们提出了这些问题的有效解决方案。我们的方法由构造步(C-step)和加速步(P-step)组成,前者用于构建逼真的风格化网络。在c步中,我们提出了一个基于精心设计的预分析的密集自编码器PhotoNet。PhotoNet集成了特征聚合模块(BFA)和实例归一化跳过链路(INSL)。为了生成真实的风格化图像,我们在解码器和INSLs中引入了多种样式传输模块。PhotoNet在效率和有效性方面都明显优于现有算法。在p步中,我们采用神经结构搜索方法来加速PhotoNet。在师生学习模式下提出了一种自动网络修剪框架,实现了逼真的风格化。从研究中得到的网络架构PhotoNAS在保持风格化效果几乎完整的同时,比PhotoNet实现了显著的加速。我们对图像和视频传输进行了大量的实验。结果表明,与现有的先进方法相比,我们的方法可以在获得20-30倍的加速度的情况下产生良好的结果。值得注意的是,该算法在不进行任何预处理和后处理的情况下取得了较好的性能
1.概述
逼真风格转换是一种图像编辑任务,旨在改变照片的风格,以给定的参考。为了逼真,生成的图像应该保留输入的空间细节,看起来像相机捕获的照片。例如,在图1中,我们将夜间视图照片从暖色转换为冷色,而在另一个示例中,将白天的照片转换为夜间的照片。在这些例子中,输入内容的场景在生成的结果中保持完整。不幸的是,艺术风格转移方法(Gatys, Ecker,和Bethge 2015;2016;Johnson, Alahi,和飞飞2016;Ulyanov等2016;Li等2017;黄和Belongie 2017;Sheng et al. 2018;Li et al. 2019)通常扭曲图像中的精细细节(线条、形状、边界),这是在艺术场景中产生艺术风格所必需的,但在摄影现实风格化中不受欢迎。我们用WCT的例子来说明艺术方法在真实感风格化案例中的失败。1 (b).补充材料中有更多失效案例
图1:逼真风格转换结果。给定(a)一个输入对(Ic:内容,Is:样式),我们展示(b) WCT (Liet al. 2017), © PhotoWCT (Liet al. 2018), (d) WCT2(Yoo et al. 2019)和(e)我们的方法的结果。每个结果都是在没有区域掩模和/或后处理的协助下产生的,以进行公平的比较。虽然比较的方法产生了明显的空间扭曲,提出的方法在细节保存和照片真实感方面获得了更好的风格转移结果
Luanet al.在Gatyset al.(Gatys, Ecker, and Bethge 2016)的基础上,Luanet al.(Luan et al. 2017)引入了一个photorealtic损失项,并采用优化方法进行风格转移。然而,求解优化问题需要大量的时间和计算。为了解决这个问题,Lietal提出PhotoWCT (Li et al. 2018),它使用前馈网络进行风格转移。尽管PhotoWCT应用了多级风格化并使用去池算子代替上采样来增强网络的细节保存,但生成的结果仍然存在如图1 ©所示的失真。为了克服剩余的伪象,他们必须引入紧密形式的后处理和区域掩模(如果有的话)来调节图像的空间亲和力。然而,这样的后处理计算量大,导致结果过于平滑。最近,Yooet al.(Yoo et al. 2019)提出了小波校正迁移Wavelet Corrected Transfer(WCT2),旨在消除后处理步骤,同时保留传输照片的精细细节。虽然使用小波可以提高信号恢复的保真度,但WCT2还需要依靠内容和参考风格照片的区域掩码来进行风格转移。如果这样的区域掩码被禁用,如图所示。1 (d), WCT2的结果出现了明显的失真。由于对于任意的照片很难获得这样的区域掩码(通常必须训练特定的网络来分割输入的照片并手动微调分割结果),PhotoWCT和WCT2的实际使用是有限的。
在网络架构方面,PhotoWCT和WCT2都采用相同的对称自编码器,但使用不同的下采样和上采样模块。然而,专门为逼真风格传输设计的一般网络架构还没有得到很好的研究。这项工作填补了这一空白。具体地说,我们的算法包括一个网络构建步骤(C-step),引入一个高效的自编码器来实现逼真的程式化,然后采用一个修剪步骤(P-step)来压缩自编码器以实现加速。在C-step中,我们首先进行了精心设计的预分析,并根据分析结果引入了瓶颈特征聚合(BFA)和实例归一化跳过链接(INSL)两个架构模块。BFA,受(Yu etal。2018;Zhao等人。2017),采用多分辨率深度特征来改善逼真的程式化效果。INSLis是源自U-Net (Ronneberger, Fischer, and Brox 2015)的跳跃式连接(SC)和实例规范化(Ulyanov, Vedaldi, and lemmit -sky 2016)的结合。INSL实现了高保真度的信息恢复,同时避免了使用SCs时出现的“短路”现象。基于这些模块,我们构建了一个具有BFA和密集放置INSLs的非对称自编码器(photonet)。由于提出的模块,我们的PhotoNet在精细细节保存方面优于DPST (Luan等人。2017),PhotoWCT和WCT2。在P-step中,我们提出了一个师生学习的神经架构搜索框架(即StyleNAS)。PhotoNet是我们NAS搜索空间中的最大架构,其中采用进化算法(Kim et al. 2017)迭代修剪PhotoNet中的可移动算子(除VGG编码器和最小基本算子外的任何算子,以形成解码器)。在体系结构研究的每个循环中,我们首先突变20个新的体系结构。每个体系结构都包含一个预先训练的VGG-19 (Simonyan和Zisser-man 2014),作为编码器和解码器被训练来重建图像。在训练之后,一个验证过程被适应,每个架构的性能通过其与oracle结果的相似性来评估(即PhotoNet)。为了压缩网络结构,我们在此基础上引入了网络复杂度损失来惩罚耗时的网络,最终得到了一组高效有效的网络,用于逼真的风格传输。本文选取了其中的一种photonas进行比较,并在补充材料中列出了更多的检索结构和结果
2.相关工作
2.1.风格迁移
在计算机视觉领域,图像样式转换已经做出了很大的努力。在采用深度神经网络之前,基于笔画绘制(Hertzmann 1998)的几个经典模型,图像类比(Hertzmann et al. 2001;Shih et al. 2013;2014;Frigo等2016;Liao等人2017),或图像过滤(Win-nem oller, Olsen,和Gooch 2006)已经被提出在风格转移的质量、概括和效率之间进行权衡。
盖提塞特等人(盖提斯,埃克,和贝奇2015;2016)首次提出将风格转移建模为一个优化问题——最小化神经网络的深度特征及其Gram矩阵,而这些网络被设计为只适合艺术风格的工作。在照片风格转换场景中,已经提出了神经网络方法(Luan等人2017;Li等人2018)来实现逼真风格的风格转换。这些方法要么引入基于平滑的损失项(Luan et al. 2017),要么利用后处理来平滑传输的图像(Li et al.2018),这不可避免地减少了图像的精细细节,显著增加了时间消耗。最近,Yooetal。(Yoo et al. 2019)提出了WCT2,它允许在没有低效后处理的情况下传输环形逼真风格。然而,WCT2必须借助区域掩模,而区域掩模难以获得,从而限制了其实际应用。
2.2.图像到图像的翻译
除了风格转移,在图像对图像的翻译中,也对照片真实感风格化进行了研究(Isola et al. 2017;Wang et al. 2018;Liu and Tuzel 2016;Taigman, Polyak,和Wolf 2017;Shrivastava等人2017;Liu, Breuel和Kautz 2017;朱等等。2017;黄等人。2018)。真实感风格转换与图像间翻译的主要区别在于,真实感风格转换不需要成对的训练数据(即转换前和转换后的图像)。当然,图像对图像的翻译可以解决更复杂的问题,如男人对女人和猫对狗的适应问题
2.3.讨论
与我们的研究最相关的工作包括eswct、PhotoWCT和WCT2。WCT用于艺术风格化,后两者用于照片-现实风格化。与PhotoWCT相比,该方法在保证样式转移有效性的同时,避免了耗时的后处理和多轮风格化。我们的方法与wct2之间的主要区别是,提出的算法允许在没有任何通过分割内容和样式输入获得的区域掩码的帮助下传输照片样式。与PhotoWCT和WCT2相比,我们的方法产生的结果具有更高的锐度、更少的失真和显著降低的计算成本
3.预分析
为了设计有效的模块/网络,我们首先对影响风格化效果的网络结构因素进行预分析,提出有用的网络模块,以提高风格化效果。我们采用vanilla对称自动编码器作为基线。对于每个被研究的模块,我们将比较它的转移结果与基线在视觉效果和摄影真实感方面。更多的分析结果可在补充材料中获得
3.1.特征聚合
图2:有bfa和没有bfa的自动编码器之间的比较(a)是将WCT作为传输模块放置在瓶颈处的普通自动编码器,它被用作基线。(b)是装有BFAmodule的自动编码器。©为输入内容(Ic)和样式(is)图像,(d)和(e)分别为(a)和(b)产生的结果。(e)中的树包含更详细的枝叶。
特征聚合是将不同层次的深度网络产生的多尺度特征连接在一起的网络模块。特征聚合使网络能够集成来自不同视域的信息,因此可以增强发生在高级特