©PaperWeekly 原创 · 作者|武广
学校|合肥工业大学硕士生
研究方向|图像生成
同一个场景在不同时间段存在着一定的变化,这主要取决于光照对图像的成像的影响,如何通过一个时间段的场景图像在无域标签的情况下合成出不同时间段下的高分辨率场景图像是本文要介绍的 CVPR 2020 oral 中 High-Resolution Daytime Translation Without Domain Labels (HiDT) 所做的工作。
论文标题:High-Resolution Daytime Translation Without Domain Labels
论文来源:CVPR 2020
论文链接:https://arxiv.org/abs/2003.08791
代码链接:https://github.com/saic-mdal/HiDT
论文引入
大部分使用 Mac 系统的用户默认动态壁纸是位于洛杉矶卡特琳娜岛的一天场景变化,对应着清晨、日出、正午、傍晚、入夜、凌晨的时移变化,固定机位间隔拍摄可以作为取景,然而这将花费一天时间。如何利用一张高分辨率图像达到时移自然场景的合成,是 HiDT 要实现的任务,文章称之为 Daytime Translation,图 1 展示了任务效果。
▲ 图1.HiDT在自然场景时移变换的结果图
自然场景的时移变换其实就是图像翻译的一类应用,早期的图像翻译在训练以及推理时都需要域标签,而 MUNIT [1] 和 FUNIT [2] 提出了目标域的几幅图像作为翻译指导,同时期的 StarGAN v2 [3] 更是提出了在一个生成器中根据不同的 style code 实现多域转换,这些或多或少都要有域标签的参与。
在时移场景变换下,域对应于一天中的不同时间和不同的照明,这个域标签定义起来是繁琐的,如何在无域标签的情况下实现高分辨率时移场景的合成是一个大的挑战。
然而大部分图像翻译任务在处理的图像上的尺寸多为中等尺寸,即 居多,如何实现高分辨率下( )的图像翻译仍是一个值得研究的问题,同时自然场景时移变换更是面临着不能完全依赖图像色彩空间的全局仿射变换,不能依赖时间戳和高分辨率下如何消去伪影等问题。
HiDT 通过对高分辨率源域图像进行分步转换,最后通过融合实现高分辨率图像合成,在处理图像伪影和细节上,文章将跳跃连接(Skip connections)和 AdaIN 进行结合,总结一下 HiDT 相比较已有的图像翻译方法的优势。
在仅有语义分割图的弱标签下实现了多域图像转换
在图像细节转换上通过跳跃连接和 AdaIN 结合实现高质量转换
通过拆分转换和融合达到高分辨图像转换
网络架构和优化
HiDT 的架构是建立在跳跃连接和 AdaIN 结合的基础上,采用 UNet 和 AdaIN 架构起网络的编码和解码器的主体,这个结构如图 2 所示。
▲ 图2.HiDT编码和解码器网络
由架构图可以看到对于输入 ,通过下采样进行编码得到对应的图像内容编码 ,解码端(生成器)将内容编码 ,风格编码 与不同下采样进行跳跃连接再配合 AdaIN 嵌入进行上采样生成对应的目标域图像。
决定转换后图像风格(可以理解为自然场景的不同时刻和光照)的是由风格编码 决定。而风格编码 在训练阶段是由目标域图像编码得到,在测试阶段则是通过在先验分布下采样得到,这部分我们待会再详细讨论。
HiDT 的整体架构倒是很直观,详细的网络结构只能通过代码去进一步查看,作者放出了项目地址,但是代码还在更新中。不过值得说的是 HiDT 对于模型的优化过程介绍的很好,这也算是图像翻译中比较详细和先进的模型优化方式。
▲ 图3.HiDT网络优化过程
在介绍之前,先来梳理一下图 3 中的符号, 表示源域输入图像, 表示内容编码器相对应的 为内容编码, 表示风格编码器相对应的 为风格编码, 为生成器, 为目标域风格编码, 为风格编码的先验分布, 为在风格编码的先验分布下随机采样的风格编码。
生成器 不光光输出的是转换后的图像,同时也输出相对应的风格掩码图 。
从上到下分析,随机风格采样 与内容编码