作者丨薛洁婷
学校丨北京交通大学硕士生
研究方向丨图像翻译
研究动机
近年来关于图像翻译的研究越来越多,其中比较经典的有监督模型包括 Pix2Pix, BicycleGAN 等,无监督模型包括 CycleGAN, MUNIT, StarGAN, DRIT 等。
由于这些模型无论是针对多领域翻译还是单领域翻译都是将目标域图像的风格/属性整个迁移到源域图像上,因此虽然这些方法可以很好的解决风格统一或者内容相关的图像翻译问题,但对于有大量实例物体并且物体与背景之间的风格差异非常巨大的复杂结构图像翻译来说是很困难的。
为了解决该问题,作者基于 MUNIT 模型提出了基于端到端的训练模型 INIT,其采用不同的风格编码来独立的翻译图像中的物体、背景以及全局区域。
▲ 图1. 现有图像翻译模型的局限
模型架构
INIT 的网络架构非常类似于 MUNIT 模型,但不同于 MUNIT 模型,作者提出的模型不仅对全局图像进行内容和属性编码,而且还对实例物体以及背景也进行内容-属性编码。即首先给定一对未对齐的图像和实例物体的坐标位置,应用全局编码器 Eg 以及局部编码器 Eo 分别获取全局图像和实例物体图像内容 c 和属性向量 s,然后通过交换属性向量来获取跨域的目标实例对象图像,整个模型的架构如下图所示。
▲