论文链接:https://arxiv.org/abs/1802.06454
一、图像翻译
通过从一个图像域到另一个图像域找到一些底层对应关系(例如,类似的语义)来学习映射函数,这就是图像翻译问题。翻译的原则是保留源域的预期身份(例如,文本到图像中的语义,面对动画中的人类ID),同时生成与目标域的分布匹配的样本。
二、目前技术挑战
多年的研究已经在有足够的配对的监督环境中产生了强大的翻译系统。然而,获得配对的训练数据是困难且昂贵的。因此,研究人员转向开发无监督学习方法,该方法仅依赖于不成对数据,它更具挑战性。
现有的工作建立在生成对抗网络(GAN)之上,然而,它们仅受到数据分布的整体表征的训练,而缺乏推理机制来在抽象层面推理数据。隐式训练过程和弱可控性使他们无法找到有意义的实例级对应关系,此限制通常会导致误报(例如几何或语义伪像),并进一步导致模式崩溃问题。文本-图像翻译和对象变形任务示例如下图所示:
在文本到图像的合成中,通常缺少细粒度的细节;在对象变形中,结果只显示颜色和纹理的变化,而几何变化失败。