本文中,作者认为在图片转换中,desired output可能代价高昂(例如艺术作品)或者难以被很好的定义(例如下图斑马与马的转换),因此提出了一个能在匹配的训练样本缺失的情况下,完成捕获一类图片集合特殊特征并将其转化进入另一类图片集合中的方法。可以将其广义地解释为图像转换,例如灰白图像变彩色,图片转化为语义标签,描边图转化为照片等等。
附上开头的效果图:
以及作者对匹配和不匹配的解释:
作者提出,该方法基于一个假设,即在多个domains中存在潜在的联系(比如同一个潜在场景的不同翻译),而本方法就是在寻找这种联系。
原始GAN的问题:
作者将原始的gan网络如下概括:
对于两个domains X,Y,定义映射G:XY输出
通过一个adversary网络训练将y和
区分开来。理论上,这将会得到一个与y观测值
相匹配的分布
,最优G将会和Y建立同分布
。但是作者提出一个问题,即无法保证每一个x与输出y以一种有意义的方式配对起来,换句话说有无数种映射关系能使得集合X输出与Y相同分布的集合
。实际上,作者发现很难对对抗网络进行孤立优化,标准进程经常导致mode collapse,即所有的输入图片输出同样的输出图片,优化过程无法进展。
在受到“pix2pix”思想(conditional GAN),使用传递性来调整结构化数据的思想,及利用循环一致性监督训练等思想的启发后,作者提出了包含双射映射的cyclegan。
结构图如下(图文参考于https://zhuanlan.zhihu.com/p/32103958):