《基于对抗学习的图像间转换问题-1》的链接地址:https://zhuanlan.zhihu.com/p/263692012
1.4、CycleGAN
更加具有普适性的无监督图像转换方案,目前来看是基于对偶学习(Dual Learning)的概念。很经典的就是文献[1]提出的CycleGAN结构,给定两个域X和Y,在将X域映射到Y域的同时,又将Y域映射回X域,这里用到了循环一致性(Cycle-consistency)损失。如果只有单向的过程,往往会出现生成网络过拟合的现象,比如多张X域的图像被映射到同一张Y域的图像上,那么损失函数就会失效。
还有文献[2]提出的DualGAN结构,思想其实和CycleGAN是一样的。数据流动过程也十分好理解,下图清楚地标示出了每一阶段的结果是由哪两个元素输入而产生的,并指出了哪些结果送入判别网络、哪些结果进行重建损失计算。需要特别说明的是,这里的对抗损失使用了WGAN中的损失计算方式。
另外还有一篇和上述两篇思想一致的,是文献[3]提出的DiscoGAN结构。具体的结构内容就不多介绍了,从下图(c)应该能快速地理解网络是怎么进行训练的,另外还可与(a)、(b)两种结构作个直观的对比。
上面这三个结构由于十分相似,被认为是三胞胎兄弟,但还是要通过阅读原文来比较具体的实现细节有何不同,以及应用领域是否存在差异等。
由于这类循环式训练框架优越性显著,因此很多难以获取成对数据的视觉任务都选择了这种模式。这里为大家列举几个,并附上各自的项目或论文下载地址:
- 深度图像增强(CVPR 2018)-https://github.com/nothinglo/Deep-Photo-Enhancer
- 深度单目估计(CVPR 2018)-https://openaccess.thecvf.com/content_cvpr_2018/papers/Atapour-Abarghouei_Real-Time_Monocular_Depth_CVPR_2018_paper.pdf
- 图像视角转换(CVPR 2019)-https://github.com/Ha0Tang/SelectionGAN
- 转换艺术图为真实图Art2Real(CVPR 2019)-https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8953575
- 自动化妆PairedCycleGAN(CVPR 2018)-https://openaccess.thecvf.com/content_cvpr_2018/papers/Chang_PairedCycleGAN_Asymmetric_Style_CVPR_2018_paper.pdf
下面单独介绍一下CycleGAN框架在MakeUp Transfer方面的一些工作。
文献[5]提出了BeautyGAN,从下图可以清楚地知道它的完整训练过程,需要重点关注的是
但PairedCycleGAN和BeautyGAN处理的都是正脸图像,而且不能对局部妆容进行迁移,文献[7]提出的PSGAN解决了这些问题。这篇文章的模型结构较为复杂:MDNet负责从妆容参考图像中提取两个妆容风格矩阵,分别是系数矩阵
随着研究的深入,人们同样在改进CycleGAN的性能上做了许多工作,主要是从损失函数的设计以及模型结构上下手的。
文献[8]提出的XGAN与CycleGAN相比,最大的不同之处在于它提出了语义一致性损失(Semantic Consistency Loss),也就是下图中的B2。直观地讲,作者希望将域
文献[9]将注意力机制和AdaLIN(Adaptive Layer-Instance Normalization)引入到无监督的图像转换当中,能够有效地解决当两个域之间存在显著的纹理和几何形状差异时生成效果不佳的问题。这篇文章的网络可能需要大家结合源码(https://github.com/znxlwm/UGATIT-pytorch)来理解。以生成网络为例,输入先经过
文献[11]提出了SCAN网络,将单一过程的转换任务分解为Multi-stage类型,使得在提高图像生成质量的同时还实现了高分辨率图像Coarse-to-fine的转换过程。Stage-1采用的是与CycleGAN原文十分相似的结构,但此时是在低分辨率图像上进行训练。Stage-2对Stage-1的输出进行细调,如从
文献[12]设计了一个Augmented CycleGAN。这篇文章分析认为,原CycleGAN的局限性在于,它只能在两个不同的域之间学习One-to-one的映射,也就是每个输入都只对应唯一的输出;当遇到差异很大的两个域时,这种方式会令循环损失的优化变得十分困难,因此文章提出了一种Many-to-many的映射实现方式。直观的想法是在输入中直接加入随机噪声项,但文章给出了此方法最终会变成One-to-one的原因,这里不赘述。文章实际提出的解决方案如下图,有
文献[13]提出了一种更加灵活地实现Many-to-many的InstaGAN。无监督的图像转换问题在遇到图像中存在多个目标实例,转换质量较差;而InstaGAN是首个解决了Multi-instance转换的网络。它向图像空间
文献[14]没有在Latent Space中引入新的信息,而是直接在图像空间中开展了工作,提出了GANHopper。正如它的名字,图像转换过程是需要经过
参考文献:
[1] J. Zhu, T. Park, P. Isola, A.A. Efros, Unpaired image-to-image translation using cycle-consistent adversarial networks, in: Proceedings of the 2017 IEEE International Conference on Computer Vision, 2017, pp. 2242–2251.
[2] Z. Yi, H. Zhang, P. Tan, M. Gong, DualGAN: Unsupervised dual learning for image-to-image translation, in: Proceedings of the 2017 IEEE International Conference on Computer Vision, 2017, pp. 2868–2876.
[3] T. Kim, M. Cha, H. Kim, J.K. Lee, J. Kim, Learning to discover cross-domain relations with generative adversarial networks, in: Proceedings of the 2017 International Conference on Machine Learning, 2017, pp. 1857–1865.
[4] Y.-S. Chen, Y.-C. Wang, M.-H. Kao, Y.-Y. Chuang, Deep photo enhancer: Unpaired learning for image enhancement from photographs with GANs, in: Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 6306–6314.
[5] T. Li, R. Qian, C. Dong, S. Liu, Q. Yan, W. Zhu, L. Lin, BeautyGAN: Instance-level facial makeup transfer with deep generative adversarial network, in: Proceedings of the 2018 ACM Multimedia Conference on Multimedia Conference, 2018, pp. 645–653.
[6] Zhen Wei, Yao Sun, Jinqiao Wang, Hanjiang Lai, and Si Liu. 2017. Learning Adaptive Receptive Fields for Deep Image Parsing Network. In IEEE Conference on Computer Vision and Pattern Recognition. 2434–2442.
[7] W. Jiang, S. Liu, C. Gao, J. Cao, R. He, J. Feng, S. Yan, PSGAN: Pose-Robust Spatial-Aware GAN for Customizable Makeup Transfer, arXiv:1909.06956, 2019.
[8] A. Royer, K. Bousmalis, S. Gouws, F. Bertsch, I. Moressi, F. Cole, K. Murphy, XGAN: Unsupervised image-to-image translation for many-to-many mappings, arXiv:1711.05139, 2017.
[9] J. Kim, M. Kim, H. Kang, K. Lee, U-GAT-IT: Unsupervised generative attentional networks with adaptive layer-instance normalization for image-to-image translation, arXiv:1907.10830, 2019.
[10] Bolei Zhou, Aditya Khosla, Agata Lapedriza, Aude Oliva, and Antonio Torralba. Learning deep features for discriminative localization. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2921–2929. IEEE, 2016.
[11] M. Li, H. Huang, L. Ma, W. Liu, T. Zhang, Y. Jiang, Unsupervised image-to-image translation with stacked cycle-consistent adversarial networks, in: Proceedings of the 2018 European Conference on Computer Vision, 2018, pp. 184–199.
[12] A. Almahairi, S. Rajeshwar, A. Sordoni, P. Bachman, A. Courville, Augmented cycleGAN: learning many-to-many mappings from unpaired data, in: Proceedings of the 2018 International Conference on Machine Learning, 2018, pp. 195–204.
[13] M. Sangwoo, C. Minsu, S. Jinwoo, InstaGAN: instance-aware image-to-image translation, Proceedings of the 2019 International Conference on Learning Representations, 2019.
[14] W. Lira, J. Merz, D. Ritchie, Cohen-Or, GANHopper: Multi-Hop GAN for Unsupervised Image-to-Image Translation, arXiv:2002.10102, 2020.