和tan的转换_[综述]基于对抗学习的图像间转换问题-2

最新推荐文章于 2022-07-26 08:30:08 发布

东方捕

最新推荐文章于 2022-07-26 08:30:08 发布

阅读量386

点赞数

文章标签：和tan的转换

本文链接：https://blog.csdn.net/weixin_35735088/article/details/112744202

版权

《基于对抗学习的图像间转换问题-1》的链接地址：https://zhuanlan.zhihu.com/p/263692012

1.4、CycleGAN

更加具有普适性的无监督图像转换方案，目前来看是基于对偶学习（Dual Learning）的概念。很经典的就是文献[1]提出的CycleGAN结构，给定两个域X和Y，在将X域映射到Y域的同时，又将Y域映射回X域，这里用到了循环一致性（Cycle-consistency）损失。如果只有单向的过程，往往会出现生成网络过拟合的现象，比如多张X域的图像被映射到同一张Y域的图像上，那么损失函数就会失效。

还有文献[2]提出的DualGAN结构，思想其实和CycleGAN是一样的。数据流动过程也十分好理解，下图清楚地标示出了每一阶段的结果是由哪两个元素输入而产生的，并指出了哪些结果送入判别网络、哪些结果进行重建损失计算。需要特别说明的是，这里的对抗损失使用了WGAN中的损失计算方式。

另外还有一篇和上述两篇思想一致的，是文献[3]提出的DiscoGAN结构。具体的结构内容就不多介绍了，从下图(c)应该能快速地理解网络是怎么进行训练的，另外还可与(a)、(b)两种结构作个直观的对比。

上面这三个结构由于十分相似，被认为是三胞胎兄弟，但还是要通过阅读原文来比较具体的实现细节有何不同，以及应用领域是否存在差异等。

由于这类循环式训练框架优越性显著，因此很多难以获取成对数据的视觉任务都选择了这种模式。这里为大家列举几个，并附上各自的项目或论文下载地址：

深度图像增强(CVPR 2018)-https://github.com/nothinglo/Deep-Photo-Enhancer
深度单目估计(CVPR 2018)-https://openaccess.thecvf.com/content_cvpr_2018/papers/Atapour-Abarghouei_Real-Time_Monocular_Depth_CVPR_2018_paper.pdf
图像视角转换(CVPR 2019)-https://github.com/Ha0Tang/SelectionGAN
转换艺术图为真实图Art2Real(CVPR 2019)-https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8953575
自动化妆PairedCycleGAN(CVPR 2018)-https://openaccess.thecvf.com/content_cvpr_2018/papers/Chang_PairedCycleGAN_Asymmetric_Style_CVPR_2018_paper.pdf

下面单独介绍一下CycleGAN框架在MakeUp Transfer方面的一些工作。

文献[5]提出了BeautyGAN，从下图可以清楚地知道它的完整训练过程，需要重点关注的是

这项损失函数。因为妆容的重点通常集中在脸、眼睛和嘴巴上，将它们单独提取出来之后（使用文献[6]的人脸解析模型(Face Parsing Model)），就能使得颜色分布不受到如头发和图像背景信息的干扰。在比较各个部位的损失时，没有直接采用MSE来逐像素点进行计算，而是引入了直方图损失（Histogram Loss）：即在正式计算之前，首先将

直方图匹配（Histogram Match）应用在素颜图与带妆图的各部位上，得到不改变内容但与带妆图颜色分布接近的结果

，然后再将它们与生成图像的各部位进行MSE损失计算。

但PairedCycleGAN和BeautyGAN处理的都是正脸图像，而且不能对局部妆容进行迁移，文献[7]提出的PSGAN解决了这些问题。这篇文章的模型结构较为复杂：MDNet负责从妆容参考图像中提取两个妆容风格矩阵，分别是系数矩阵

和偏移矩阵

，有了这两个矩阵就能对妆容信息进行空间变换；由于妆容参考图的人脸姿势和面部表情可能与素颜图像大不相同，也就无法将

和

（它们具有Spatial-aware的性质）直接用于素颜图，必须经过一系列的变形操作，而

AMM正是负责妆容矩阵变形的任务； MANet则是将形变后的妆容风格信息迁移至素颜图像中。阅读论文原文时，应重点关注AMM部分。

随着研究的深入，人们同样在改进CycleGAN的性能上做了许多工作，主要是从损失函数的设计以及模型结构上下手的。

文献[8]提出的XGAN与CycleGAN相比，最大的不同之处在于它提出了语义一致性损失（Semantic Consistency Loss），也就是下图中的B2。直观地讲，作者希望将域

中的输入

转换至域

后，依旧能够保留

的语义信息。而CycleGAN注重的是像素一致性，这会导致它无法捕捉两个有显著区别的域之间共享的High-level语义信息。XGAN加入语义一致性损失后，它以

自监督（Self-supervision）的方式固定下域间的语义特征，使得网络训练过程更加稳定可靠。

文献[9]将注意力机制和AdaLIN（Adaptive Layer-Instance Normalization）引入到无监督的图像转换当中，能够有效地解决当两个域之间存在显著的纹理和几何形状差异时生成效果不佳的问题。这篇文章的网络可能需要大家结合源码（https://github.com/znxlwm/UGATIT-pytorch）来理解。以生成网络为例，输入先经过

后得到了一系列的特征图

；然后借鉴文献[10]中的

Class Activation Mapping技术，训练分类器

来学习第

个特征图的权重

，执行

得到注意力特征图

；再将

分两次送入全连接层中，得到两个参数

和

，执行

，其余参数含义参见原文；最后经过上采样得到输出。

文献[11]提出了SCAN网络，将单一过程的转换任务分解为Multi-stage类型，使得在提高图像生成质量的同时还实现了高分辨率图像Coarse-to-fine的转换过程。Stage-1采用的是与CycleGAN原文十分相似的结构，但此时是在低分辨率图像上进行训练。Stage-2对Stage-1的输出进行细调，如从

到

的转换过程中，需先将

上采样至其原始尺寸，再与

相连送入

生成得到

；最后还需要使用

自适应融合块（Adaptive Fusion Block）来动态调整生成结果，这部分的具体内容参见原文。

文献[12]设计了一个Augmented CycleGAN。这篇文章分析认为，原CycleGAN的局限性在于，它只能在两个不同的域之间学习One-to-one的映射，也就是每个输入都只对应唯一的输出；当遇到差异很大的两个域时，这种方式会令循环损失的优化变得十分困难，因此文章提出了一种Many-to-many的映射实现方式。直观的想法是在输入中直接加入随机噪声项，但文章给出了此方法最终会变成One-to-one的原因，这里不赘述。文章实际提出的解决方案如下图，有

、

，当给定

和

时，采样得到不同

和

后，能生成多个不同的

和

，并利用

和

再反向编码出噪声项。因此在设计损失函数时，将对图像域和噪声域的生成结果进行计算，详情请参见原文。

文献[13]提出了一种更加灵活地实现Many-to-many的InstaGAN。无监督的图像转换问题在遇到图像中存在多个目标实例，转换质量较差；而InstaGAN是首个解决了Multi-instance转换的网络。它向图像空间

(

)中加入了额外的实例属性集

(

)，它的元素

包含了

个目标实例属性：

（

同理），各属性值其实就是实例分割后的掩膜。只看

部分，生成网络同时编码

和

，并将它们转换为

和

；但

中实例出现的顺序不应影响

的结果，且

中的每项实例属性都应在

中有各自的转换结果；即

具有

排列不变性（Permutation-invariance），而

具有排列等变性（Permutation-equivariant）。此外，文章还提出了一种新的训练策略

Sequential Mini-batch，使得网络能接收任意数量的实例进行训练却不增加GPU使用率，具体内容参见原文~

文献[14]没有在Latent Space中引入新的信息，而是直接在图像空间中开展了工作，提出了GANHopper。正如它的名字，图像转换过程是需要经过

个

hops来逐渐完成的。如下图所示，若删去蓝色框部分，则剩下的结构就是经典的CycleGAN；而GANHopper则是在中间层增加了

个

Hybrid Images，可以理解为源域和目标域的中间插值项。但这些中间图像本身是不存在于训练数据中的，因此必须对它们单独进行判别，引入了第三个判别网络

；并在损失中增加了平滑度计算，以保证中间图像的过渡是平稳的。具体内容参见原文~

参考文献：

[1] J. Zhu, T. Park, P. Isola, A.A. Efros, Unpaired image-to-image translation using cycle-consistent adversarial networks, in: Proceedings of the 2017 IEEE International Conference on Computer Vision, 2017, pp. 2242–2251.

[2] Z. Yi, H. Zhang, P. Tan, M. Gong, DualGAN: Unsupervised dual learning for image-to-image translation, in: Proceedings of the 2017 IEEE International Conference on Computer Vision, 2017, pp. 2868–2876.

[3] T. Kim, M. Cha, H. Kim, J.K. Lee, J. Kim, Learning to discover cross-domain relations with generative adversarial networks, in: Proceedings of the 2017 International Conference on Machine Learning, 2017, pp. 1857–1865.

[4] Y.-S. Chen, Y.-C. Wang, M.-H. Kao, Y.-Y. Chuang, Deep photo enhancer: Unpaired learning for image enhancement from photographs with GANs, in: Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 6306–6314.

[5] T. Li, R. Qian, C. Dong, S. Liu, Q. Yan, W. Zhu, L. Lin, BeautyGAN: Instance-level facial makeup transfer with deep generative adversarial network, in: Proceedings of the 2018 ACM Multimedia Conference on Multimedia Conference, 2018, pp. 645–653.

[6] Zhen Wei, Yao Sun, Jinqiao Wang, Hanjiang Lai, and Si Liu. 2017. Learning Adaptive Receptive Fields for Deep Image Parsing Network. In IEEE Conference on Computer Vision and Pattern Recognition. 2434–2442.

[7] W. Jiang, S. Liu, C. Gao, J. Cao, R. He, J. Feng, S. Yan, PSGAN: Pose-Robust Spatial-Aware GAN for Customizable Makeup Transfer, arXiv:1909.06956, 2019.

[8] A. Royer, K. Bousmalis, S. Gouws, F. Bertsch, I. Moressi, F. Cole, K. Murphy, XGAN: Unsupervised image-to-image translation for many-to-many mappings, arXiv:1711.05139, 2017.

[9] J. Kim, M. Kim, H. Kang, K. Lee, U-GAT-IT: Unsupervised generative attentional networks with adaptive layer-instance normalization for image-to-image translation, arXiv:1907.10830, 2019.

[10] Bolei Zhou, Aditya Khosla, Agata Lapedriza, Aude Oliva, and Antonio Torralba. Learning deep features for discriminative localization. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2921–2929. IEEE, 2016.

[11] M. Li, H. Huang, L. Ma, W. Liu, T. Zhang, Y. Jiang, Unsupervised image-to-image translation with stacked cycle-consistent adversarial networks, in: Proceedings of the 2018 European Conference on Computer Vision, 2018, pp. 184–199.

[12] A. Almahairi, S. Rajeshwar, A. Sordoni, P. Bachman, A. Courville, Augmented cycleGAN: learning many-to-many mappings from unpaired data, in: Proceedings of the 2018 International Conference on Machine Learning, 2018, pp. 195–204.

[13] M. Sangwoo, C. Minsu, S. Jinwoo, InstaGAN: instance-aware image-to-image translation, Proceedings of the 2019 International Conference on Learning Representations, 2019.

[14] W. Lira, J. Merz, D. Ritchie, Cohen-Or, GANHopper: Multi-Hop GAN for Unsupervised Image-to-Image Translation, arXiv:2002.10102, 2020.