【论文阅读】High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs

pix2pixHD
bib:

@INPROCEEDINGS{wang2018pix2pixHD,
    author    = {Ting-Chun Wang and Ming-Yu Liu and Jun-Yan Zhu and Andrew Tao and Jan Kautz and Bryan Catanzaro},
    title     = {High-Resolution Image Synthesis and Semantic Manipulation with Conditional {GAN}s},
    booktitle = {CVPR},
    year      = {2018},
    pages     = {8798--8807}
}

1. 摘要

We present a new method for synthesizing high-resolution photo-realistic images from semantic label maps using conditional generative adversarial networks (conditional GANs). Conditional GANs have enabled a variety of applications, but the results are often limited to lowresolution and still far from realistic. In this work, we generate 2048 × 1024 visually appealing results with a novel adversarial loss, as well as new multi-scale generator and discriminator architectures. Furthermore, we extend our framework to interactive visual manipulation with two additional features. First, we incorporate object instance segmentation information, which enables object manipulations such as removing/adding objects and changing the object category. Second, we propose a method to generate diverse results given the same input, allowing users to edit the object appearance interactively. Human opinion studies demonstrate that our method significantly outperforms existing methods, advancing both the quality and the resolution ofdeep image synthesis and editing.

我们提出了一种利用CGAN从语义标记映射合成高分辨率真实感图像的新方法。 条件GAN已经实现了多种应用,但其结果往往局限于低分辨率,而且离现实还很远。 在这项工作中,我们使用一种新的对抗损失,以及新的多尺度生成器和鉴别器结构,生成了2048×1024视觉上吸引人的结果。 此外,我们将我们的框架扩展到交互式视觉操作,并增加了两个特性。 首先,我们结合了对象实例分割信息,它支持对象操作,如删除/添加对象和更改对象类别。 其次,我们提出了一种在给定相同输入的情况下生成不同结果的方法,允许用户交互地编辑对象外观。 人类意见研究表明,我们的方法明显优于现有的方法,提高了深度图像合成和编辑的质量和分辨率。

Note:

  • 首先本文针对的问题是生成高质量。现有的CGAN已有许多应用,但是在生成高精度图像上仍然存在进步空间。
  • 本文的两个贡献:
    • 多尺度(multi-scale)生成器,鉴别器结构
    • 与之对应的对抗损失

2. 算法描述

优化目标:

min ⁡ G ( ( max ⁡ D 1 , D 2 , D 3 ∑ k = 1 , 2 , 3 L G A N ( G , D k ) ) + λ ∑ k = 1 , 2 , 3 L F M ( G , D k ) ) \min_{G}{((\max_{D_1, D_2, D_3}\sum_{k=1, 2, 3}{\mathcal{L}_{GAN}(G, D_k)}) + \lambda \sum_{k=1, 2, 3}\mathcal{L}_{\mathrm{FM}}(G, D_k))} Gmin((D1,D2,D3maxk=1,2,3LGAN(G,Dk))+λk=1,2,3LFM(G,Dk))

L F M ( G , D k ) \mathcal{L}_{\mathrm{FM}}(G, D_k) LFM(G,Dk):
L F M ( G , D k ) = E ( s , x ) ∑ i = 1 T 1 N i [ ∥ D k ( i ) ( s , x ) − D k ( i ) ( s , G ( s ) ) ∥ 1 ] \mathcal{L}_{\mathrm{FM}}(G, D_k) = \mathbb{E}(\mathbf{s}, \mathbf{x})\sum_{i =1}^{T}\frac{1}{N_i}[\|D_k^{(i)}(\mathbf{s}, \mathbf{x}) - D_k^{(i)}(\mathbf{s}, G(\mathbf{s}))\|_1] LFM(G,Dk)=E(s,x)i=1TNi1[Dk(i)(s,x)Dk(i)(s,G(s))1]

NOTE:

  1. 多尺度体现在三个鉴别器( D 1 , D 2 , D 3 D_1, D_2, D_3 D1,D2,D3),对不同缩放尺度的图像进行鉴别,从而达到生成高精度的图像。
  2. 第二就是增加了一个正则项( L F M \mathcal{L}_{\mathrm{FM}} LFM),这个是在模型层级提取特征做的一个正则,我理解的是一种防止过拟合的手段。

3. 代码

实验就不看了,专业知识太强了,主要是不做这方面的研究,看这篇论文主要是增加知识的广度。代码地址可以参加Github

我想带着问题去看代码,对摘要中提出的两个贡献点: 1. 多尺度 2. Loss的正则项

  1. 多尺度

  2. Loss的正则项

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

来日可期1314

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值