论文:《Semantic Bottleneck Scene Generation》(University of California, Berkeley;Google Research, Brain Team)
论文地址:https://arxiv.org/pdf/1911.11357
代码地址:https://github.com/azadis/SB-GAN(目前源代码还未公开)
Part1:摘要
为了兼顾基无条件GAN模型的便捷性与标签条件下图像合成方法的高保真生成能力,针对无条件的复杂场景的合成,作者提出了一种semantic bottleneck GAN模型。我们假设在训练过程中可以使用像素级别的分割标签(语义图),并通过它来学习场景结构。 在推理过程中,我们的模型首先从头开始合成一个真实的分割布局,然后基于分割布局合成一个现实场景。 对于前者(随机噪声-->语义分割图),我们使用无条件的回归分割生成网络来获取现实的语义场景布局的分布。 对于后者(语义图-->真实场景),我们使用条件下的分割图像合成网络来获取基于语义布局的真实图像分布。 在端到端进行培训时,模型的效果在FID和用户研究评估这两个具有挑战性的领域上,超过了最新的基于无监督的图像合成生成模型。 此外,我们证明了生成的语义分割图可以用作额外的训练数据进而极大地改善了最近的分割到图像合成的网络效果。
Part2:SB-GAN的模型结构
其基本处理流程是:将随机噪声送入语义分割合成网络,由该网络学习语义标签的分布并生成语义图,在这个阶段,由真实场景的语义图作为groundtruth进行监督训练,随后将生成的语义分割图作为输入送入条件图像生成网络并生成真实场景的自然图像。整个训练过程有3个判别器,第一个判别器判别语义合成网络生成的语义图,第二个判别器判别由真实语义图与合成的语义图合成的图像,第三个判别器用于判别图像合成网络生成的图像与真实场景图像的匹配程度。
对于图像合成网络,生成器,判别器以及损失函数作者采用SPADE模型[1],具体结构细节可以参考SPADE模型。
Part3:训练细节
参考文献:
[1] Taesung Park, Ming-Yu Liu, Ting-Chun Wang, and Jun-Yan Zhu. Semantic image synthesis with spatially-adaptive nor- malization. In CVPR, 2019.