论文理解之图像分区域合成 SEAN: Image Synthesis with Semantic Region-Adaptive Normalization

最新推荐文章于 2024-05-16 10:30:53 发布

雷克顿小石头

最新推荐文章于 2024-05-16 10:30:53 发布

阅读量4.6k

点赞数 7

分类专栏： GAN论文解读

本文链接：https://blog.csdn.net/GAN_CVer/article/details/103574300

版权

论文介绍了SEAN，一种改进的图像合成方法，用于提升条件生成对抗网络（cGAN）的图像质量和细节控制。SEAN解决了SPADE的局限，实现了每个语义区域单独的风格控制，并且通过语义区域自适应归一化（SEAN）模块在每个区域应用不同的风格。实验表明，SEAN在多个数据集上提高了图像合成的质量，提供了更好的分割精度和风格控制。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本论文要解决的问题是使用条件生成对抗网络（cGAN）生成合成图像。具体来说，本文要完成的具体任务是使用一个分割掩码控制所生成的图像的布局，该分割掩码的每个语义区域都具有标签，而网络可以根据这些标签为每个区域「添加」具有真实感的风格。

尽管之前已经有一些针对该任务的框架了，但当前最佳的架构是 SPADE（也称为 GauGAN）。因此，本论文的研究也是以 SPADE 为起点的。

具体来说，本文针对原始 SPADE 的两个缺陷提出了新的改进方案。

第一，SPADE 仅使用一种风格代码来控制一张图像的整体风格，这不足以实现高质量的合成或对细节的控制。此外，SPADE 不允许在分割掩码的不同区域使用不同风格的输入图像。因此，第一个改进方案是实现对每个区域的单独控制，即新提出的架构每个区域（即每个区域实例）都能使用一种风格图像作为输入。

第二，研究者认为仅在网络的开始处注入风格信息不是个很好的选择。针对这一问题，本文提出了一种新的归一化构建模块 SEAN（semantic region-adaptive normalization），其可以使用风格输入图像为每个语义区域创建空间上不同的归一化参数。本研究有一个很重要的方面，即空间上不同的归一化参数取决于分割掩码本身以及风格输入图像。

本文在几个高难度的数据集（CelebAMaskHQ、CityScapes、ADE20K 和研究者新建的 Facades 数据集）上对新提出的方法进行了广泛的实验评估。定量实验方面，研究者基于 FID、PSNR、RMSE 和分割性能等多种指标对新方法进行了评估；定性实验方面，研究者展示了可通过视觉观察进行评估的样本。

SEAN 的优势

首先，SEAN 能提升条件 GAN 合成的图像的质量；
其次，SEAN 能改善每个区域的风格编码，使得重建的图像可以在 PSNR 和视觉观察指标上与输入的风格图像更相似；
最后，SEAN 允许用户为每个语义区域选择一种不同风格的输入图像。这能使图像编辑得到质量更高的结果，并提供比当前最佳方法更好的控制力。
给定一张输入风格图像及其对应的分割掩码，下面将介绍：1）如何根据掩码注入每个区域的风格；2）如何使用注入后的每区域风格代码合成具有照片一样的真实感的图像。

如何对风格进行