论文笔记：SPADE（CVPR 2019）-Semantic Image Synthesis with Spatially-Adaptive Normalization

最新推荐文章于 2023-12-11 21:49:48 发布

Towardshch

最新推荐文章于 2023-12-11 21:49:48 发布

阅读量2k

点赞数

文章标签：计算机视觉人工智能

原文链接：https://arxiv.org/abs/1903.07291

版权

论文介绍了一种名为SPADE的方法，用于解决语义图像合成中归一化层处理语义信息的问题。通过学习性地调整归一化过程，SPADE允许激活在生成网络中更好地保留语义布局。实验在COCO-Stuff, ADE20K和Cityscapes上展示了优越的合成效果。生成器简化设计，多模态合成和风格迁移应用广泛。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文笔记：SPADE（CVPR 2019）-Semantic Image Synthesis with Spatially-Adaptive Normalization

SPADE DEMO
前言
语义图像->真实图像
实验结果

SPADE DEMO

spade
github地址:SPADE
demo的github地址:Imaginaire

Semantic Image Synthesis with Spatially-Adaptive Normalization.
Project page | Paper | Online Interactive Demo of GauGAN | GTC 2019 demo | Youtube Demo of GauGAN

Taesung Park, Ming-Yu Liu, Ting-Chun Wang, and Jun-Yan Zhu.

In CVPR 2019 (Oral).

前言

因为在之前的方法中直接将语义分割布局作为输入输入到网络进行处理会使得归一化层将语义信息抹去，为了解决这个问题，本文提出了使用输入布局来通过一个空间自适应、学习的转换来调节归一化层中的激活的方法，可以有效地在整个网络中传播语义信息。
本文在COCO-Stuff，ADE20K和Cityscapes上进行了实验。

语义图像->真实图像

Spatially-adaptive denormalization

spade
在这里插入图片描述

输入一张语义分割图mask投影到插入空间，通过卷积产生调制参数γ和β。不同于以往的条件归一化方法，这里的γ和β是tensor类型的参数，具有空间维度的信息，再以element-wise的方式相乘并加到归一化的activation上。

在这里插入图片描述

m是语义分割图，N是一个batch的样本，Ci是第i层的通道，Hi是第i层的activation map的高，Wi是第i层的activation map的宽，hi代表对一批N样本的深度卷积网络第i层的activation， $\mu_c^i$ 和 $\sigma_c^i$ 是第i层上通道c的activation的均值和方差。
$\gamma_{c,y,x}^i(m)$ 和 $\beta_{c,y,x}^i(m)$ 是归一化层的学习调制参数，他依赖语义分割图并随位置 $(y, x)$ 变化。本文用 $\gamma_{c,y,x}^i(m)$ 和 $\beta_{c,y,x}^i(m)$ 表示在第i层的activation map转换为 $(c, y, x)$ 的比例值和偏差值的函数。
本文使用简单的两层卷积网络实现 $\gamma_{c,y,x}^i(m)$ 和 $\beta_{c,y,x}^i(m)$ （附录）。

SPADE generator

使用SPADE时，不需要将语义分割图提供给生成器的第一层，因为学习的调制参数已经编码了足够的关于标签布局的信息。因此，本文丢弃了生成器的编码器部分，简化成了更加轻量级的网络。新的生成器可以将随机向量作为输入，从而实现一个简单而自然的多模态合成方法。
Spade_generator

本文使用的生成器架构使用了几个带有上采样层的ResNet blocks，所有归一化层的调制参数由SPADE学习得到。由于每个residual block在不同的尺寸下运行，所以本文对语义分割图进行下采样来匹配residual block的空间分辨率。
生成器使用与pix2pixHD相同的多尺度判别器和除了最小平方损失之外的损失函数，将最小平方损失换成了hinge loss。
左图是SPADE ResBlk，在每个归一化层使用原始语义分割图调制activation。右图为生成器的架构图，去掉了pix2pixHD的下采样部分，并在每个上采样层使用SPADE ResBlk，并拥有比pix2pixHD更少的参数量。