【论文阅读】StarGAN v2：Diverse Image Synthesis for Multiple Domains

最新推荐文章于 2024-07-10 19:54:46 发布

huitailangyz

最新推荐文章于 2024-07-10 19:54:46 发布

阅读量2.8k

点赞数 2

分类专栏：图像生成论文阅读

本文链接：https://blog.csdn.net/huitailangyz/article/details/105851778

版权

论文阅读同时被 2 个专栏收录

18 篇文章 2 订阅

订阅专栏

图像生成

3 篇文章 0 订阅

订阅专栏

【2019.12 arxiv】
代码地址：https://github.com/clovaai/stargan-v2
Choi, Yunjey, Youngjung Uh, Jaejun Yoo, and Jung-Woo Ha. “StarGAN v2: Diverse Image Synthesis for Multiple Domains.” arXiv preprint arXiv:1912.01865 (2019).

任务：多领域的image-to-image转换

概述

本文研究的任务是多领域的image-to-image转换，本文在StarGAN的基础上进行了多样改进，从而提高了模型的效果。
模型结构方面由四部分组成。生成器输入原域图像并通过AdaIN方式吸收风格编码，生成目标域图像。风格编码有两种获得来源，一种来自mapping网络，从随机噪声生成风格编码，而每个不同的目标域分别对应一个mapping-head，另一种来自风格编码器，由输入的目标域图像来获得对应的风格编码。判别器输入一张图像，生成各个目标域的真假图像判断，即有K个数，分别判断输入图像是否属于该目标类的真实图像。
损失函数由四项组成，生成对抗损失中WGAN_GP中的GP项使用R1约束（直接对真实图像进行求导），风格编码重建损失、风格差异最大化约束和图像循环重建损失。

模型结构

模型由四部分组成，一个生成器、一个mapping网络，一个风格编码器和一个判别器
在这里插入图片描述

生成器输入原域图像和风格编码，生成目标域图像
风格编码有两种获得来源，一种来自mapping网络，从随机噪声生成风格编码，而每个不同的目标域分别对应一个mapping-head，另一种来自风格编码器，由输入的目标域图像来获得对应的风格编码
判别器输入一张图像，生成各个目标域的真假图像判断，即有K个数，分别判断输入图像是否属于该目标类的真实图像

1、生成器(G)
在这里插入图片描述
由4个downblock、4个中间block和4个upsamplingblock组成，前6个block使用IN进行归一化，后面6个block使用AdaIN的方式来吸收风格编码特征
所有blocck使用preactivation residual unit

2、mapping 网络(F)

该模块从随机变量生成各个目标域的风格编码，首先是4个共享的FC层，然后是各个目标域私有的4层FC组成的mapping-head，最终得到各个域的风格编码

3、风格编码器(E)和判别器(D)
在这里插入图片描述
风格编码器和判别器结构类似，只是最后各个域对应的输出长度不同
风格编码器根据输入图像，生成属于各个域的目标编码，D为目标编码长度
判别器根据输入图像，判断该图像对应为各个域真实图像的概率，D为1，不使用PatchGAN

改进步骤

在这里插入图片描述
针对StarGAN的方法提出了5点改进方法
B：将StarGAN中的ACGAN判别器改为多任务判别器

C：判别器约束中WGAN_GP中的GP项变为R1约束
WGAN_GP中原来的GP项对真实图像和生成图像的插值进行求导，R1约束中直接对真实图像进行求导
同时在生成器中使用AdaIN的方法取代concatenation方法来吸收风格编码