【飞桨】【论文复现】StarGAN v2学习笔记

最新推荐文章于 2024-08-07 20:08:47 发布

ers1245

最新推荐文章于 2024-08-07 20:08:47 发布

阅读量3.7k

点赞数 2

分类专栏： paddle 文章标签：深度学习 python

本文链接：https://blog.csdn.net/ers1245/article/details/107836859

版权

paddle 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

【飞桨】【论文复现】StarGAN v2学习笔记

StarGAN v2

github：https://github.com/clovaai/stargan-v2
Paper: https://arxiv.org/abs/1912.01865

前置论文

复现营课程链接：https://aistudio.baidu.com/aistudio/education/group/info/1340
1.cgan（Conditional Generative Adversarial Nets）
2.cyclegan（Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks）
3.stargan（Unified generative adversarial networks for multidomain image-to-image translation）

摘要

文章提出了StarGanv2，一个单一的框架，它可以同时满足两个需求：
1.生成图像的多样性
2.多种domain的可伸缩性。（domain：域，一个图像集合，其中的图片可以被分类为同一种具有视觉区分度的类型）

同时，文章认为，domain中的图像图像可以归类为一个视觉上独特的类别，每个图像都有一个独特的外观，在文中称为style（风格）。

style和domain不知道中文怎么翻译，就直接说风格和域了

网络结构

StarGanv2被认为可以在多个域中生成不同的图像。
在这里插入图片描述

（a）生成器将输入图像转换为反映特定于域（domain）的style code的输出图像。
（b）映射网络将一个潜在的代码转换成多个域（domain）的style code，在训练过程中随机选择其中一个域（domain）。
（c）样式编码器提取图像的style code，允许生成器执行参考引导的图像合成。
（d）鉴别器从多个域（domain）区分真假图像。

（a）生成器G（Style）将输入图像x转换为domain-specific style code（反映特定于域的样式代码）s的输出图像G(x,s），该代码由映射网络F或样式编码器E提供。文章使用AdaIN（Adaptive Instance Normalization）将s输入G中。

（b）给定一个潜在代码z（latent code）和一个域y（domain），映射网络F生成一个样式代码s=Fy(z)，其中Fy（·）表示对应于域y的F的输出。F由一个MLP组成，具有多个输出分支，为所有可用域提供style code。F可以通过对潜在向量z和域y随机抽样产生不同的style code。多任务体系结构允许F高效有效地学习所有领域的style表示。

（c）给定一个图像x和它对应的域y，编码器E提取x的风格代码（style code）s=Ey(x) 。这里，Ey(·)表示E对应于域y的输出。与F类似，样式编码器E受益于多任务学习设置。E可以使用不同的参考图像生成不同风格代码（style code）。这允许G合成反映参考图像x的风格（style）s的输出图像。

（d）鉴别器D是一个多任务鉴别器，它由多个输出分支组成。每个分支二元学习一个二元分类，确定图像x是其域y的真实图像还是由G生成的伪图像G(x,s)。

效果图

第一行和第一列图像是真实图像，而其余图像由模型StarGanv2生成的图像。模型参考图像中提取高级语义，如发型、妆容、胡须和年龄，同时保留参考图像的姿势和特点。下图反应了StarGanV2可以合成反映不同参考样式的图像，包括发型、妆容和胡须，而不会损害源特性。
在这里插入图片描述
文章中也分别对CelebA HQ和AFHQ数据集进行比较。文章中使用随机抽样的latent code将参考图像（最左边的列）转换为目标图像。（a）前三行将男性转化为女性的结果，反之亦然。（b）顶部每两行按以下顺序显示合成图像：猫到狗，狗到野生动物，野生动物到猫。
在这里插入图片描述