一、前言
论文复现课程链接:https://aistudio.baidu.com/aistudio/education/group/info/1340
这篇博客主要是对飞桨PaddlePaddle论文复现课程中 GAN 论文的解析.
二、论文解读
论文的任务是多域图像转换(Multiple Domain Image-to-Image translation)
涉及到2个关键概念:
Domain:一组可以分为视觉上独特类别的图像
Style:每个图像都有唯一的外观
论文动机:
2.1 创新点
StarGAN v2 的论文有cGAN, CycleGAN, StarGAN等
文献全称:StarGAN v2: Diverse Image Synthesis for Multiple Domains
文献出处:[J]. arXiv: Computer Vision and Pattern Recognition, 2019
代码:https://github.com/clovaai/stargan-v2
数据集:CelebA-HQ、AFHQ
评价标准:FID、LPIPS、AMT User Study(亚马逊机器人用户研究,即肉眼看图)
论文贡献(亮点)
- 跳出了starGAN使用域标签向量的思维惯性,为每个域生成多个style code,通过AdaIN完成迁移,同时保证生成的多样性。
- 介绍了自己搜集的数据集,动物脸部数据集(AFHQ)
2.2 方案解析
使用到的别的论文中的损失函数有:
StarGAN V2 对比 StarGAN:
StarGANv2,使用所提出的domain-specific style code替换域标签,前者可表示特定领域的各种风格样式。引入两个模块,一个映射网络mapping network和一个样式编码器style encoder。
StarGAN v2 方案解析:
映射网络学习将随机高斯噪声转换为样式码(style code),而编码器则学习从给定的参考图像中提取样式码。两个模块都具有多个输出分支,每个分支都提供特定域的样式码,训练时将选取其中对应domain的一个。
生成器Generator(最左边黑色):将输入图像x转换为G(x,s),s为样式码style code,可以由映射网络F或者样式编码器E提供。使用adaptive instance normalization (AdaIN) 引入s。
生成器Generator:删除了上采样residual blocks中的所有shortcut,并使用基于adaptive wing based heatmap添加了跳跃连接。
损失函数设计:
分为4部分:
2.3 实验解析
生成的图像结果:
2.4 评价
有关GAN的论文中,比较突出的现象是cherry-picking,即生成的图像中只选部分好的展示。另外即使是正常比例看起来比较好的图片,放大后的细节,和真实也有很大差距。
2.5 代码解析
参考:
1)https://blog.csdn.net/WhaleAndAnt/article/details/105093047
2)百度飞桨顶会论文复现营PPT