GAN Inversion: A Survey笔记

最新推荐文章于 2024-08-29 09:55:57 发布

我要找对象

最新推荐文章于 2024-08-29 09:55:57 发布

阅读量1.2k

点赞数 29

分类专栏： GAN 文章标签：生成对抗网络笔记深度学习

本文链接：https://blog.csdn.net/lihao1875699404/article/details/132163577

版权

本文详细探讨了GAN模型的逆映射操作，涉及Z、W、W+、S和P空间，以及三种主要方法（基于学习、基于优化和混合）。评价标准涵盖了真实感、忠实度和编辑性。研究了不同GAN模型和数据集在生成高质量图像和可控编辑中的表现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文介绍

Gan逆映射操作的目的就是将图像逆映射到预训练Gan模型的潜在空间，之后图像可以由生成器从逆映射的代码中可信的重建，使得可以在现有训练的GAN的潜在空间的可控方向上进行图像编辑。具体流程见下图，我们将真实图像逆映射到潜空间后，可以沿着一个特定方向改变代码来编辑图像属性。
在这里插入图片描述

最后作者提及了给定图像获得的潜在隐空间应该具有的特性：可信逼真的重建图像以及促进下游任务，这也是GAN逆映射的目标。

问题描述

Gan的生成器表达式为G:Z->X，当z1和z2在z空间无限接近时，那么生成的x1和x2也会很相似，那么我们可以利用这一点，将x逆映射回潜表示z*，之后放入生成器得到一个图像x*，保持接近真实的图像x。具体任务如下：(其中x是真实图像，z是隐空间向量，l是特征空间或者图像的距离度量函数，改变z*可以进一步获取经过处理的图像）
$z* = arg\min_{z} l(G(z),x)$
作者在下文介绍了很多逆映射gan的模型以及方法，为了评估不同方法的性能，主要考虑两方面：重建图像的真实感（感知质量）和可信性（逆映射精度），其中第一个方面取决于如何求解公式，第二个方面取决于利用那些潜空间。

交待准备工作

GAN模型

1.DCGGAN 在鉴别器使用了卷积，在生成器中使用了分步卷积。
2 WGAN 将生成的数据分布与真实数据之间的Wasserstein距离最小化，这样就可以提供更多的模型稳定性，使得训练更容易。
3 BigGAN 生成高质量图像，通过对缩放、正交正则化进行修改，来提高大规模GAN的可伸缩性稳定性和鲁棒性。
4 PGGAN 也被称为proGAN和渐进式GAN，在训练中使用了增长策略，从生成器和鉴别器的低分辨率开始，然后逐渐添加新层，对越来越细粒度的细节进行建模，该方法提高了训练速度和稳定性。
5 styleGAN 隐式的学习用于图像生成的潜在风格。该模型操作每通道的均值和方差来控制图像风格，如下图所示，风格生成器将风格特征（由映射网络f定义）和随机噪声作为图像合成的输入。styleGAN2模型通过提出权重解调，路径长度正则化，生成器重设置和去除渐进增长，进一步提高了感知质量。styleGAN2-Ada提出了自适应鉴别器增强机制，可以以稳定的有限数据进行训练。styleGAN3观察到了GAN中存在的纹理粘连问题，通过在连续域中考虑混叠效应对结果进行适当的低通滤波，更适合于动画和视频。
在这里插入图片描述
对上图部分解释：z空间通过f映射到w空间，再输入生成网络得到生成图像x
（其中w空间就是z空间上建立的隐空间，在继承z空间功能的情况下获得更好的解耦能力，其中解耦能力简单说就是仅改变一个方向上的隐码，就可以改变面部的部分属性，而其他的整体属性不会被影响）

数据集

1 ImageNet 是一个用于视觉对象识别研究的大规模手工注释数据集，包含超过1400万幅图像，超过2万个类别。
2 CelebA 一个大规模的人脸属性数据集，由200k张名人图像组成，每个图像有40个属性注释。
3 Flickr-Faces-HQ (FFHQ) 是一个从Flickr中抓取的高质量人脸图像数据集，由70,000张