GAN Inversion: A Survey笔记

本文详细探讨了GAN模型的逆映射操作,涉及Z、W、W+、S和P空间,以及三种主要方法(基于学习、基于优化和混合)。评价标准涵盖了真实感、忠实度和编辑性。研究了不同GAN模型和数据集在生成高质量图像和可控编辑中的表现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文介绍

  Gan逆映射操作的目的就是将图像逆映射到预训练Gan模型的潜在空间,之后图像可以由生成器从逆映射的代码中可信的重建,使得可以在现有训练的GAN的潜在空间的可控方向上进行图像编辑。具体流程见下图,我们将真实图像逆映射到潜空间后,可以沿着一个特定方向改变代码来编辑图像属性。
在这里插入图片描述

  最后作者提及了给定图像获得的潜在隐空间应该具有的特性:可信逼真的重建图像以及促进下游任务,这也是GAN逆映射的目标。

问题描述

  Gan的生成器表达式为G:Z->X,当z1和z2在z空间无限接近时,那么生成的x1和x2也会很相似,那么我们可以利用这一点,将x逆映射回潜表示z*,之后放入生成器得到一个图像x*,保持接近真实的图像x。具体任务如下:(其中x是真实图像,z是隐空间向量,l是特征空间或者图像的距离度量函数,改变z*可以进一步获取经过处理的图像)
z ∗ = a r g min ⁡ z l ( G ( z ) , x ) z* = arg\min_{z} l(G(z),x) z=argzminl(G(z),x)
  作者在下文介绍了很多逆映射gan的模型以及方法,为了评估不同方法的性能,主要考虑两方面:重建图像的真实感(感知质量)和可信性(逆映射精度),其中第一个方面取决于如何求解公式,第二个方面取决于利用那些潜空间。

交待准备工作

GAN模型

1.DCGGAN 在鉴别器使用了卷积,在生成器中使用了分步卷积。
2 WGAN 将生成的数据分布与真实数据之间的Wasserstein距离最小化,这样就可以提供更多的模型稳定性,使得训练更容易。
3 BigGAN 生成高质量图像,通过对缩放、正交正则化进行修改,来提高大规模GAN的可伸缩性稳定性和鲁棒性。
4 PGGAN 也被称为proGAN和渐进式GAN,在训练中使用了增长策略,从生成器和鉴别器的低分辨率开始,然后逐渐添加新层,对越来越细粒度的细节进行建模,该方法提高了训练速度和稳定性。
5 styleGAN 隐式的学习用于图像生成的潜在风格。该模型操作每通道的均值和方差来控制图像风格,如下图所示,风格生成器将风格特征(由映射网络f定义)和随机噪声作为图像合成的输入。styleGAN2模型通过提出权重解调,路径长度正则化,生成器重设置和去除渐进增长,进一步提高了感知质量。styleGAN2-Ada提出了自适应鉴别器增强机制,可以以稳定的有限数据进行训练。styleGAN3观察到了GAN中存在的纹理粘连问题,通过在连续域中考虑混叠效应对结果进行适当的低通滤波,更适合于动画和视频。
在这里插入图片描述
对上图部分解释:z空间通过f映射到w空间,再输入生成网络得到生成图像x
(其中w空间就是z空间上建立的隐空间,在继承z空间功能的情况下获得更好的解耦能力,其中解耦能力简单说就是仅改变一个方向上的隐码,就可以改变面部的部分属性,而其他的整体属性不会被影响)

数据集

1 ImageNet 是一个用于视觉对象识别研究的大规模手工注释数据集,包含超过1400万幅图像,超过2万个类别。
2 CelebA 一个大规模的人脸属性数据集,由200k张名人图像组成,每个图像有40个属性注释。
3 Flickr-Faces-HQ (FFHQ) 是一个从Flickr中抓取的高质量人脸图像数据集,由70,000张

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值