目录
温馨提示:直接划到官方讲解PPT/官方网站讲解视频,这篇文章会变得非常简洁明白
一、Introduction
1 Motivation
Generative Adversarial Network (GAN) 已在超分辨率任务中被广泛使用,其目的是丰富复原图像中的纹理细节。现有方法一般可以分为两种:
1)第一种方法(如 ESRGAN [1])训练生成器以处理放大任务,其中通过使用鉴别器将真实图像与生成器生成的放大图像区分开来进行对抗训练。在这种设置下,生成器既负责捕获自然图像特征,又负责保持对 GT 的保真度。这不可避免地限制了逼近自然图像流形的能力。因此, 这些方法经常产生伪像和不自然的纹理。如图1所示,虽然ESRGAN[35]忠实地恢复了猫的结构(例如姿势,耳朵形状),但它很难产生逼真的纹理。
2)第二种方法(如 PULSE [2])通过优化来更好地利用 GAN 的潜在空间来解决上述问题。但是,由于低维隐码 (latent code)和图像空间中的约束不足以指导恢复过程,这些方法通常会生成低保真度的图像。如图1所示,代表性方法PULSE[27]的输出虽然真实,但并不能忠实地恢复地真值的结构。此外,由于优化通常在运行时以迭代的方式对每个图像进行,因此这些方法通常非常耗时。
2 Contribution
在我们的方法中,我们利用预训练的gan(如StyleGAN[16])为任务提供丰富多样的先验。与大多数使用预训练GAN的GAN反演方法不同,我们的方法在运行时不涉及特定于图像的优化。经过训练后,该模型只需要一次前向传递就可以升级图像,这对于需要快速响应的应用程序更实用。
这个想法部分受到经典词典概念的启发[40]。但与构建有限和图像派生字典的传统方法不同,我们利用GAN作为一种更有效的存储先验的方法。
二、原理分析
在大规模自然图像上训练的 GAN 模型可捕获丰富的纹理和形状先验。先前的研究表明,可以通过 GAN Inversion 来获取此类先验信息,以使各种图像恢复任务受益。但是,如何利用先验而不进行反演过程中的复杂优化仍然是一个没有被充分研究的问题。
在这项研究中,我们在一种新颖的 encoder-bank-decoder 结构中设计了 GLEAN,该体系结构允许人们只需要一个 forward-pass 就可以利用生成先验。如下图所示,给定严重降采样的图像,GLEAN 应用 encoder 提取潜在矢量 (latent vector) 和多分辨率卷积特征,这些特征捕获了重要的高层线索以及LR图像的空间结构,可以用于调节 latent bank,为 decoder 产生了另一组多分辨率特征。
最后, decoder 通过集成来自 encoder 和 latent bank 的特征来生成最终输出。在这项工作中,我们采用 StyleGAN [3,4] 作为 latent bank。这里要强调的是这个概念可以扩展到其他网络,例如 BigGAN [5]。
1 Encoder
2 Generative Latent Bank
Generative Latent Bank (GLB) 是一种机器学习技术,主要用于生成性任务,例如图像生成、文本生成等。它的主要思想如下:
1. 学习一个潜在表示空间(latent space)。这个潜在空间中的向量可以表示各种潜在特征,并且可以通过某种方式进行组合以生成目标数据(如图像或文本)。
2. 构建一个"银行"(bank),里面存放着大量预训练的潜在向量。这些潜在向量可以用来快速生成各种不同的样本,而无需从头开始训练生成模型。
3. 在执行生成任务时,可以从这个预训练的潜在"银行"中选择合适的向量,并对其进行一些简单的操作(如线性组合),就可以生成所需的目标数据。
这种方法的优点是:
1. 可以复用预训练的潜在表示,避免从头训练生成模型的开销。
2. 可以灵活地组合和操作潜在向量,生成各种不同的样本。
3. 相比于直接训练生成模型,这种方法通常计算开销较小。
总之, Generative Latent Bank 是一种利用预训练的潜在表示来高效进行生成任务的机器学习技术,在一些应用场景中显示出较好的性能。
3 Decoder
三、实验结果
上图展示了 16x SR 上的定性比较。在低维向量和 LR 空间中的约束的指导下,GAN Iinversion 方法的输出无法保持良好的保真度: PULSE [2] 和 mGANprior [6] 无法还原相同身份的人脸。另外,在它们的输出中观察到伪像。
通过在优化过程中微调生成器,DGP [10] 的结果在质量和保真度方面得到显着提升。但是,仍然可以观察到输出和 GT 之间的差别。例如,眼睛和嘴唇显示出明显的差异。
经过对抗性损失训练的方法(SinGAN [11],ESRGAN+(具有与GLEAN相似的FLOPs的 ESRGAN [1])可以保留局部结构,但无法合成令人信服的纹理和细节。具体而言, SinGAN 无法捕捉自然图像样式,从而产生类似绘画的图像。
尽管 ESRGAN+ 能够生成逼真的图像,但仍难以合成精细的细节,并在细节区域引入不自然的伪像。值得强调的是,尽管 ESRGAN+ 在人脸方面取得不错的结果,但它在其他类别上的表现却不太好,如上图所示:
通过 latent bank 提供的自然图像先验,GLEAN 在保真度和自然度方面都取得了成功。为了进一步验证我们的方法在保真度的优越性,我们计算了 ArcFace [12] 特征的 cosine similarity。从下表可以看到我们的方法胜过其他方法,证明了我们方法在保持身份一致性上的优越性。
我们将 GLEAN 扩展到更高的放大倍率。GLEAN 成功地生成了真实而且接近 GT 的图像,最多可进行64x的放大。
以下是更多例子,GLEAN 在照片写实和身份保存方面具有明显优势:
四、小结
在本文中,我们提出了一种新方法,可以利用经过预训练的GAN来进行大规模超分辨率任务,最高的放大倍率为64x。从实验结果可以得出,预训练的 GAN 可以用作 encoder-bank-decoder 体系结构中的 latent bank。
相比之前 GAN Inversion 的方法,GLEAN 仅需进行一次网络向前传播来调节和检索 latent bank 中的先验信息,从而重建高清图像。GAN-based 字典的普遍性使GLEAN不仅可以扩展到各种体系结构,而且可以扩展到其他图像复原任务上,如图像去噪,去模糊和着色等。
五、链接及代码
论文https://arxiv.org/abs/2012.00739Github链接(代码
https://github.com/ckkelvinchan/GLEAN
官网主页讲解https://www.mmlab-ntu.com/project/glean/
六、官方讲解PPT