VAE-CoGAN: Unpaired image-to-image translation for low-level vision用于低级视觉的非配对图像到图像的翻译2023

摘要:低级视觉问题,如单幅图像雾霾去除和单幅图像雨水去除,通常使用配对数据集从输入图像中恢复清晰的图像。然而,对于许多问题,配对训练数据集是不可用的。

在本文中,我们提出了一种基于耦合生成对抗网络(CoGAN)的非配对图像到图像VAE -CoGAN来解决这个问题。与基本的CoGAN不同,我们在框架中提出了共享潜空间(shared-latent space )变分自动编码器(VAE)。我们使用合成数据集和真实世界的图像来评估我们的方法。广泛的评估和比较结果表明,该方法可以有效地应用于大量的低级视觉任务,并且与现有方法相比具有良好的性能。

对于无监督设置,提供非配对数据集。显然,无监督的图像到图像的翻译被认为比较困难。Mehta等人[3]提出了高光谱制导图像去雾生成对抗网络(HIDeGAN),该网络通过设计CycleGAN的增强版本R2HCycle和而形成一种增强的条件GAN,称为H2RGAN。R2HCycle利用高光谱图像(hsi),结合周期一致性和骨架损失,通过分析全光谱来提高信息恢复的质量。提出AIGAN[4]将下雨图像分割为干净背景和雨层,交换前馈信息,共享反馈梯度,实现互补对抗优化。而无监督学习方法较好地解决了计算机视觉中数据集缺乏的关键问题

受VAEGAN[5]的启发,我们提出了一个通用的学习框架,该框架结合了条件生成过程下的变分自编码器(VAE)和生成对抗网络(GAN)来解决这个问题[6]。

综上所述,本文的工作有两个方面的贡献:

(1)本文提出的方法不需要对图像进行额外的分类和处理,具有更强的通用性,适用于任何情况下的道路场景恢复,例如雾霾或雨天。

(2)为了获得更好的去雾和去雨效果,我们通过增加感知一致性损失来增强单幅图像去雾和去雨的无监督图像到图像翻译网络(UNIT)架构。

related work

在计算机视觉中,建立有效的图像生成模型是一个重要的方面。许多计算机视觉问题都可以归结为图像到图像的转换问题,即将图像从一个域映射到另一个域。最近,已经开发了许多深度生成模型[7-10]来解决这种图像到图像的翻译问题。基于深度生成模型的方法可以捕获数据中的复杂结构,因此它们在生成自然图像方面都显示出很好的结果,比传统生成模型生成的自然图像逼真得多。我们将这些方法分为三大类:VAE[8,10]、GAN和自回归[9]。

该方法:

我们提出了一种将雾霾或雨天图像转换为相应的无雾或无雨图像的新方法。

在这项工作中,我们结合了变分自编码器(VAE)和生成对抗网络(GAN),并基于共享潜在空间的假设。我们假设两个不同域的一对对应图像可以映射到相同的潜在表示[23]。

网络通过编码函数E1和E2将图像(x1, x2)映射到潜码z中,然后在给定z的情况下,通过生成函数G1和G2生成图像。判别网络D1和D2用于区分真假图像。

如图1所示,我们的框架由三部分组成:1)编码器网络E1和E2,将图像(x1, x2)映射到潜在码z;2)生成网络G1和G2,将潜在表征映射到图像;3)判别网络D1和D2,评价翻译图像是否真实。接下来是一个简单的伪代码,以提高我们工作的可理解性。

在这项工作中,网络将来自两个不同域的图像(x1, x2)作为输入。基于共享潜空间假设,网络假设(x1, x2)在共享潜空间中具有相同的潜码z。即z = E1 (x1) = E2 (x2)。网络可以从这个潜在代码中恢复这两幅图像。也就是说,x↑1 = G1(z), x↑2 = G2(z)。在去雾霾或去雨任务中,网络的目标是将有雾霾或有雨的图像转化为无雾霾或无雨的图像。X1为雾霾或雨的图像;x2是清晰图像,我们的目标是学习x↑1 = F2−1 (x2)和x↑2 = F1−2 (x1)。在这个模型中,我们可以看到x↑1 = F2−1 (x2) = G1 (E2 (x2))和x↑2 = F1−2 (x1) = G2 (E1 (x1))。我们还可以引入循环一致性约束的理想[46]:x1 = F2−1 (F1−2 (x1))和x2 = F1−2 (F2−1 (x2))。我们让x1 = x↑1 x2 = x↑2。

公式化

们的损失函数总共由四个部分组成:(1)图像重建,(2)图像平移,(3)循环重建,(4)视觉几何群(VGG)感知损失。

其中λ1和λ2是超参数,用来控制这两项的权值。KL散度项表示q z|x 与pη(z)之间的距离。KL值越小,两段之间的距离越小。

我们没有改变GAN的损失。(4)和(5)是两个GAN网络的条件客观损失,保证生成的图像与目标域中的图像相似。

其中λ0是用于控制GAN函数影响的超参数。

我们也有周期一致性的理想,所以我们用VAE-like目标函数来建模;(6)和(7)是函数。

其中λ3和λ4为超参数,用于控制两个不同项的权值。有两个KL项,因此它们可以惩罚远离先验分布的潜在码[3]。

VGG感知损失为:

其中,ϕi为CNN第i层的激活(feature map)。

因此我们设λ0 = 10 λ1 = 0.1 λ3 = 0.1 λ2 = 100 λ4 = 100。

我们仍然可以把我们提出的工作看作是条件GAN中的最小-最大问题。与GAN不同的是,我们的工作可以分为两部分。一种是编码器和生成器的组合,需要将VAE和周期一致性的损失降到最低。另一种是鉴别器的组合,需要使损失最大化。

结论:在这项工作中,提出了一种新颖的全端到端深度学习模型来解决低级视觉问题。该方法与现有的图像增强方法完全不同,主要是从输入图像中估计场景传输映射。为了产生更好的结果,我们提出了一种编码器和解码器架构,使其能够捕获更多有用的信息。我们通过引入新的损失函数进一步修改了基本的GAN公式,以生成逼真的清晰图像。本文提出的方法在合成数据集和真实雪景图像上都优于几种最先进的方法。在接下来的工作中,如何构建性能优越的无监督图像去雾和图像去噪模型,建立对真实场景图像去雾和去噪后评价的客观评价标准,是图像去雾和图像去噪任务的重要研究方向

注释:

(1)

耦合生成对抗网络(CoGAN)是一种扩展了生成对抗网络(GAN)概念的框架,可以同时生成多个相关领域的数据。GAN是一类机器学习模型,其中包含生成器和判别器两个网络,通过博弈论的方式进行训练。生成器试图从随机噪声中创建逼真的数据样本(例如图像),而判别器则试图区分真实数据和生成数据。随着时间的推移,这个过程会导致生成器产生越来越令人信服的数据。

CoGAN引入了同时训练两个GAN的思想,每个GAN专注于从不同的领域生成数据,但它们以某种方式“耦合”,共享一些参数或信息。 CoGAN的主要目标是学习多个领域数据的联合分布,通过鼓励生成器共享一些基础结构来实现这一目标。

例如,如果您想生成逼真的马和斑马图像,您可以使用CoGAN来同时训练两个GAN:一个专注于生成马的图像,另一个专注于生成斑马的图像。通过在生成器之间共享一些层或参数,CoGAN框架旨在捕获两个领域之间的共同特征或属性,使生成器能够生成连贯且相应的数据样本。

CoGAN和类似的框架试图解决学习多个领域之间共享表示的挑战,这在图像到图像的转换、领域适应和数据增强等任务中非常有用。

(2)

共享潜空间(Shared Latent Space)是一种概念,用于描述多个不同领域或模态之间共享的表示空间。在机器学习和生成模型中,共享潜空间可以使不同领域之间的数据能够在同一个低维空间中表示,从而方便进行跨领域的数据转换、生成和分析。

例如,在图像生成中,共享潜空间可以表示为一个低维的向量空间,其中不同的生成器可以操作这个共享潜空间来生成不同领域的图像。这种共享潜空间的想法是,不同领域的数据可能共享一些通用的特征或属性,这些特征可以在共享的低维空间中被表示出来。

共享潜空间的一个重要应用是在多模态学习中,其中不同类型的数据(例如文本、图像、声音等)可以在共享的潜空间中表示,从而使模型能够更好地进行不同模态数据之间的关联和转换。这对于任务如图像字幕生成、音乐合成等具有重要意义。

总之,共享潜空间是一种有助于在不同领域或模态之间建立联系和转换的概念,它在多领域生成模型、多模态学习和相关任务中具有广泛的应用价值。

(3)

变分自动编码器(Variational Autoencoder,VAE)是一种生成模型,结合了自动编码器(Autoencoder)和变分推断(Variational Inference)的概念。它被用来学习数据的潜在表示,并可以用于生成新的数据样本。VAE 是一种无监督学习方法,通常用于处理连续型数据,如图像、音频和文本。

VAE 的主要思想是,将输入数据映射到一个潜在空间中,通过对潜在变量的随机采样,可以生成具有相似特征的新数据样本。与传统的自动编码器不同,VAE 引入了统计学的概念,使得生成过程更具有连续性和随机性。它强调了潜在变量的分布,通常假设潜在变量遵循高斯分布。

VAE 的基本结构包括两个主要部分:编码器(Encoder)和解码器(Decoder)。编码器将输入数据映射到潜在空间中的概率分布,同时学习出一个均值向量和方差向量,用于表示分布的参数。解码器则从潜在空间中的采样数据重建出原始数据。

训练 VAE 的过程涉及最大化一个下界,称为变分下界(Variational Lower Bound),这涉及到最大化数据的似然性和潜在变量的分布之间的一项损失函数,以及编码器和解码器之间的重构损失。通过这个过程,VAE 学习到了一个可以在潜在空间中进行插值、采样和生成的表示,使得它在生成新样本时具有一定的创造性。

VAE 在生成图像、图像重建、数据降维和探索潜在数据分布等任务中取得了很好的效果,并且为生成模型和潜在表示学习领域带来了重要的进展。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值