文献阅读(二十三)

文献阅读

文献链接:High-quality Image Dehazing with Diffusion Model

文献摘要

浓雾场景中,图像去雾非常具有挑战性,雾霾图像中保留的原始信息相当少。尽管以前的方法取得了巨大的进步,但它们在浓雾场景中仍然存在内容和颜色信息丢失的问题。最近出现的去噪扩散概率模型(DDPM)表现出强大的生成能力,显示出解决该问题的潜力。然而DDPM没有考虑去雾任务的物理特性,限制了其信息补全能力。在这项工作中,我们提出了 DehazeDDPM:一种基于 DDPM 和物理感知的图像去雾框架,适用于复杂的雾霾场景。具体来说,DehazeDDPM 分两个阶段工作。前阶段使用大气散射模型(ASM)对除雾任务进行物理建模,使分布更接近清晰数据,并赋予 DehazeDDPM 雾感知能力。后阶段利用DDPM强大的生成能力,通过与物理建模相结合来补偿雾霾引起的巨大信息损失。大量的实验表明,我们的方法在合成和现实世界的模糊数据集上都达到了最先进的性能。

背景

HAZE 是一种常见的大气现象。在雾霾环境中捕获的图像通常会在内容和颜色方面遭受信息丢失。图像去雾的目标是从模糊的图像中恢复干净的场景。这项任务一直是监控系统和自动驾驶等各种应用中长期存在且具有挑战性的问题,引起了研究人员的关注。正如所认识到的,雾度过程可以用众所周知的 ASM 来表示,其公式为
在这里插入图片描述
其中I(x)和J(x)分别表示有雾图像和干净图像,A是全局大气光,t(x)是传输图(为了避免混淆,我们在后面使用trmap来表示传输图) 。根据ASM,密集雾对应于较小的透射图值和较少的原始信息。
沿着这条线,传统方法依赖于 ASM 并采用先验作为外部信息来估计 ASM [ 的参数。然而,这些手工制作的图像先验是从鲁棒性有限的特定观察中得出的,这对于建模模糊图像的内在特征可能并不可靠。受深度学习成功的启发,人们开发了许多方法来直接学习模糊到清晰的映射。尽管这些方法取得了惊人的进步,但它们在浓雾场景中仍然存在内容和颜色信息丢失的问题,如图1所示。至于原因,在这种具有挑战性的情况下,雾霾图像中保留的原始信息非常有限,限制了这种映射的信息补全能力。雾霾引起的信息丢失的详细统计图如图2所示。例如,t-SNE]以及wasserstein距离表明清晰图像和模糊图像的分布相互偏离。熵是图像中包含的信息量的度量。雾霾图像的平均熵远小于清晰图像,这表明雾霾引起的信息损失。
在这里插入图片描述

图 1.去雾结果的视觉示例是从现实世界的模糊图像中采样的。第二到第四列分别显示了 Dehamer 、我们的第一阶段和 DehazeDDPM 的结果。我们的方法在具有挑战性的现实世界数据集上展示了前所未有的感知质量。

最近,DDPM由于其强大的生成能力而引起了广泛的关注。 DDPM可以无条件和有条件产生高质量图像,这为图像去雾任务提供了新的视角。然而DDPM没有考虑去雾任务的物理特性,限制了其信息补全能力。例如,浓雾和清晰图像之间巨大的分布差异使得 DDPM 难以应对薄弱且偏差的分布指导。此外,DDPM 不知道不同图像区域的恢复难度,这对于对现实雾霾场景中的复杂分布进行建模非常重要。
在这项工作中,作者提出了 DehazeDDPM:一种基于 DDPM 的物理感知图像去雾框架,适用于复杂的雾霾场景。主要思想的草图如图 3 所示。我们的 DehazeDDPM 将图像去雾视为一项条件生成建模任务。 DehazeDDPM 不是学习映射,而是通过将条件 DDPM 引入到图像去雾中来记忆清晰图像的数据分布,其中条件 DDPM 在适当的条件下近似数据分布。因此,在具有挑战性的浓雾情况下,我们的方法很大程度上超越了以前基于映射的方法。此外,利用生成过程的频率先验来优化和约束硬区域的频率信息。具体来说,DehazeDDPM 分两个阶段工作。前一阶段估计传输图 trmap、无雾图像 J 和由底层大气散射模型 (ASM) 物理原理控制的大气光 A。估计的无雾图像 J 比原始有雾图像更接近相应的清晰数据。利用传输图 trmap 作为第二阶段的置信度指导,赋予 DehazeDDPM 雾感知能力。后阶段利用DDPM强大的生成能力,通过与物理建模相结合来补偿雾霾引起的巨大信息损失。后一阶段可以恢复第一阶段未能检索到的细节,以及该阶段引入的正确工件。除此之外,虽然扩散模型可以生成高质量的图像,但在整个反降噪过程中,它花费了大部分时间来生成高频。因此,我们对扩散模型的训练施加频率先验约束。我们的方法在图像去雾任务中展示了前所未有的感知质量,如图 1 所示。大量实验表明,我们的方法在多个图像去雾基准上实现了 SOTA 性能。
在这里插入图片描述

图 3.主要思想的缩略图。大多数先前的图像去雾方法学习从模糊图像到清晰图像的映射。我们的方法通过将条件DDPM引入图像去雾来记住清晰图像的数据分布。

总的来说,作者的贡献可以总结如下:

  • 首先引入条件DDPM,通过与物理建模相结合来解决具有挑战性的浓雾图像去雾任务。
  • 具体来说,物理建模使模糊数据的分布更加接近清晰数据的分布,并赋予DehazeDDPM 雾感知能力。
  • 大量实验表明,作者的方法在多个图像去雾基准测试中优于 SOTA 方法,在复杂的真实数据集上具有更好的 FID 和 LPIPS 分数。

相关方法

图像去雾。近年来,我们见证了单图像去雾方面的重大进展。现有的方法可以大致分为两类:基于物理的方法和基于深度学习的方法。
基于物理的方法依赖于大气散射模型 和手工先验,例如暗通道先验、颜色线先验、颜色衰减先验、稀疏梯度先验、最大反射率先验和非局部先验。例如,DCP 在对无雾图像的属性进行建模之前发现暗通道,假设在无雾自然图像中 RGB 通道中的局部最低强度应接近于零。然而,手工先验主要来自经验观察,无法准确表征雾霾的形成过程。
与基于物理的方法不同,基于深度学习的方法采用卷积神经网络来学习图像先验或直接学习模糊到清晰的翻译。例如,AOD-Net 通过重新制定大气散射模型来生成恢复的图像。 DeHamer[]将Transformer引入图像去雾中,将Transformer的全局建模能力和CNN的局部表示能力结合起来。 FSDGN揭示了雾霾退化与频率特征之间的关系,共同探索图像去雾的频域和空间域信息。 RIDCP 从合成更真实的模糊数据并将更鲁棒的先验引入网络的角度提出了真实图像去雾的范例。郑等人。 提出了一种课程对比正则化,它利用其他现有去雾方法的去雾结果来提供更好的下限约束。
上述技术在图像去雾方面表现出了优异的性能。他们求助于学习从有雾图像到无雾图像的映射。例如,CNN 和基于 Transformer 的方法分别通过局部或全局建模来学习不同像素或区域之间的关系。然而,如果图像是在复杂的真实雾场景中捕获的,则变换映射很难学习,并且网络无法通过雾图像中非常有限的信息恢复原始清晰图像。此外,这些方法都有一个局限性,即它们产生确定性的输出,这与图像去雾的不适定性质不一致。
更重要的是,众所周知,最小化像素级失真的训练目标与人类感知的相关性很差,并且经常导致模糊和不切实际的重建,特别是在复杂的现实世界模糊场景中。我们的方法不是学习映射,而是通过将条件扩散模型引入图像去雾来记忆清晰图像的信息,其中条件DDPM在适当的条件下近似数据分布。因此,在具有挑战性的浓雾情况下,我们的方法很大程度上超越了以前基于映射的方法。深度生成模型。深度生成模型在学习图像的复杂经验分布和展示令人信服的图像生成结果方面取得了成功。生成对抗网络(GAN)、自回归模型、归一化流和变分自动编码器(VAE)已经合成了引人注目的图像样本,并已应用于图像去雾等条件任务。然而,这些方法常常受到各种限制。例如,GAN 捕获的多样性少于最先进的基于似然的模型 ,并且需要精心设计的正则化和优化技巧以避免优化不稳定和模式崩溃。相比之下,扩散模型作为一类基于似然的生成模型,具有理想的属性,例如分布覆盖范围、固定训练目标和易于扩展性。通过这条线,条件DDPM 被开发用于低级视觉中的图像增强,例如图像超分辨率、图像修复和图像去模糊。尽管基于 DDPM 的方法已经被开发用于一些低级视觉任务,但在图像去雾中还没有使用的先例。此外,DDPM也没有考虑去雾任务的物理特性,限制了其对有雾图像的信息补全能力。因此,在本文中,我们首先引入条件DDPM,通过与物理建模相结合来解决具有挑战性的浓雾图像去雾任务。

复习DDPM

DDPM 是由 T 步马尔可夫链指定的潜变量模型,它用模型 pθ(x) 来近似数据分布 q(x)。它包含两个过程:前向扩散过程和反向降噪过程。
前向扩散过程。前向扩散过程从干净的数据样本x0开始,根据转移核q(xt|xt−1)重复注入高斯噪声,如下:
在这里插入图片描述
其中 α t α_t αt可以通过重新参数化来学习,或者作为超参数保持恒定,控制每一步添加的噪声的方差。从高斯扩散过程中,我们可以推导出边际分布 q ( x t ∣ x 0 ) 和 反 向 扩 散 步 长 q ( x t − 1 ∣ x t , x 0 ) q(x_t|x_0)和反向扩散步长q(x_{t−1}|x_t, x_0) q(xtx0)q(xt1xt,x0)的封闭表达式:
在这里插入图片描述
请注意,上述定义的前向扩散公式没有可学习的参数,并且由于在推理阶段无法访问 x0,因此无法应用反向扩散步骤。因此,我们进一步引入了可学习的反向降噪过程,用于从 xT 估计 x0。逆向降噪过程。通过学习逆向过程中的降噪网络 f θ f_θ fθ,训练 DDPM 来逆向式 2 中的过程。具体来说,降噪网络估计 f θ ( x t , t ) f_θ(x_t, t) fθ(xt,t) 以替换等式 4 中的 x 0 x_0 x0。请注意, f θ ( x t , t ) f_θ(x_t, t) fθ(xt,t) 可以预测高斯噪声 ε 或 x 0 x_0 x0。它们与公式 3 确定性地对应。
在这里插入图片描述
类似地,逆高斯分布 5 中的均值和方差可以通过用学习到的 x 0 x_0 x0 训练目标和采样过程替换 μ ~ t ( x t , x 0 ) \tilde{μ}_t(xt, x0) μ~t(xt,x0) β ~ t \tilde{β}_t β~t 中的 x0 来确定。如上所述,训练 f θ ( x t , t ) f_θ(x_t, t) fθ(xt,t) 以接近高斯噪声 ε。因此最终的训练目标是:
在这里插入图片描述
推理阶段的采样过程是通过运行相反的过程来完成的。从纯高斯噪声 x T x_T xT 开始,我们迭代应用反向降噪转换 p θ ( x t − 1 ∣ x t ) p_θ(x_{t−1}|x_t) pθ(xt1xt)T 次,最终得到清晰的输出 x 0 x_0 x0

方法结构

我们的方法的概述结构如图 4 所示。我们结合 ASM 和 DDPM 进行图像去雾。 DehazeDDPM 分两个阶段工作。对于有雾图像 I,前级首先按照 ASM 的公式输出透射图 trmap、伪无雾图像 J 和大气光 A。然后,在后期,将学习到的trmap和J集成到DDPM中,使模糊数据的分布更接近清晰数据的分布,并赋予DehazeDDPM雾感知能力。
物理建模。
我们基于物理的网络的轮廓如图 4 的左侧所示。它将输入图像 I 分解为由底层物理控制的 trmap、J 和 A。为了更可靠地梳理出这些分量,我们通过 ASM 公式用估计的 J、trmap 和 A 重建模糊图像 I r I^r Ir
在这里插入图片描述
在这里插入图片描述

图 4. 所提出的 DehazeDDPM 的概述结构。 DehazeDDPM 分两个阶段工作。在前一阶段,物理建模网络生成 J、trmap 和 A,由底层 SAM 物理控制。对于后阶段,雾感知和分布更接近条件(FDC)赋予 DehazeDDPM 雾感知能力,并使分布更接近清晰数据。置信引导动态融合(CDF)利用传输图作为置信图,将第一阶段恢复良好的区域合并到第二阶段,减轻了DDPM图像去雾的学习难度。

然后分别用 GT 和 I 约束 J 和 Ir。为了证明物理建模的有效性,在图 5 中展示了一些示例。可以看出,重建的 I r I^r Ir 与原始 I 高度相似。此外,请注意,根据以下公式,trmap 中的暗区表示重度雾度ASM,因此估计的 trmap 明显与有雾输入 I 中的雾度分布一致。重建图像 Ir 和透射图 trmap 的双重一致性证明了我们物理建模阶段的有效性。关于第一阶段骨干选拔。第一阶段的目标是提供更接近透明的分布以及雾度感知传输图来指导扩散过程。因此,第一阶段的偏好是提交时表现最好的去雾方法。在本文中,我们选择 FSDGN 作为第一阶段的骨干。我们对 FSDGN 进行了额外的设计以适应 ASM,如图 6 所示。此外,我们还采用经典的 GridNet作为第一阶段的较弱骨干网来验证我们方法的有效性和鲁棒性。需要指出的是,大气散射模型中的透射图与均匀大气光假设中的深度相关。但是,在复杂的雾霾场景中(例如,密集或非均匀的情况),透射图通常与深度无关,而是反映雾霾的密度,如图5所示。以前的一些去雾方法也在这些复杂的模糊场景中使用了ASM。此外,与之前的用法略有不同,我们使用 ASM 来获得近似初始化,而不是最终结果。输出透射图也能够用作去雾置信度,因为雾度的密度与去雾难度密切相关。因此,在复杂的模糊场景中应用 ASM 作为我们方法的第一阶段是合理的。
在这里插入图片描述

第一阶段的不同组成部分。这三行分别从 SOTS [57]、Dense-Haze [58] 和 NH-HAZE [59] 数据集中采样。估计的 trmap 完美地反映了雾的密度,其中较暗的区域表示雾较浓。

在这里插入图片描述

图6 第一阶段网络结构概览。除了FSDGN的骨干之外,我们还进行了额外的设计以适应ASM。

结论

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
评估指标。作者在六个不同的指标上评估自己的方法:FID 、LPIPS、PSNR、SSIM 、BRISQUE 和 NIQE ,其中 FID 和 LPIPS 是基于感知的指标,PSNR 和SSIM是基于失真的指标,BRISQUE和NIQE是两个著名的无参考图像质量评估指标。常用的图像质量评分 PSNR 和 SSIM 并不能很好地反映人类的偏好。因此,还采用基于感知的指标 FID 和 LPIPS 来比较图像去雾方法的质量。此外,使用 BRISQUE 和 NIQE 来定量评估未标记的 URHI 和 RTTS 数据集上的性能。比较方法。定性和定量地将作者的方法与 SOTA 方法进行比较,包括一种基于先验的算法(DCP )、七种基于深度学习的方法(GridNet、FFA-Net、MSBDN、AECRNet 、Dehamer 、RIDCP和 FSDGN )。
具体来说,DehazeDDPM 分两个阶段工作。前一个物理建模阶段使模糊数据的分布更加接近清晰数据的分布,并赋予DehazeDDPM雾感知能力。后阶段利用DDPM强大的生成能力来恢复雾霾引起的信息丢失。大量实验表明,作者的方法在多个图像去雾基准测试中实现了 SOTA 性能。

  • 23
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值