用扩散模型搞去雾？这篇 Diff-Dehazer 真有点东西！| 论文解读

梦姐的编程日志

于 2025-04-16 10:06:54 发布

阅读量1.1k

点赞数 29

分类专栏：论文总结文章标签：计算机视觉人工智能深度学习图像处理生成对抗网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_68604571/article/details/147266158

版权

论文总结专栏收录该内容

10 篇文章

订阅专栏

一、背景简介：图像去雾的“老大难”

现实世界中，雾霾天气对图像质量影响极大，不仅视觉效果差，还影响目标检测等下游任务。

传统图像去雾方法一般分为两类：

基于物理模型：如经典的暗通道先验（DCP）、BCCR等，这类方法通过手工设计的物理规律逆推还原清晰图像。但问题是：一旦遇到复杂场景，先验就失效了。
基于深度学习的有监督方法：如 DehazeFormer、C2PNet 等，依赖合成的有雾-无雾图像对训练神经网络，效果不错，但泛化能力差（合成的毕竟不是现实中的雾）。

于是，“无监督图像去雾”应运而生：不用成对的数据，用 CycleGAN 等结构从未配对的有雾图和清晰图中学习映射，典型如 D4、ODCR 等。但它们的表达能力还是不够强——于是本文来了。

二、核心创新：Diff-Dehazer 做了哪些事？

作者提出的 Diff-Dehazer 是一个结合了“扩散模型 + 无监督训练 + 多模态引导 + 物理先验”的新架构。它的核心创新有以下四点：

1. 引入 Stable Diffusion 模型作为 CycleGAN 的主干

利用预训练好的 Stable Diffusion Turbo (SD Turbo) 作为映射器，建立 hazy ↔ clear 的循环结构。用 LoRA 微调，保留大模型能力的同时避免训练开销过大。

2. 加入物理先验指导（Physics-Aware Guidance, PAG）

引入经典方法（DCP + BCCR）生成传输图和大气光，计算物理重建损失，使得网络更符合真实物理规律，提升泛化性。

3. 融合文本引导（Text-Aware Guidance, TAG）

用 BLIP-2 给输入图像生成描述（可自定义），通过文本提示（Prompt）控制去雾过程的语义方向。例如把“foggy street”→“clean street”。

特别之处：不仅使用正向提示，还通过Textual Inversion 学习雾的隐性特征，作为负向 prompt，二者配合进一步增强控制力。

4. 构建一个现实无配对数据集

包含 6,519 张真实雾图 + 11,293 张清晰图，用于无监督训练，提升实验可信度和复现性。

三、方法细节简要拆解

1. 结构框架

图一模型框架图，黑色箭头表示训练过程，蓝色箭头表示测试过程

图二框架的骨干网络

采用 CycleGAN 架构：雾图 → 清晰图 → 恢复为雾图（Cycle Consistency）
生成器：使用 LoRA 微调的 SD Turbo 模型（包含 VAE 编码器 + UNet + 解码器）
跳跃连接保留细节信息，避免信息损失

2. TAG：文本引导如何做？

图三文本感知指导图

使用 BLIP-2 对图像进行自动描述
删除如 haze/fog 词汇，作为正向 prompt
通过 Textual Inversion 训练雾的负向 prompt，进行对抗引导
正负 prompt 结合，用于图像/文本双模态的 classifier-free guidance

3. PAG：物理先验如何整合？

图四物理先验指导图

利用 DCP 和 BCCR 生成两个清晰图，再通过 Perceptual Fusion Model (PFM) 进行融合
构建一个更可靠的清晰图 $J_{ref}$ ，通过大气散射模型 $I_{phy} = J_{ref} t_{ref} + A(1 - t_{ref})$ 还原雾图
引入物理重建损失 ${L}_{phy} = \mathcal{L}_{rec}(I, I_{phy})$

四、实验结果一览

1. 数据集

训练集：从 RESIDE、ADE20K 等收集真实雾图和清晰图，构建无配对数据集
测试集：RTTS、Haze2020、OHAZE、NHAZE、Fattal 等多个真实数据集

2. 评估指标

无参考：FID、NIQE、MUSIQ、CLIPIQA
有参考：PSNR、SSIM、LPIPS、VSI

3. 结果总结

在 Haze2020、RTTS、OHAZE 等真实数据集上全面超越现有SOTA方法
和 D4、RefineDNet 等无监督方法相比效果更好
和 C2PNet、DehazeFormer 等有监督方法相比，在真实场景更稳定
ablation 实验证明 PAG 和 TAG 模块都显著提升性能

五、总结：为什么这篇论文值得关注？

无监督框架 + 扩散模型：首次将 Stable Diffusion 与无监督图像去雾深度融合
多模态引导：文本+图像联合建模，提供更强的语义控制
物理建模结合深度学习：补足了深度模型对真实雾场景的理解不足
效果实打实领先：无论主观视觉还是客观指标，都表现出色

六、论文的不足与未来方向

虽然本文提出的 Diff-Dehazer 在多个方面都有突破，但也存在一些不可忽视的不足之处：

1. 推理过程不够可控，存在“扩散模型的副作用”

由于扩散模型本身具有一定的生成随机性，尤其是在使用 classifier-free guidance 引导时，可能会生成与输入场景不完全一致的内容（例如纹理细节或结构轻微失真），尤其在雾非常浓重、内容模糊的图像中更容易出现偏差。

✅ 虽然作者引入了物理先验和正负 prompt 控制来缓解这个问题，但根源还在于扩散模型本身的泛化策略。

2. 网络整体偏复杂，训练和部署门槛较高

引入了 LoRA 微调、两阶段物理引导（DCP+BCCR）、多模态提示（文本）、图像融合（PFM）等多个模块，使得整个系统结构较复杂。

推理速度和部署成本相对高
微调过程对算力也有一定要求，可能不太适合轻量级场景或边缘设备部署

3. 对“文本引导”的可靠性仍存疑

虽然 BLIP-2 + prompt 构造的方式提升了语义表达能力，但：

自动生成的 caption 有时不准确，尤其在雾重/光线差/遮挡物多的图片中
文本引导更多起到锦上添花的作用，对结构信息帮助有限，对复杂结构保持不如 Transformer-based 去雾网络那样稳定

4. 缺乏对多个先验融合方式的对比实验

虽然作者提出使用 DCP 和 BCCR 再经过 PFM 融合，但没有和其他融合策略（比如 attention-based fusion、分区域加权）进行对比。缺乏这部分实验，略显仓促。

如果你觉得这篇解析有帮助，欢迎点赞、收藏、评论支持我呀！你的一点鼓励，就是我继续整理论文的最大动力！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。