一、什么是无监督去雾模型?
1、 定义
是指无需成对的雾化图像(hazy image)和无雾图像(clean image)作为训练数据,通过未标注的数据或特定的先验知识,直接从输入的雾化图像中学习去雾映射关系的模型。这种方法在标注数据稀缺的情况下尤为重要,广泛应用于真实场景的图像去雾任务。
2、无监督图像去雾的核心思想
无监督的图像去雾模型旨在减少对成对(hazy-clear)训练数据的依赖,主要利用生成对抗网络(GAN)、对比学习、解耦学习等方法,以自动提取潜在的清晰图像特征,而无需明确的监督信息。这类方法的优势包括:
- 不需要大量标注数据。
- 能够更好地应对领域偏移(synthetic-to-real domain shift)问题。
- 在现实场景(如浓雾、森林火灾)中具有更好的泛化能力。
二、综述中提到的无监督去雾方法
以下是文中提到的具体无监督去雾模型和方法:
1. 自动编码器对比正则化网络 (Auto-Encoder Contrastive Regularization Network,AECR-Net)
1.1 架构描述
- 核心模块:
基于 自编码器(Auto-Encoder) 的无监督框架,结合了 对比正则化(Contrastive Regularization) 方法。 - 流程:
- 输入雾霾图像后,通过编码器提取特征,并生成去雾图像。
- 使用三元组损失(Triplet Loss)进行对比学习:
- Anchor(去雾图像)。
- Positive(清晰图像)。
- Negative(雾霾图像)。
- 目标是拉近 Anchor 与 Positive 的特征距离,拉远 Anchor 与 Negative 的特征距离。
- 特点:
- 强调去雾特征的判别能力。
- 通过无监督的对比机制增强去雾效果。
1.2 缺点
- 特征表示有限:
自编码器虽然能够提取全局特征,但对复杂的局部特征(如雾浓度变化)表现有限,可能导致细节还原不足。 - 对比学习的负样本选择敏感:
三元组损失依赖于负样本的质量,如果负样本选择不当,可能导致模型优化方向偏移。
1.3 改进点
-
引入动态负样本挖掘机制:
- 动态选择难度适中的负样本(如硬负样本),以避免负样本选择不当对对比学习的影响。
- 使用自适应权重机制,根据样本的难度调整对比损失的贡献。
-
结合多尺度特征提取:
- 增加多尺度模块,提升对复杂场景(如不均匀雾霾)特征的提取能力。
-
结合物理先验:
- 加入大气散射模型作为额外的约束,增强对物理意义的解释力。
2. 解耦对比学习(Contrastive Disentanglement Learning, CDL)
2.1 架构描述
- 框架:
基于 CycleGAN 的无监督框架,通过引入 解耦学习(Disentanglement Learning) 将去雾任务转化为两个因子的分离问题:- 任务相关因子(如图像清晰特征)。
- 任务无关因子(如背景噪声)。
- 流程:
- 生成对抗网络(GAN):生成器生成负样本,并通过对抗损失优化生成质量。
- 对比学习(Contrastive Learning):对比正负样本之间的特征,优化解耦效果。
- 通过优化解耦因子的特征表示,抑制无关信息对去雾任务的干扰。
- 特点:
- 解决了无监督任务中,去雾特征与无关特征混淆的问题。
- 增强模型对复杂场景的适应能力。
2.2 缺点
- 特征解耦不完全:
任务相关因子和无关因子的分离依赖于生成器的质量。如果生成器生成的负样本不足以代表真实场景,解耦效果会受到影响。 - 训练复杂性:
CycleGAN 框架引入了解耦和对比学习模块,训练过程可能不稳定,容易出现模式崩溃(Mode Collapse)现象。 - 领域泛化能力有限:
CDL 需要额外优化特征分布对齐以适应不同的领域(如合成数据到真实数据)。
2.3 改进点
-
改进解耦模块:
- 使用基于 Transformer 的解耦机制,增强对非局部特征的捕捉能力。
- 设计专用的解耦损失函数,例如结合对比损失和感知损失,进一步优化任务相关因子与无关因子的分离。
-
简化训练过程:
- 使用更高效的对抗框架,例如基于能量的 GAN(Energy-based GAN),提高训练稳定性。
-
结合多模态数据:
- 引入多光谱或超光谱数据,利用跨模态的信息提升解耦质量。
3. 零样本图像去雾(Zero-shot Image Dehazing,ZID)
3.1架构描述
- 核心思想:
假设雾霾图像可以分解为以下三个独立层:- 无雾图像层(Haze-free Image Layer)。
- 传输图层(Transmission Map Layer)。
- 环境光层(Ambient Light Layer)。
- 网络模块:
- J-Net:负责提取无雾图像层的特征。
- T-Net:用于估计传输图层。
- A-Net:预测环境光层的参数。
- 流程:
通过三个子网络分别提取上述层的信息,再重组为去雾后的清晰图像。 - 特点:
- 无需成对数据,适合合成数据与真实数据的领域迁移任务。
- 可以在单张输入图像上直接进行去雾操作。
3.2 缺点
- 假设的局限性:
该模型假设雾霾图像可以严格分解为无雾图像、传输图和环境光三部分。然而,这一假设在复杂场景下(如多光源、非均匀雾霾分布)可能无法成立,导致结果不理想。 - 模型依赖性高:
三个子网络(J-Net、T-Net、A-Net)的性能直接决定去雾效果。如果某个子网络表现较弱,会显著降低整体效果。 - 缺乏先验的支持:
ZID 不结合物理模型(如大气散射模型),在某些情况下可能缺乏对实际雾霾分布的物理解释能力。
3.3 改进点
-
增强图像分解模型的鲁棒性:
- 考虑更灵活的图像分解方式,例如通过神经网络自动学习分解参数,而不是手动设置固定的分解规则。
- 引入自适应权重模块,根据场景调整不同分解层的贡献。
-
结合物理模型约束:
- 将大气散射模型(ASM)嵌入到分解过程中,使得模型对真实雾霾场景更具物理意义。
-
设计端到端框架:
- 通过联合优化,将分解网络与去雾网络结合,减少单独模块性能不足的风险。
4. 层次对比去雾(Hierarchical Contrastive Dehazing,HCD)
4.1 架构描述
- 核心模块:
结合 层次特征提取(Hierarchical Feature Extraction) 和 对比学习(Contrastive Learning) 的方法,优化神经网络中的层次特征。 - 流程:
- 多尺度激活模块(Multi-scale Activation Module):提取不同层次的特征。
- 层次交互模块(Hierarchical Interaction Module):结合多层特征,优化去雾图像生成。
- 层次对比损失(Hierarchical Contrastive Loss):针对分层样本对进行对比学习,提升特征解耦能力。
- 特点:
- 特别适合处理复杂场景(如浓雾、雾霾分布不均的场景)。
- 在公开数据集(如 DENSE-HAZE)上取得了优异的去雾效果。
4.2 缺点
- 计算复杂性高:
层次特征提取和多尺度激活模块增加了计算开销,特别是在高分辨率图像上的应用可能不够高效。 - 对多尺度特征依赖大:
如果某些层次的特征丢失或提取不到位,可能导致最终图像的细节不完整。 - 对训练数据的质量敏感:
HCD 在训练过程中需要高质量的无监督数据分布,如果训练数据存在偏差,可能导致模型泛化性下降。
4.3 改进点
-
优化多尺度模块:
- 使用轻量化多尺度结构,例如 MobileNet 或 ShuffleNet,减少计算开销。
- 增加特征补全机制,解决因部分层特征丢失导致的性能下降问题。
-
引入稀疏注意力机制:
- 用稀疏注意力代替传统自注意力机制,降低计算复杂度,同时保留长距离依赖关系的建模能力。
-
针对特定场景优化:
- 针对高分辨率场景,设计特定的分块处理(Patch-based Processing),减少显存占用。
5. 课程对比正则化(Curricular Contrastive Regularization,CCR)
5.1架构描述
- 核心模块:
引入基于物理模型的双分支单元(Physics-driven Dual Units, PDU),结合 课程学习(Curriculum Learning) 提高训练效率。 - 流程:
- 根据任务难度将负样本分为三类:简单、困难、超困难。
- 课程学习策略逐步训练模型,从简单任务到复杂任务逐级优化。
- 双分支网络提取物理特征和深度特征,增强去雾效果。
- 特点:
- 提高对复杂雾霾场景的鲁棒性。
- 在多个数据集(如 RESIDE 和 NTIRE 2021)上表现优异。
5.2 缺点
- 课程学习的难度设置依赖经验:
如何合理地划分负样本的难度(简单、困难、超困难)对模型性能影响显著,但这种划分通常需要经验调整,缺乏自动化手段。 - 物理特征的适用性:
双分支网络中,物理模型的引入需要先验知识支持,对于复杂非均匀雾霾环境可能表现有限。 - 训练时间长:
多阶段课程学习增加了训练时间,与简单的无监督方法相比效率较低
5.3 改进点
-
自动化课程学习策略:
- 使用基于强化学习的策略,自动调整课程难度,以减少人工参与。
- 动态更新负样本的权重,使得模型能够逐步学习更困难的任务。
-
改进物理分支网络:
- 将更多物理先验(如光强变化、透射率变化)融入到分支网络中,提升物理特征的适用性。
-
并行化训练:
- 优化训练流程,将课程学习与特征提取并行进行,减少整体训练时间。
三、总结
以上无监督去雾模型(AECR-Net、CDL、ZID、HCD 和 Curricular Contrastive Regularization)从架构设计到训练策略都体现了创新点,尤其在减少数据标注需求、增强模型泛化能力方面展现了巨大潜力。未来可以结合多模态数据、改进解耦损失函数,进一步提升性能。