灌水新思路,2025年swintransformer还能发CVPR!!!
注:本文由论文原作者编写
论文 Tokenize Image Patches: Global Context Fusion for Effective Haze Removal in Large Images
代码(DehazeXL,数据集):https://github.com/CastleChen339/DehazeXL
代码(DAM):https://github.com/fengyanzi/DehazingAttributionMap
摘要
本文提出了一种新型的深度学习模型DehazeXL,旨在有效去除大型图像中的去雾效果。该方法通过在编码器和解码器之间添加一个瓶颈层来融合全局信息与局部特征,实现了对高分辨率图像的有效处理而无需大幅增加GPU内存消耗。此外,文中还设计了一种视觉归因方法(DAM),用于分析不同区域或特征对去雾效果的影响,从而提高模型性能并增强可解释性。为支持研究和评估,作者还构建了一个超高清的去雾数据集(8KDehaze),包含10000对清晰和模糊的遥感图像。实验结果显示,DehazeXL不仅能够在不进行图像切割的情况下直接处理高达10240×10240像素的图像,而且在所有评估方法中取得了最先进的去雾效果,同时保持了较快的推理速度。这些成果表明,DehazeXL在平衡全球上下文信息利用和局部细节提取方面表现突出,为进一步的图像去雾研究提供了新的方向和baseline。
研究背景
在计算机视觉领域,图像去雾一直是个经典难题。随着传感器技术的发展,8K甚至更高分辨率的图像已成为常态,这给传统去雾方法带来了前所未有的挑战:
- 显存限制问题:处理8192×8192图像时,传统CNN/Transformer需要超过80GB显存
- 全局-局部矛盾:切片处理丢失全局信息,降采样牺牲高频细节
- 数据集匮乏:现有最大数据集4KID仅3840×2160分辨率
作者在对遥感图像去雾处理中发现,现有方法在处理大图时会出现:块状伪影(block artifacts)、色彩不一致、天空区域过度增强、显存溢出崩溃。
主要架构
本文提出了一种名为 DehazeXL 的端到端图像去雾方法,针对超高分辨率图像中的去雾任务,核心思想是结合局部特征提取与全局上下文建模,在提升去雾效果的同时大幅降低显存消耗。
创新点
- 提出DehazeXL框架:能够处理超大图像(如10240×10240)而不会爆显存,通过图像切片转token 和 全局注意力模块,在保证局部细节的同时保留全局信息。
- 设计Dehazing Attribution Map (DAM):基于Integrated Gradients思想的可视化方法,用于分析网络是如何利用全局和局部信息完成去雾的,提升模型可解释性。
- 构建8KDehaze数据集:目前第一个8K分辨率(8192×8192)的遥感去雾数据集,包含10,000对合成的有雾/无雾图像,填补了高分辨率图像去雾领域的空白。
数据集
本文使用了8Kdehaze、4KID、O-HAZE数据集,其中8KDehaze是作者自建的核心数据集:
在补充材料中作者提供了部分8KDehaze数据集范例。
归因图
传统去雾模型是“黑箱”,难以分析其决策依据(如哪些区域对去雾最关键)。
Dehazing Attribution Map (DAM)是本文提出的专门针对图像去雾任务的可视化归因方法。它的核心思想是量化输入图像不同区域对最终去雾效果的贡献程度,通过热力图的形式直观展示"模型在去雾时重点关注哪些区域。
结果
实验结果表明,DehazeXL在多个高分辨率数据集上均显著优于现有主流方法,具备更好的去雾效果和更快的推理速度。同时,可视化分析展示了模型对全局信息的有效利用,能够在复杂区域中保持颜色一致性和细节还原能力。
评论/建议
2025年了还能靠魔改Swin发CVPR,说明:
1.AC心善
2.老架构+新场景=顶会密码
3.工程优化比盲目追新更重要
4.可解释性工具是加分项
灌水建议:
1.魔改SwinTransformer
2.换不同模态数据(医学)、不同任务(低光增强)
3.结合新兴架构(如Mamba,作者已经帮你内置了)