西工大&台湾清华&西电&港中文 3位 IEEE Fellow 提出异构窗口 Transformer 的图像去噪方法...-CSDN博客

本文链接：https://blog.csdn.net/moxibingdao/article/details/141477440

关注公众号，发现CV技术之美

本文分享论文Heterogeneous window Transformer for image denoising，HWformer旨在通过捕捉全局上下文信息来增强像素之间关联，提高去噪效果，并通过建立长距离和短距离建模之间联系来提高去噪性能、

作者：田春伟,郑梦华、林嘉文、李志武、张大鹏
单位：西北工业大学，台湾清华大学，西安电子科技大学，香港中文大学（深圳）
论文链接：https://arxiv.org/abs/2407.05709
代码链接：https://github.com/hellloxiaotian/HWformer

1.摘要

深度网络通常可以通过提取更多的结构信息来提高去噪效果。然而，它们可能会忽略图像中像素之间的相关性，以追求更好的去噪性能。窗口变换器（Window Transformer）可以使用长距离和短距离建模来交互像素，以解决上述问题。

为了在距离建模和去噪时间之间取得平衡，我们提出了一种异构窗口变换器（Heterogeneous Window Transformer，简称HWformer）用于图像去噪。HWformer首先设计了异构全局窗口来捕获全局上下文信息，以提高去噪效果。为了在长距离和短距离建模之间建立桥梁，全局窗口会进行水平和垂直的偏移，以促进多样化的信息获取，而不增加去噪时间。

为了防止独立块的信息丢失现象，稀疏思想引导前馈网络提取邻近块的局部信息。提出的HWformer在去噪时间上仅占流行Restormer的30%。

2.方法及贡献

尽管窗口变换器能够依靠短距离建模来减少去噪时间，局部窗口可能会限制上下文的交互。此外，现有的基于变换器的长距离建模会增加去噪时间。

为了在距离建模和去噪时间之间搭建桥梁，我们在图像去噪中提出了一种异构窗口变换器（HWformer）。HWformer首先设计了异构全局窗口，以尽可能保证自注意力机制的交互，从而获得更多的全局上下文信息，以提升图像去噪的性能。为了打破长距离和短距离建模交互的限制，全局窗口会水平和垂直地进行偏移，以促进多样化的信息获取，而不增加去噪时间。

为了防止独立块的原生效应，稀疏思想首次嵌入到前馈网络中，以提取更多邻近块的局部信息。此外，提出的HWformer在去噪时间上仅占流行的Restormer的30%。

论文的贡献在于：

设计了不同大小的异构全局窗口，以便于获取更丰富的全局上下文信息，克服短距离建模的缺点；
首次在全局窗口中设计了不同方向的偏移机制，以在短距离和长距离建模之间搭建桥梁，提高去噪性能而不增加去噪时间；
在前馈网络中提出了稀疏技术，以在图像去噪中捕获更多邻近块的局部信息；
提出的HWformer具有更快的去噪速度，在图像去噪方面几乎是流行的Restormer的三倍。

图 1 HWformer 的结构

3.实验及结果

3.1 实验设置

为了公平地评估我们的HWformer，采用了多个公共合成噪声和真实噪声图像数据集，如BSD500、DIV2K、Flickr2K、WED以及SIDD-Medium，来训练和评估HWformer的性能。实验设置包括将图像随机裁剪成固定大小的块以加速训练，并在具有高性能GPU的计算环境中使用Adam优化器和特定的训练参数进行模型训练。

此外，实验中还对HWformer的关键组件进行了消融研究，并采用了一系列定量指标（如PSNR、SSIM、FSIM等）和定性分析来全面评估其去噪效果和计算效率，确保了结果的公平性和全面性。

3.2实验结果

表I详细呈现了Urban100数据集上，针对15噪声水平时不同模型配置的图像去噪性能对比。各模型配置由不同ID标识，它们在全局窗口变换增强块（GTEBlock）内部，通过调整水平（Ho）、垂直（Ve）和普通（Co）Transformer的数量及其组合方式来区分。

实验结果揭示了一个趋势：随着GTEBlock中Ho、Ve、Co的组合数量增加，模型的去噪性能得到提升。以ID 1和ID 9为例，后者在GTEBlock中集成了更多种类的Transformer，并融合了稀疏技术，实现了更高的峰值信噪比（PSNR），分别为33.72 dB和33.94 dB。

特别是，ID 9相较于ID 8的改进，凸显了稀疏技术在增强局部信息提取和去噪性能方面的积极作用，PSNR从33.47 dB提升至33.94 dB。进一步比较ID 1、ID 2和ID 3，结果表明，结合不同方向的变换对于捕获图像的多维特征至关重要，这反映在它们均超越了仅采用Co的ID 1的PSNR值。

然而，增加Ho、Ve、Co的数量虽可优化性能，也可能导致模型复杂度上升。因此，设计模型时必须在性能提升和复杂度控制间寻求平衡。

综合考虑，ID 9的模型配置在维持合理的复杂度基础上，实现了最优的去噪效果，因而被视为最佳配置。

图2和图3提供了在Urban100数据集上，不同去噪方法对灰度图像去噪的视觉比较。

表II提供了在BSD68数据集上，不同窗口大小对于图像去噪性能影响的实验结果。表中列出了从4×4到96×96不同尺寸的窗口，并展示了使用这些窗口大小进行去噪时的峰值信噪比（PSNR）值。随着窗口大小的增加，去噪性能通常会提高。较小的窗口（如4×4、6×6、8×8）相比于大窗口（如48×48、96×96）捕获的上下文信息较少，导致去噪性能较低。

实验结果显示，使用96×96的窗口大小在去噪性能上取得了最佳结果（PSNR为31.99 dB），表明较大的窗口能够捕获更多的全局信息，从而提高去噪效果。

表III提供了在不同噪声水平下，即15、25和50，对Set12数据集中的灰度图像去噪方法的性能比较。

随着噪声水平的增加（从15到50），所有方法的去噪性能（以PSNR为衡量标准）普遍下降。这是因为更高的噪声水平意味着更多的信息丢失和干扰，使得去噪任务更加困难。表中列出了包括BM3D、TNRD、DnCNN、FFDNet、N3Net、FOCNet、RDDCNN、DGAL、CTNet、SwinIR和HWformer（本文提出的方法）在内的多种去噪方法。

对于每个噪声水平，HWformer在多个类别的图像上几乎总是展现出最佳或接近最佳的性能。特别是在噪声水平为50时，HWformer在多个图像类别上相比其他方法有显著的PSNR提升，例如在“Starfish”图像上，HWformer相比于排名第二的SwinIR方法提高了0.31dB。

在多个噪声水平下，HWformer多次获得最高或并列最高分数，这表明该方法在实验设置中具有较高的一致性和优越性。

表IV提供了在BSD68和Urban100数据集上，不同噪声水平（15、25和50）对灰度图像去噪方法性能的比较。

在BSD68和Urban100数据集上，HWformer在不同噪声水平下通常展现出接近最佳或最佳性能，这表明其算法在多种噪声条件下的有效性。特别是在Urban100数据集上，噪声水平为25时，HWformer相比Restormer实现了0.15dB的性能提升，这在图像质量提升方面是一个显著的改进。

HWformer在两个数据集上的性能稳定性表明，该方法对于不同类型的图像内容都具有较好的适应性和鲁棒性。

表V展示了在McMaster和Urban100数据集上，不同噪声水平（15、25和50）对彩色图像去噪方法性能的比较。LPIPS指标衡量了去噪图像与原始无噪声图像之间的感知相似度。HWformer在某些情况下展示了较低的LPIPS值，这意味着其去噪结果在视觉上更接近原始图像。

表VI提供了在CBSD68和Kodak24数据集上，不同噪声水平（15、25和50）对彩色图像去噪方法在结构相似性指数（SSIM）和特征相似性指数（FSIM）这两个评价指标上的性能比较。HWformer与其他流行去噪方法（如DnCNN、FFDNet、DRUNet、IPT、CTNet、SwinIR和EDT-B）进行了比较，在多个噪声水平下，HWformer在SSIM和FSIM指标上通常能够获得与或优于这些方法的结果。

表VII展示了不同彩色图像去噪方法在Urban100数据集上，针对不同噪声水平（15、25和50）的峰值信噪比比率（PSBR）性能比较。HWformer在噪声水平为15和25时，在Urban100数据集上取得了最佳性能，这表明其算法在低至中等噪声水平下能够有效地恢复图像细节。

图4和图5提供了Urban100数据集上，不同去噪方法对彩色图像去噪效果的视觉比较。

随着噪声水平的增加，去噪算法面临的挑战也随之增加，这可能导致色彩差异值变大，反映出去噪后的图像与原始图像在色彩上的差异。

表VIII 展示了在McMaster数据集上，不同噪声水平（15、25和50）下，彩色图像去噪方法在色彩差异方面的表现。在McMaster数据集上，HWformer在所有测试的噪声水平下均展现出最佳或接近最佳的色彩差异性能。

特别是在噪声水平为15和25时，HWformer实现了最低的色彩差异值，表明其在保持色彩准确性方面的优势。HWformer与其他去噪方法（如DnCNN、IPT、CTNet、SwinIR、Restormer和EDT-B）相比，在多数情况下能够提供更低的色彩差异值，这意味着HWformer在去噪过程中更好地保留了原始图像的色彩信息。

SPARCS数据集通常用于评估去噪算法在处理实际遥感图像数据时的性能，这些图像可能包含更复杂的噪声特性和场景。

表IX 展示了在不同噪声水平（15、25和50）下，彩色图像去噪方法在SPARCS数据集上的平均峰值信噪比（PSNR）性能比较。与其他去噪方法（如DnCNN、DRUNet、IPT、CTNet和SwinIR）相比，HWformer在低至中等噪声水平下展现出了卓越的性能，这可能归功于其异构窗口变换器的设计，能够有效地处理不同类型的噪声。

表X 展示了在CC数据集上，不同真实噪声条件下，各种去噪方法的性能比较。CC数据集包含了不同相机（如Canon 5D、Nikon D600、Nikon D800）在不同ISO设置下拍摄的图像。

这些设置反映了实际摄影中可能遇到的不同光照和噪声条件。HWformer在多数情况下展现出了优异的去噪性能，除了在Nikon D800 ISO=1600的设置中略低于其他方法外，它在多数情况下都取得了最高的PSNR值，特别是在Nikon D600 ISO=3200和Nikon D800 ISO=3200的设置中。