关注公众号,发现CV技术之美
本文分享论文Heterogeneous window Transformer for image denoising
,HWformer旨在通过捕捉全局上下文信息来增强像素之间关联,提高去噪效果,并通过建立长距离和短距离建模之间联系来提高去噪性能、
作者:田春伟,郑梦华、林嘉文、李志武、张大鹏
单位:西北工业大学,台湾清华大学,西安电子科技大学,香港中文大学(深圳)
论文链接:https://arxiv.org/abs/2407.05709
代码链接:https://github.com/hellloxiaotian/HWformer
1.摘要
深度网络通常可以通过提取更多的结构信息来提高去噪效果。然而,它们可能会忽略图像中像素之间的相关性,以追求更好的去噪性能。窗口变换器(Window Transformer)可以使用长距离和短距离建模来交互像素,以解决上述问题。
为了在距离建模和去噪时间之间取得平衡,我们提出了一种异构窗口变换器(Heterogeneous Window Transformer,简称HWformer)用于图像去噪。HWformer首先设计了异构全局窗口来捕获全局上下文信息,以提高去噪效果。为了在长距离和短距离建模之间建立桥梁,全局窗口会进行水平和垂直的偏移,以促进多样化的信息获取,而不增加去噪时间。
为了防止独立块的信息丢失现象,稀疏思想引导前馈网络提取邻近块的局部信息。提出的HWformer在去噪时间上仅占流行Restormer的30%。
2.方法及贡献
尽管窗口变换器能够依靠短距离建模来减少去噪时间,局部窗口可能会限制上下文的交互。此外,现有的基于变换器的长距离建模会增加去噪时间。
为了在距离建模和去噪时间之间搭建桥梁,我们在图像去噪中提出了一种异构窗口变换器(HWformer)。HWformer首先设计了异构全局窗口,以尽可能保证自注意力机制的交互,从而获得更多的全局上下文信息,以提升图像去噪的性能。为了打破长距离和短距离建模交互的限制,全局窗口会水平和垂直地进行偏移,以促进多样化的信息获取,而不增加去噪时间。
为了防止独立块的原生效应,稀疏思想首次嵌入到前馈网络中,以提取更多邻近块的局部信息。此外,提出的HWformer在去噪时间上仅占流行的Restormer的30%。
论文的贡献在于:
设计了不同大小的异构全局窗口,以便于获取更丰富的全局上下文信息,克服短距离建模的缺点;
首次在全局窗口中设计了不同方向的偏移机制,以在短距离和长距离建模之间搭建桥梁,提高去噪性能而不增加去噪时间;
在前馈网络中提出了稀疏技术,以在图像去噪中捕获更多邻近块的局部信息;
提出的HWformer具有更快的去噪速度,在图像去噪方面几乎是流行的Restormer的三倍。
3.实验及结果
3.1 实验设置
为了公平地评估我们的HWformer,采用了多个公共合成噪声和真实噪声图像数据集,如BSD500、DIV2K、Flickr2K、WED以及SIDD-Medium,来训练和评估HWformer的性能。实验设置包括将图像随机裁剪成固定大小的块以加速训练,并在具有高性能GPU的计算环境中使用Adam优化器和特定的训练参数进行模型训练。
此外,实验中还对HWformer的关键组件进行了消融研究,并采用了一系列定量指标(如PSNR、SSIM、FSIM等)和定性分析来全面评估其去噪效果和计算效率,确保了结果的公平性和全面性。
3.2实验结果
表I详细呈现了Urban100数据集上,针对15噪声水平时不同模型配置的图像去噪性能对比。各模型配置由不同ID标识,它们在全局窗口变换增强块(GTEBlock)内部,通过调整水平(Ho)、垂直(Ve)和普通(Co)Transformer的数量及其组合方式来区分。
实验结果揭示了一个趋势:随着GTEBlock中Ho、Ve、Co的组合数量增加,模型的去噪性能得到提升。以ID 1和ID 9为例,后者在GTEBlock中集成了更多种类的Transformer,并融合了稀疏技术,实现了更高的峰值信噪比(PSNR),分别为33.72 dB和33.94 dB。
特别是,ID 9相较于ID 8的改进,凸显了稀疏技术在增强局部信息提取和去噪性能方面的积极作用,PSNR从33.47 dB提升至33.94 dB。进一步比较ID 1、ID 2和ID 3,结果表明,结合不同方向的变换对于捕获图像的多维特征至关重要,这反映在它们均超越了仅采用Co的ID 1的PSNR值。
然而,增加Ho、Ve、Co的数量虽可优化性能,也可能导致模型复杂度上升。因此,设计模型时必须在性能提升和复杂度控制间寻求平衡。
综合考虑,ID 9的模型配置在维持合理的复杂度基础上,实现了最优的去噪效果,因而被视为最佳配置。
表II提供了在BSD68数据集上,不同窗口大小对于图像去噪性能影响的实验结果。表中列出了从4×4到96×96不同尺寸的窗口,并展示了使用这些窗口大小进行去噪时的峰值信噪比(PSNR)值。随着窗口大小的增加,去噪性能通常会提高。较小的窗口(如4×4、6×6、8×8)相比于大窗口(如48×48、96×96)捕获的上下文信息较少,导致去噪性能较低。
实验结果显示,使用96×96的窗口大小在去噪性能上取得了最佳结果(PSNR为31.99 dB),表明较大的窗口能够捕获更多的全局信息,从而提高去噪效果。
表III提供了在不同噪声水平下,即15、25和50,对Set12数据集中的灰度图像去噪方法的性能比较。
随着噪声水平的增加(从15到50),所有方法的去噪性能(以PSNR为衡量标准)普遍下降。这是因为更高的噪声水平意味着更多的信息丢失和干扰,使得去噪任务更加困难。表中列出了包括BM3D、TNRD、DnCNN、FFDNet、N3Net、FOCNet、RDDCNN、DGAL、CTNet、SwinIR和HWformer(本文提出的方法)在内的多种去噪方法。
对于每个噪声水平,HWformer在多个类别的图像上几乎总是展现出最佳或接近最佳的性能。特别是在噪声水平为50时,HWformer在多个图像类别上相比其他方法有显著的PSNR提升,例如在“Starfish”图像上,HWformer相比于排名第二的SwinIR方法提高了0.31dB。
在多个噪声水平下,HWformer多次获得最高或并列最高分数,这表明该方法在实验设置中具有较高的一致性和优越性。
表IV提供了在BSD68和Urban100数据集上,不同噪声水平(15、25和50)对灰度图像去噪方法性能的比较。
在BSD68和Urban100数据集上,HWformer在不同噪声水平下通常展现出接近最佳或最佳性能,这表明其算法在多种噪声条件下的有效性。特别是在Urban100数据集上,噪声水平为25时,HWformer相比Restormer实现了0.15dB的性能提升,这在图像质量提升方面是一个显著的改进。
HWformer在两个数据集上的性能稳定性表明,该方法对于不同类型的图像内容都具有较好的适应性和鲁棒性。
表V展示了在McMaster和Urban100数据集上,不同噪声水平(15、25和50)对彩色图像去噪方法性能的比较。LPIPS指标衡量了去噪图像与原始无噪声图像之间的感知相似度。HWformer在某些情况下展示了较低的LPIPS值,这意味着其去噪结果在视觉上更接近原始图像。
表VI提供了在CBSD68和Kodak24数据集上,不同噪声水平(15、25和50)对彩色图像去噪方法在结构相似性指数(SSIM)和特征相似性指数(FSIM)这两个评价指标上的性能比较。HWformer与其他流行去噪方法(如DnCNN、FFDNet、DRUNet、IPT、CTNet、SwinIR和EDT-B)进行了比较,在多个噪声水平下,HWformer在SSIM和FSIM指标上通常能够获得与或优于这些方法的结果。
表VII展示了不同彩色图像去噪方法在Urban100数据集上,针对不同噪声水平(15、25和50)的峰值信噪比比率(PSBR)性能比较。HWformer在噪声水平为15和25时,在Urban100数据集上取得了最佳性能,这表明其算法在低至中等噪声水平下能够有效地恢复图像细节。
随着噪声水平的增加,去噪算法面临的挑战也随之增加,这可能导致色彩差异值变大,反映出去噪后的图像与原始图像在色彩上的差异。
表VIII 展示了在McMaster数据集上,不同噪声水平(15、25和50)下,彩色图像去噪方法在色彩差异方面的表现。在McMaster数据集上,HWformer在所有测试的噪声水平下均展现出最佳或接近最佳的色彩差异性能。
特别是在噪声水平为15和25时,HWformer实现了最低的色彩差异值,表明其在保持色彩准确性方面的优势。HWformer与其他去噪方法(如DnCNN、IPT、CTNet、SwinIR、Restormer和EDT-B)相比,在多数情况下能够提供更低的色彩差异值,这意味着HWformer在去噪过程中更好地保留了原始图像的色彩信息。
SPARCS数据集通常用于评估去噪算法在处理实际遥感图像数据时的性能,这些图像可能包含更复杂的噪声特性和场景。
表IX 展示了在不同噪声水平(15、25和50)下,彩色图像去噪方法在SPARCS数据集上的平均峰值信噪比(PSNR)性能比较。与其他去噪方法(如DnCNN、DRUNet、IPT、CTNet和SwinIR)相比,HWformer在低至中等噪声水平下展现出了卓越的性能,这可能归功于其异构窗口变换器的设计,能够有效地处理不同类型的噪声。
表X 展示了在CC数据集上,不同真实噪声条件下,各种去噪方法的性能比较。CC数据集包含了不同相机(如Canon 5D、Nikon D600、Nikon D800)在不同ISO设置下拍摄的图像。
这些设置反映了实际摄影中可能遇到的不同光照和噪声条件。HWformer在多数情况下展现出了优异的去噪性能,除了在Nikon D800 ISO=1600的设置中略低于其他方法外,它在多数情况下都取得了最高的PSNR值,特别是在Nikon D600 ISO=3200和Nikon D800 ISO=3200的设置中。
表XI 展示了在SIDD(Sparse Diverse Denoise Dataset)数据集上,不同去噪方法对真实噪声图像的处理性能,使用峰值信噪比(PSNR)作为评价指标。
HWformer的性能优于其他比较方法,例如,它比排名第二的MPRNet(39.52dB)高出0.19dB,这一差距在图像质量评估中是显著的。
由于SIDD数据集包含的图像是从智能手机相机中获取的,具有高真实性,HWformer在这一数据集上的优异表现进一步证实了其在实际智能手机图像处理中的应用潜力。
表XII 提供了不同图像去噪方法在参数数量、浮点运算次数(FLOPs)和运行时间方面的比较。
表中列出了IPT、SwinIR、Restormer、EDT-B和HWformer这五种方法的参数数量。参数数量反映了模型的复杂性和容量。尽管HWformer在参数数量上不是最轻量级的,但其FLOPs和运行时间表现出较高的效率。
特别是在96×96图像尺寸下,HWformer的运行时间显著低于其他方法,显示出较快的处理速度。HWformer虽然在参数数量上略高于SwinIR和EDT-B,但其FLOPs和运行时间都显示出较好的效率,这表明HWformer在保持较低计算成本的同时,能够实现有效的去噪性能。
HWformer的低运行时间特别适用于需要实时或近实时处理的应用场景,如智能手机摄影、视频监控等。
4.结论
本文提出了一种异构窗口变换器(Heterogeneous Window Transformer,简称HWformer)用于图像去噪。HWformer首先设计了异构全局窗口,便捕获更丰富的全局信息,克服了短距离建模的局限性。
考虑到短距离建模的优势,通过不同方向的平移对全局窗口进行操作,以便在不增加去噪时间的情况下获取多样化的信息。为了防止独立块的原生效应,首次将稀疏思想嵌入到前馈网络中,以提取邻近块的更多局部信息。提出的HWformer具有更快的去噪速度,适合于智能手机和相机。
在未来,作者将致力于减少HWformer的计算成本,进一步降低图像去噪的计算开销。
最新 AI 进展报道
请联系:amos@52cv.net
END
欢迎加入「图像增强」交流群👇备注:增强