DHAN-SHR:基于双混合注意力网络的镜面高光去除网络

前言

这次介绍的文章是来自澳门大学的教授发表在ACM MM上的文章“Dual-Hybrid Attention Network for Specular Highlight Removal”,旨在解决多媒体应用中的镜面高光去除问题。镜面高光是由于光光源在光滑表面上的强烈反射造成的,这会干扰图像和视频的视觉一致性,掩盖细节并改变颜色保真度,对视频编辑、基于内容的检索和交互媒体等应用产生不利影响。现有的深度学习方法虽然取得了一定的进展,但它们通常依赖额外的先验知识或监督,限制了它们的实用性和泛化能力。因此,本文提出了一种端到端的网络,名为Dual-Hybrid Attention Network for Specular Highlight Removal (DHAN-SHR),它引入了新颖的混合注意力机制,有效地捕获和处理不同尺度和域中的信息,无需依赖额外的先验或监督信息。

论文:https://arxiv.org/abs/2407.12255

代码:GitHub - CXH-Research/DHAN-SHR: [ACM MM 2024] Dual-Hybrid Attention Network for Specular Highlight Removal

推理代码:镜面高光去除代码,DHAN-SHR的推理代码,自己写的-CSDN博客

术语

  • Deep Learning:深度学习,一种机器学习方法,通过构建多层次的神经网络模型来学习数据的高层特征。

  • Computer Vision:计算机视觉,使用计算机技术模拟人类视觉系统,使计算机能够解释和理解图像或多维数据。

  • Attention Mechanism:注意力机制,一种让模型能够关注输入数据中特定部分的技术,常用于提升深度学习模型的性能。

  • Spatial and Spectral:空间和光谱,空间指的是图像的二维像素布局,光谱则通常指图像颜色的组成或频率域特征。

  • Adaptive Local Hybrid-Domain Dual Attention Transformer (L-HD-DAT):自适应局部混合域双重注意力转换器,一种结合了空间域和频率域信息的注意力机制。

  • Channel-Wise Contextual Attention Transformer (CCAT):通道级上下文注意力转换器,一种基于通道间关系进行特征提取的注意力机制。

  • Adaptive Global Dual Attention Transformer (G-DAT):自适应全局双重注意力转换器,用于捕捉全局范围内的特征依赖关系。

  • Mean Squared Error Loss (Lf):均方误差损失,一种常用的损失函数,用于衡量模型预测值与真实值之间的差距。

  • Structural Similarity Loss (Ls):结构相似性损失,一种基于图像结构相似性指数的损失函数,用于保持图像的结构完整性。

  • Structural Similarity Index Measure (SSIM):结构相似性指数,一种用于衡量两个图像相似度的指标。

  • Frequency Processor:频率处理器,用于处理图像的频率域特征,以提取更有效的信息。

  • Pixel-wise Self-Attention Transformer (PSAT):逐像素自注意力转换器,一种关注图像每个像素的自注意力机制。

  • Generative Adversarial Networks (GANs):生成对抗网络,一种由生成器和判别器组成的深度学习模型,常用于生成数据。

  • Vision Transformer (ViT):视觉变换器,一种将自注意力机制应用于图像识别的模型。

  • Dichromatic Reflection Model:双色反射模型,一种用于描述物体表面反射特性的模型。

  • LayerNorm:层归一化,一种用于稳定神经网络训练过程的归一化技术。

  • Feed Forward Network (FFN):前馈网络,一种简单的神经网络结构,用于在注意力机制后进一步处理特征。

摘要

镜面高光去除在多媒体应用中扮演着关键角色,因为它增强了图像和视频的质量和可解释性,最终提高了基于内容的检索、目标识别和场景理解等下游任务的性能。尽管基于深度学习的方法取得了显著进展,但当前最先进的方法通常依赖于额外的先验知识或监督,限制了它们的实用性和泛化能力。在本文中,我们提出了一种用于镜面高光去除的双混合注意力网络(DHAN-SHR),这是一个端到端网络,引入了新颖的混合注意力机制,有效地捕获和处理不同尺度和域中的信息,而不依赖于额外的先验知识或监督。DHAN-SHR由两个关键组件组成:自适应局部混合域双重注意力转换器(L-HD-DAT)和自适应全局双重注意力转换器(G-DAT)。L-HD-DAT捕获局部通道间和像素间依赖性,同时融入频域特征,使网络能够有效地模拟镜面高光与底层表面属性之间的复杂相互作用。G-DAT建模全局通道间关系和长距离像素依赖性,允许网络在整个图像中传播上下文信息,生成更连贯和一致的无高光结果。为了评估DHAN-SHR的性能并促进这一领域的未来研究,我们编译了一个大规模基准数据集,包括不同镜面高光水平的多样化图像范围。通过广泛的实验,我们证明了DHAN-SHR在定量和定性方面都优于18种最先进的方法,为多媒体应用中的镜面高光去除树立了新的标准。代码和数据集将提供。

主要贡献

• 我们提出了一种用于镜面高光去除的双混合注意力网络(DHAN-SHR),这是一个端到端的镜面高光去除网络,引入了包括自适应局部混合域双重注意力和自适应全局双重注意力在内的新颖混合注意力机制。这些注意力机制使DHAN-SHR能够有效且高效地捕获空间和光谱信息以及不同尺度的上下文关系,准确去除镜面高光,同时恢复底层漫反射成分。

• 我们通过结合来自三个不同数据集的图像,编译了一个全面的镜面高光去除基准数据集,共包含29,306个训练对和2,947个测试对。我们在这一新基准上重新训练并测试了18种最先进的方法,进行了彻底的比较分析,为该领域的未来进步奠定了坚实的基础。

• 广泛的实验和评估表明,我们提出的DHAN-SHR在定量和定性方面都优于最先进的方法,树立了图像增强和镜面高光去除领域的新标准。

引言

自适应局部混合域双重注意力Transformer:利用频域特征来辅助空间域的学习,建立在这个混合域基础之上,我们的转换器采用了基于窗口的双重注意力机制,有效地关注了局部通道间和像素间关系。

为了进一步增强转换器捕获跨窗口边界依赖性的能力,我们引入了一个受Swin Transformer[2]和SwinIR[3]启发的窗口移位机制。通过移动像素来创建新的窗口分区,我们的模块促进了相邻窗口之间的信息交换。这种移位操作允许转换器捕获跨越窗口边界的局部依赖性,确保整个图像中特征的无缝集成。

对于全局级依赖性,我们提出了通道级上下文注意力模块,采用高效的转换器来捕获通道间关系,而不是补丁间关系。这种设计选择有两个目的:首先,它允许网络专注于更粗粒度的整体特征,其次,它避免了原始视觉转换器[4]所关联的高计算和内存需求。通过关注通道级上下文,我们的模块可以有效地捕获不同特征图之间的全局依赖性,使网络能够推理整体照明和颜色分布。

为了更好地组织不同尺度的特征学习,我们采用了类似于UNet的网络架构,在网络的不同位置战略性地放置了关注不同粒度的模块。捕获详细信息的模块放置在较高层次,而关注全局信息的模块则位于较低层次。这种层次化的安排使我们的网络能够有效地学习和处理不同尺度的特征,提高了处理复杂镜面高光去除任务的能力。

为了为比较和深入了解镜面高光去除方法的性能改进提供标准化基础,我们通过结合来自三个不同高光去除数据集(PSD[5]、SHIQ[6]和SSHR[7])的图像,组装了一个广泛的数据集。我们重新训练了七种最先进的深度学习镜面高光去除方法,并在该基准的测试集上评估了它们的表现,以及11种传统方法。

相关工作

传统方法:统高光去除方法从早期的基于照明的约束和颜色识别方法发展到更先进的技术,利用色度分析、漫反射特性和极化信息。

基于深度学习的方法:

由于其在准确性和泛化能力方面的潜力,同时减少了广泛的手动干预需求,基于深度学习的方法在高光去除领域受到了显著关注。各种方法被提出来应对这一挑战,每种方法都贡献了独特的见解和技术。Guo等人[22]引入了SLRR,这是一种用于高光去除的稀疏和低秩反射模型,为后续基于深度学习的方法奠定了基础。在此基础之上,Hou等人[23]提出了一个混合框架,结合了高光检测网络和高光去除网络,展示了在文本图像中去除镜面高光的有希望的结果。为了进一步改进漫反射和镜面高光区域之间关系的建模,Wu等人[5]开发了SpecularityNet,这是一种结合了注意力机制的基于GAN的方法。同样,Fu等人[6]提出了一个多任务网络,整合了镜面高光图像形成模型以增强高光去除性能。Liang等人[24]引入了一种先进的深度学习方法,结合了镜像分离和内在分解,使用对抗神经网络。这种方法旨在从具有镜面反射的单个面部图像中提取各种分解结果,如纯漫反射图像、法线图、反照率图、可见性图和残差图。还开发了其他几种深度学习模型来解决高光去除问题,包括Unet-Transformer[25],它使用高光检测模块作为掩模来指导去除任务,以及MG-CycleGAN[26],它利用通过从非配对数据中去除镜面高光生成的掩模来指导Cycle-GAN,将问题转化为图像到图像的翻译任务。TSHRNet[7]在涉及多个对象和复杂照明条件的场景中展示了优越的性能,而SHMGAN[27]是一个神经网络框架,能够有效地分离镜面高光图和镜像分布图,无需手动输入标签。尽管这些最先进的方法取得了进展,但它们经常遇到诸如高光区域与背景之间的颜色不一致,以及在高光区域内生成不真实内容等问题。为了解决这些挑战,Hu等人[28]提出了一个神经网络框架,有效地缓解了这些问题,进一步推动了高光去除技术的边界。总之,高光去除领域通过开发基于深度学习的方法,每种方法都贡献了新颖的方法和技术来提高准确性、泛化和整体性能。然而,在高光区域的颜色一致性和生成高光区域内真实内容方面仍有改进的空间,未来的研究应该旨在解决这些问题。

网络结构

B. 自适应局部混合域双重注意力转换器 (L-HD-DAT)Adaptive Local Hybrid-Domain Dual Attention Transformer

L-HD-DAT采用两个并行注意力机制来捕获局部窗口内的通道间和像素间关系。这些注意力机制通过逐像素空间-光谱移动窗口注意力转换器(P SSSWAT)和通道级空间-光谱移动窗口注意力转换器(C SSSWAT)实现

为了在训练过程中自适应调整每个注意力机制的贡献,我们引入了一个可学习的权重系数α。L-HD-DAT可以表述如下:

其中 F 代表输入特征。P SSSWAT和C SSSWAT都遵循相同的程序,可以描述为:

在此过程中,FF 表示输入特征,维度为 C×H×WC×H×W,LN代表LayerNorm操作,FP是频率处理器。空间-光谱移动窗口注意力(SSSWA)是P SSSWAT和C SSSWAT的关键组成部分。前馈网络(FFN)由三个卷积层组成,进一步处理被关注的特征,处理所关注的特征,使网络能够捕获复杂的空间关系并细化特征表示。

C.通道级上下文注意力转换器 (CCAT)

D. 自适应全局双重注意力转换器 (G-DAT)

E. 目标函数

实验

A.数据集

为了推进镜面高光去除(SHR)网络在实际世界中的应用,使用真实世界数据集至关重要。到目前为止,PSD [5] 数据集是唯一一个在各种物体上都包含高光样本及其对应漫反射真值的全面集合。然而,PSD 的限制在于它在不同极化角度下重复场景,减少了样本多样性,尽管有近10000对。为了克服数据集大小的限制并增强深度学习方法在 SHR 方面的鲁棒性,我们提出了创建一个混合基准测试。这个基准测试结合了真实世界的样本和遵循光学原理的合成生成样本,提供了一个平衡且全面的培训和测试环境。我们的混合基准测试包括来自三个不同数据集的数据:PSD [5]、SHIQ [6] 和 SSHR [7],每个都有不同的目的。PSD 数据集提供了真实世界照片的高光和漫反射样本,是实际培训的宝贵资源。相比之下,SHIQ 的真实世界高光样本与通过 RPCA 方法 [30] 创建的漫反射图像配对,尽管可能不再是领先的技术,但其使用丰富了培训的多样性,突出了其持续的相关性。与此同时,SSHR 数据集提供了完全合成的集合,由开源渲染软件创建,增加了宝贵的多样性维度。对于培训,我们从 PSD 选择了 9481 对,从 SHIQ 选择了 9825 对,从 SSHR 随机子集选择了 10000 对。对于测试,我们的选择包括所有来自 PSD 的 947 对,来自 SHIQ 的 1000 对,以及从 SSHR 随机选择的 1000 对。这种选择策略确保了培训和测试阶段都有多样化和平衡的样本集合,确保了鲁棒性。据我们所知,这是第一次使用混合基准测试,结合了多个数据集进行 SHR。这种方法不仅丰富了培训和测试环境,还为该领域的未来研究树立了新的标准,可能提高了 SHR 方法在更广泛的真实世界和合成场景中的性能和泛化能力。

[5] Z. Wu, C. Zhuang, J. Shi, J. Guo, J. Xiao, X. Zhang, and D.-M. Yan, “Single-image specular highlight removal via real-world dataset construction,” IEEE Transactions on Multimedia, 2021.

[6] G. Fu, Q. Zhang, L. Zhu, P. Li, and C. Xiao, “A multi-task network for joint specular highlight detection and removal,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 7752–7761.

[7] G. Fu, Q. Zhang, L. Zhu, C. Xiao, and P. Li, “Towards high-quality specular highlight removal by leveraging large-scale synthetic data,” in Proceedings of the IEEE/CVF Inte

B. 评估指标

在我们的研究中,我们使用了一系列全参考评估指标来评估性能,包括峰值信噪比(PSNR)、结构相似性指数(SSIM)[29] 和学习感知图像补丁相似性(LPIPS)[33]。对于 PSNR 和 SSIM,较高的分数表示更好的性能,表明生成的图像与真值图像之间的相似度更高。另一方面,LPIPS 的较低分数表明增强了视觉质量,因为这种度量以更符合人类视觉感知的方式测量生成和参考图像之间的感知相似性。

C. 实施细节

我们的模型使用 PyTorch 实现,并在 NVIDIA H800 GPU 上使用 Adam 优化器和默认参数进行训练。为了优化模型,我们采用了 Adam 优化算法的标准设置,批量大小为 8,并学习率为 1e-4。为了增强模型的鲁棒性和泛化能力,我们采用了一套全面的数据增强技术。这些增强包括随机裁剪图像、调整大小、水平和垂直翻转,以及应用 mixup 策略来从原始数据生成复合图像,从而使模型暴露于多样化的变化中,并提高其有效处理不同数据的能力。

D. 与最先进方法的比较

为了对我们的镜面高光去除(SHR)方法相对于当前最先进方法进行全面评估,我们将其与总共 18 种代表性 SHR 技术进行了比较,包括 11 种传统和 7 种基于学习的方法。对于传统方法,我们直接处理测试样本以获得其输出结果。为了保证公平比较,我们重新训练了所有基于学习的方法在我们的研究中编译的相同基准数据集上。在这次重新训练过程中,我们遵循了每种方法原始出版物中指定的训练设置(损失、迭代、超参数等)。1) 定量比较:表 I 展示了各种镜面高光去除方法在三个数据集上使用三种不同评估指标的定量性能。我们的模型,DHAN-SHR,在整体上展示了卓越的性能,唯一的例外是 JSHDR [6] 在 SHIQ 数据集上的结果,这是与 JSHDR 一起发布的。值得注意的是,JSHDR 的源代码并不公开;我们的分析基于其作者提供的可执行文件中获得的结果。这种限制意味着我们不能像其他方法一样在相同条件下重新训练 JSHDR,减少了其在 SHIQ 数据集上的性能比较价值。值得注意的是,JSHDR 在 PSD 和 SSHR 数据集上的性能明显低于 DHAN-SHR,特别是在 SHIQ 数据集之外的差距尤为明显。我们的 DHAN-SHR 模型在 PSD 和 SSHR 数据集上的性能超过了其他方法,特别是在 PSD 数据集上的表现尤为突出。这个数据集以其真实世界、高分辨率的图像而闻名,强调了我们的模型在真实世界应用场景中的适应性和有效性,表明 DHAN-SHR 在处理各种条件下的镜面高光去除方面具有强大的能力。2) 定性比较:图 3 展示了我们的 DHAN-SHR 与 SOTA 方法的直观比较,包括基于表 I 中平均指标数据的前 2 种传统和前 3 种深度学习方法。为了最佳清晰度,建议放大查看。图 3 的观察结果揭示了我们的方法不仅在有效去除镜面高光方面表现出色——在第三行中甚至超过了参考真值,而且在保持整个图像的原始色调和一致颜色方面也表现出色。值得注意的是,它保持了漫反射区域的细节,并恢复了以前被反射遮挡的细节的清晰度。相比之下,我们比较的方法通常未能完全消除高光,有时在处理区域内部产生黑色斑点。更严重的是,如图 4 的第四行所示,这些方法破坏了图像的原始结构和细节,导致视觉结果较差。此外,在第五行中,虽然竞争方法倾向于擦除或模糊汽车后窗上的文本,但我们的方法成功地保留了这些细节并提高了清晰度。

声明:仅作分享,侵权立删!
 

参考文献:Guo X, Chen X, Luo S, et al. Dual-hybrid attention network for specular highlight removal[J]. arXiv preprint arXiv:2407.12255, 2024.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值