CA-ViT:上下文感知HDR去重算法与HDR-Transformer-CSDN博客

本文链接：https://blog.csdn.net/weixin_43452560/article/details/134221884

摘要:

高动态范围（HDR）去重算法旨在生成具有逼真细节的无重影 HDR 图像。受限于感受野的局部性，现有的基于 CNN 的方法通常容易在大运动和严重饱和的情况下产生重影伪影和强度失真。在本文中，我们提出了一种用于无重影高动态范围成像的新型上下文感知视觉变换器（CA-ViT）。CA-ViT 采用双分支架构设计，可同时捕捉全局和局部相关性。具体来说，全局分支采用基于窗口的变换器编码器来模拟远距离物体运动和强度变化，从而解决重影问题。对于局部分支，我们设计了一个局部上下文提取器（LCE）来捕捉短距离图像特征，并使用通道注意机制在提取的特征中选择信息丰富的局部细节，以补充全局分支。通过将 CA-ViT 作为基本组件，我们进一步构建了 HDR 变换器--一个用于重建高质量无重影 HDR 图像的分层网络。在三个基准数据集上进行的广泛实验表明，我们的方法在定性和定量方面都优于最先进的方法，同时还大大减少了计算预算。

背景介绍

高动态范围成像（HDR）是一项能够记录从暗部阴影到亮部高光极宽广亮度范围的图像处理技术，超越了传统成像方法的限制。这一技术由Paul Debevec在其1997年的论文《Recovering High Dynamic Range Radiance Maps from Photographs》中首次详细阐述。他提出了一种方法：通过对相同场景拍摄不同曝光程度的照片，并将这些低动态范围（LDR）图像融合为一幅高动态范围（HDR）图像，从而能够细腻地再现从深沉的阴影到明亮的高光区域的各种细节。

HDR技术通常用于处理高对比度的图像环境，例如户外风光、直射日光下的肖像、低照明或逆光照明场景。它有效地揭示了这些场合中的细节和色彩，从而增强了图片的整体视觉冲击力。在显示技术领域，HDR也已成为电视机、显示屏和智能手机等设备的一个标准功能，用以改善亮度和色彩展现，以便提供更加逼真的观看体验。

但是，在实际的摄影过程中，图像的质量往往会因为相机抖动或物体的移动而受到影响，这使得三幅低动态范围的照片难以精确对准。如果直接对这些未对齐的图像进行合成，最终生成的照片可能会出现诸如伪影和重叠影像等不良效果。
本文算法

文章的作者提出了一种新型的视觉变换器，称为上下文感知视觉变换器（CA-ViT），这种结构通过一个双分支的设计来同时捕捉图像的全局依赖和局部细节。全局分支采用了窗口化的多头transformer编码器——即Swin transformer，它负责编码图像的远程上下文关系。而局部分支则引入了局部上下文提取器（LCE），该提取器使用卷积层来萃取局部的特征，并结合通道注意力机制，在处理多帧图像时筛选出重要特征并抑制不相关特征。CA-ViT的这一结构使得全局和局部信息能以互补的形式共同工作。基于CA-ViT架构，作者进一步开发了专门针对HDR成像的transformer模型，即HDR-Transformer。

HDR-Transformer 架构主要由两大部分组成：特征提取模块和HDR重建模块。在特征提取模块中，通过卷积操作和空间注意力机制来抽取初级特征，并进行初步的特征合并。这一过程有助于稳定Transformer在训练过程中的表现，并减少图像中因不对齐造成的像素失调。HDR重建部分则采用了上下文感知视觉变换器（CA-ViT）作为核心元件，它从全局和局部两个层面对图像内容进行综合建模，促进高品质HDR图像的重建，而这一切并不依赖于多层的卷积网络堆叠。

为了解决这些问题，人们提出了各种方法，通常称为HDR去重影算法，以获得高质量的无重影HDR图像。

存在两种主流的技术路径来处理高动态范围成像（HDR）中的重影问题：

一种是传统方法，它通过在合成图像之前对图片进行校正对齐或排除那些不匹配的像素来减少重影。然而，这些技术常常难以精确校准或识别出不对齐的像素，导致生成的HDR图像质量欠佳。

另一种是依托于卷积神经网络（CNN）的去除重影技术，大致可以分为两个分支：

第一分支采用单一图像预处理或光流技术对低动态范围（LDR）图像进行初步对齐，随后应用CNN来进行多图融合并重建HDR图像。尽管如此，光流方法在处理动态物体、遮挡问题以及饱和区域时可能会失效。
第二分支则运用端到端的网络结构，其中包含隐式对齐模块或创新的学习机制来处理图像中的重影和伪影，以实现先进的处理效果。不过，面对远处物体的运动或是极端亮度变化时，CNN固有的局部性限制可能导致不期望的重影和失真伪影问题。