小小谭读论文(课程作业版)

博主是中海大计算机研1,目前方向是MVS三维重建
今天我们要读的论文是 :《Recovering High Dynamic Range Radiance Maps from Photographs》以及《Ghost-free High Dynamic Range Imaging with
Context-aware Transformer
》 作者:OUC_TRQ,相关源码复现可以联系博主邮箱:trq15773207912@163.com

Abstract

我们提出了一种从传统成像设备拍摄的照片中恢复高动态范围辐射图的方法。在我们的方法中,场景的多张照片是用不同的曝光量拍摄的。我们的算法使用这些不同曝光的照片来恢复成像过程的响应函数,最高可达比例因子,使用互惠假设。利用已知的响应函数,该算法可以将多张照片融合为一张高动态范围的辐射图,其像素值与场景中的真实辐射值成比例。我们在光化学和数字成像过程中获得的图像上演示了我们的方法。我们讨论了这项工作如何适用于涉及数字化照片的计算机图形学的许多领域,包括基于图像的建模、图像合成和图像处理。最后,我们展示了高动态范围辐射图的一些应用,例如合成逼真的辐射图

Introduction

数字化照片在计算机图形学中越来越重要。扫描图像比以往任何时候都更被用作几何模型的纹理图,最近在基于图像的建模和渲染方面的工作将图像用作基本的建模基元。此外,当今的许多图形应用程序都需要计算机生成的图像与真实的摄影图像无缝衔接。在这些应用中正确使用摄影获取的图像可以极大地受益于摄影过程的精确模型.
当我们用胶片或电子成像阵列拍摄场景时,将照片数字化以获得“亮度”值的二维阵列,这些值很少真实测量相关场景中的亮度,例如,如果一个像素的值是另一个像素值的两倍,则不太可能观测到两倍的辐射。相反,通常有一个未知的非线性映射,它决定了场景中的辐射如何成为图像中的像素值,这种非线性映射很难事先知道,因为它实际上是摄影过程中发生的几个非线性映射的组合。在传统相机中(见图1)首先将胶片曝光以形成潜像。然后对胶片进行显影,将这种潜像改变为胶片上透明度或密度的变化。然后,可以使用胶片扫描仪对胶片进行数字化,该扫描仪通过胶片将光投射到电子光敏阵列上,将图像转换为电压。这些电压被数字化,然后在最终被写入存储介质之前被操纵。如果扫描的是胶片的印刷品,而不是胶片本身,那么打印过程也可能引入非线性映射。在该过程的第一阶段,胶片对曝光X变化的响应(即E t,胶片接收的辐照度E与曝光时间t的乘积)是一个非线性函数,称为胶片的“特性曲线”。在典型的特征曲线中值得注意的是,在没有曝光的情况下存在小的响应,并且在高曝光时存在饱和。显影、扫描和数字化过程通常引入它们自己的非线性,这些非线性组成图像像素曝光X和它们的值Z之间的聚合非线性关系。
使用电荷耦合器件(CCD)阵列对场景进行成像的数码相机也容易遇到同样的困难。尽管CCD元件收集的电荷与其辐照度成比例,但大多数数码相机在将CCD输出写入存储介质之前,会对其进行非线性映射。这种非线性映射以各种方式用于模拟胶片的响应特性,预测显示设备中的非线性响应,并且经常将CCD的模数转换器的12位输出转换为通常用于存储图像的8位值。与胶片一样,响应曲线中最显著的非线性是在饱和点,在饱和点处,任何辐射度高于某一水平的像素都被映射到相同的最大图像值
为什么这有什么问题?任何业余或专业摄影师都知道,最明显的困难是动态范围有限——必须选择感兴趣的辐射值范围,并适当地确定曝光时间。阳光照射的场景,以及使用有光泽的材料和人造光源的场景,通常在辐射值上存在极端差异,如果不曝光不足或使胶片饱和,就无法捕捉到这些差异。
为了覆盖这样一个场景的全部动态范围,可以拍摄一系列不同曝光的照片。这就提出了一个问题:我们如何将这些单独的图像组合成合成辐射图?在这里,从场景辐射到像素值的映射是未知的,并且是非线性的,这一事实开始困扰着我们。本文的目的是提出一种简单的技术来恢复这种响应函数,最高可达一个比例因子,只需使用一组以不同的已知曝光持续时间拍摄的照片。
Image Acquisition Pipeline显示了场景辐射度如何成为胶片和数码相机的像素值。未知的非线性映射可能发生在曝光、显影、扫描、数字化和重映射过程中。本文中的算法从一组不同曝光的图像中确定了从场景辐射度L到像素值Z的聚合映射

Applications

我们推导成像响应函数和恢复高动态范围辐射图的技术在计算机图形学中有许多可能的应用:
Image-based modeling and rendering:迄今为止,基于图像的建模和渲染系统(例如[11,15,2,3,12,6,17])假设所有图像都是用相同的曝光设置和胶片响应功能拍摄的。然而,几乎任何大规模环境都会有一些区域比其他区域亮得多,因此无法使用单个曝光设置充分拍摄场景。在有窗户的室内场景中,这种情况通常发生在一张照片的视野内,因为通过窗户可见的区域可能比建筑物内的区域亮得多。
通过确定成像设备的响应函数,这里提出的方法允许人们正确地融合来自在不同曝光设置下拍摄的照片的像素数据。因此,人们可以正确地拍摄短曝光的室外区域和长曝光的室内区域,而不会在数据集中产生不一致。此外,了解响应函数可能会有所帮助
Image processing
大多数图像处理操作,如模糊、边缘检测、颜色校正和图像对应,都期望像素值与场景辐射成比例。由于非线性图像响应,特别是在饱和点,这些操作可能会对传统图像产生不正确的结果。
在计算机图形学中,一种常见的图像处理操作是将合成运动模糊应用于图像。在我们的结果(第3节)中,我们将表明,使用真实辐射贴图可以为高动态范围场景产生更逼真的运动模糊效果。
Image compositing
计算机图形学中的许多应用涉及从通过不同处理获得的图像合成图像数据。例如,背景蒙版可以用静态相机拍摄,真人版可以用不同的胶片库存或扫描过程拍摄,CG元素可以通过渲染算法生成。当这些成像过程的响应曲线存在显著差异时,合成图像可能在视觉上不令人信服。本文提出的技术提供了一种方便而稳健的方法来确定任何成像过程的整体响应曲线,使来自不同过程的图像能够一致地用作辐射图。此外,可以反转恢复的响应曲线以渲染合成辐射图,就好像它是用任何原始成像过程或完全不同的成像过程拍摄的一样。
A research tool计算机图形学的一个目标是模拟图像形成过程,产生与现实世界中发生的情况一致的结果。恢复真实世界场景的辐射图应该允许对渲染算法进行更多的定量评估,除了对它们传统上接受的定性审查之外。特别是,该方法应该有助于开发反射率和照明模型,并将全球照明解决方案与地面实况数据进行比较。在传统显示设备上渲染高动态范围场景是大量先前工作的主题,包括[20,16,5,23]。本文提出的工作将允许在实际辐射图上测试这种方法,以及综合计算的辐射解决方案。

Background

自1839年银版发明以来,卤化银摄影中涉及的光化学过程一直是创新和研究的主题。[18] 以及[8]对所涉及的理论和机制进行了全面的处理。对于具有电荷耦合器件的固态成像的较新技术,[19]是一个极好的参考。在有限的胶片范围内表现自然场景的动态范围这一技术和艺术问题从早期就引起了摄影师的关注——[1]提出了一种最著名的系统来选择快门速度、镜头光圈和显影条件,以最好地迫使场景的动态范围适应印刷品上可能出现的情况。在摄影的科学应用中,例如在天文学中,非线性胶片响应已经通过适当的校准程序得到了解决。相反,我们的目标是开发一种简单的自校准程序,不需要校准图表或phot解决非线性像素值响应问题。[14] 解决了非线性响应的问题,**但提供了一种相当有限的恢复响应曲线的方法。**具体地说,响应曲线的参数形式是任意假设的,没有令人满意的图像噪声处理,并且恢复过程仅部分使用可用数据

The Algorithm

本节介绍了我们恢复胶片响应函数的算法,然后介绍了我们从多张照片中重建高动态范围辐射图像的方法。我们描述了假设灰度成像设备的算法。我们将在第2.6节中讨论如何处理颜色。

Film Response Recovery(胶片响应恢复)

我们的算法基于利用成像系统的物理特性,包括光化学和电子性质,即互易性。
让我们先考虑一下摄影胶片。胶片对曝光变化的响应由特征曲线(或Hurter-Driffield曲线)概括。这是处理过的薄膜的光密度D相对于其所经受的曝光X的对数的曲线图。曝光X被定义为胶片的辐照度E和曝光时间t的乘积,因此其单位为Jm2。特性曲线概念的关键是假设只有乘积E t是重要的,减半E和加倍t不会改变由此产生的光密度D。在极端条件下(非常大或非常低的t),互易假设可能会崩溃,这种情况被描述为互易失效。在典型的印刷胶片中,对于10秒到1/10000秒的曝光时间,互易性保持在1 3 stop1以内。2在电荷耦合阵列的情况下,假设每个位置都测量光的总数,则互易性成立经过显影、扫描和数字化处理,我们得到了一个数字Z,它是像素处原始曝光X的非线性函数。让我们把这个函数称为f,它是薄膜特性曲线的组成,以及由后面的处理步骤引入的所有非线性。我们的第一个目标是恢复函数f。一旦我们有了它,我们就可以计算每个像素的曝光X,如X=f1(Z)。我们给出了一个合理的假设,即函数f是单调递增的,因此它的逆f1得到了很好的定义。已知曝光X和曝光时间t,辐照度E恢复为E=X/t,我们将其视为与场景中的辐射L成比例。在继续之前,我们应该讨论传感器光谱响应的后果。曝光X应该被认为是波长X()的函数,并且特性曲线上的横坐标应该是积分R X()R()d,其中R()是感测元件在像素位置处的光谱响应。严格地说,我们使用辐照度这一辐射量是不合理的。然而,传感器位置的光谱响应可能不是明视光度函数V,因此光度术语照度也不合理。在接下来的内容中,我们将使用术语辐照度,同时敦促读者记住我们将要处理的量是由传感器位置的光谱响应加权的。对于彩色摄影,可以单独处理彩色通道.
我们算法的输入是从相同的有利位置拍摄的具有不同已知曝光持续时间tj的多张数字化照片。4我们将假设场景是静态的,并且这个过程完成得足够快,可以安全地忽略照明变化。然后可以假设每个像素i的膜辐照度值Ei是恒定的。我们将用Zij表示像素值,其中i是像素上的空间索引,j是曝光时间tj上的索引。我们现在可以将薄膜互易方程记为:
在这里插入图片描述
由于我们假设f是单调的,它是可逆的,我们可以重写:
在这里插入图片描述
取两边的自然对数,我们得到:
在这里插入图片描述
为了简化表示法,让我们定义函数g=ln f1。然后我们得到一组方程
在这里插入图片描述
其中i在像素上的范围和j在曝光持续时间上的范围。在这组方程中,Zij是已知的,tj也是已知的。未知的是辐照度Ei,以及函数g,尽管我们假设g是光滑和单调的
我们希望恢复函数g和辐照度Ei,它们在最小二乘误差意义上最好地满足由方程2产生的方程组。我们注意到,恢复g只需要恢复g(z)可以取的有限数量的值,因为z的域,即像素亮度值,是有限的。设Zmin和Zmax是最小和最大的像素值(整数),N是像素位置的数量,P是照片的数量,我们将问题公式化为找到g(Z)的(Zmax-Zmin+1)值和ln-Ei的N值,使以下二次目标函数最小化:
在这里插入图片描述
第一项确保解满足最小二乘意义上由方程2产生的方程组。第二项是g的二阶导数的平方值之和上的光滑项,以确保函数g是光滑的;在这个离散设置中,我们使用g00(z)=g(z1)2g(z)+g(z+1)。该平滑项对于公式来说是至关重要的,因为它在最小化中提供了值g(z)之间的耦合。标量相对于数据拟合项对平滑度项进行加权,并且应该针对Zij测量中预期的噪声量进行适当选择.
因为它在Ei和g(z)中是二次的,所以最小化O是一个简单的线性最小二乘问题。过度确定利用奇异值分解(SVD)方法对线性方程组进行了鲁棒求解。该程序的直观解释见图2。
我们需要补充三点来完成对算法的描述:
首先,g(z)和Ei值的解最多只能是一个比例因子。如果每个对数辐照度值ln-Ei被ln-Ei+a代替,并且函数g被g+a代替,则方程2的系统以及目标函数O将保持不变。为了建立一个比例因子,我们引入了附加约束g(Zmid)=0,其中Zmid=1/2*(Zmin+Zmax),只需将其作为线性系统中的一个方程添加即可。该约束的含义是,值在Zmin和Zmax之间的像素将被假定为具有单位曝光。
其次,通过预测响应函数的基本形状,可以使解具有更好的拟合性。由于g(z)在Zmin和Zmax附近通常会有一个陡峭的斜率,我们应该预计g(z)在这些极端附近会不那么平滑,并且对数据的拟合会更差。为了认识到这一点,我们可以引入加权函数w(z)来强调曲线中间的平滑度和拟合项。w的合理选择是一个简单的帽子函数:
在这里插入图片描述
方程3现在变为:
在这里插入图片描述
最后,我们不需要在这个解决方案过程中使用每个可用的像素站点。给定P张照片中N个像素的测量值,我们必须求解g的ln Ei和(Zmax-Zmin)样本的N个值。**为了确保充分的超定系统,我们希望N(P1)>(Zmax-Zmin)**对于像素值范围(Zmax-Zmin)=255,P=11张照片,选择50个像素数量级的N是足够的。由于由方程3产生的线性方程组的大小在N*P+Zmax-Zmin的数量级上,计算复杂性的考虑使得在该算法中使用每个像素位置是不切实际的。显然,应该选择像素位置,以便它们具有从Zmin到Zmax的像素值的合理均匀分布,并且使得它们在图像中空间上均匀分布。此外,从具有低强度变化的图像区域中对像素进行最佳采样,使得可以假设辐射在像素的整个区域上是恒定的,并且最小化成像系统的光学模糊的影响。到目前为止,我们已经手工完成了这项任务,尽管它很容易实现自动化
注意,**我们没有明确地强制执行g必须是单调函数的约束。**如果需要,这可以通过将问题转化为非负最小二乘问题来实现。我们没有发现这是必要的,因为根据我们的经验,光滑性惩罚项足以使估计的g除了光滑之外是单调的。为了显示其简单性,我们用于最小化方程5的MATLAB例程包含在附录中。运行时间大约为几秒钟。

Constructing the High Dynamic Range Radiance Map(高动态范围辐射图的构建)

一旦恢复了响应曲线g,就可以使用它将像素值快速转换为相对辐射值,假设曝光tj是已知的。注意,该曲线可用于确定通过与g相关的成像过程获取的任何图像中的辐射值,而不仅仅是用于恢复响应函数的图像
从方程2,我们得到:
在这里插入图片描述
为了鲁棒性和恢复高动态范围辐射值,我们应该使用特定像素的所有可用曝光来计算其辐射。为此,我们重用等式4中的加权函数,以对像素值更接近响应函数中间的曝光赋予更高的权重
在这里插入图片描述
组合多次曝光具有降低恢复的辐射值中的噪声的效果。它还减少了诸如胶片颗粒之类的成像伪影的影响。由于加权函数忽略饱和像素值,“绽放”伪影5对重建的辐射值几乎没有影响。
Storage
在我们的实现中,恢复的辐射图被计算为单精度浮点值的阵列。为了提高效率,可以将地图转换为RADIANCE[22]模拟和渲染系统中使用的图像格式,该系统仅为尾数和指数各使用8位。这种格式对于颜色辐射贴图来说特别紧凑,因为它只为每个像素的所有三个颜色值存储一个指数值。因此,在这种格式中,高动态范围辐射图只需要比传统RGB图像多三分之一的存储空间。

How many images are necessary?

为了决定该技术所需的图像数量,可以方便地考虑该过程的两个方面
1.恢复胶片响应曲线:这需要至少两张照片。两张照片是否足够,可以根据图2所示的胶片响应曲线恢复过程的启发式解释来理解。如果场景具有足够多的不同辐射值,原则上,可以通过将采样的曲线段滑动在一起来组装整个曲线,每个曲线段只有两个样本。注意,照片的曝光量必须足够相似,使得两张图像中的一些像素落入胶片的工作范围6;否则,就没有信息将风险敞口相互关联起来。显然,使用具有不同曝光时间的两个以上图像可以提高噪声灵敏度方面的性能。
2.在给定胶片响应曲线的情况下恢复辐射图:这里所需的照片数量是场景中辐射值动态范围的函数。假设我们是对精确恢复感兴趣的是R,并且该膜能够在其工作范围内表示F的动态范围。

然后,所需的最小照片数量是d R F e,以确保场景的每个部分都在至少一张照片中成像,曝光持续时间使其处于胶片响应曲线的工作范围内。在恢复响应曲线时,使用比严格需要的更多的照片将导致更好的噪声灵敏度
如果想使用尽可能少的照片,可以首先通过拍摄一个场景来恢复成像过程的响应曲线,该场景在三到四次不同的曝光下包含不同范围的辐射值,可能相差一到两次。该响应曲线可用于确定成像过程的工作范围,对于我们所看到的过程,这将多达五到六次停止。在拍摄的剩余时间里,摄影师可以为任何特定场景决定覆盖其整个动态范围所需的拍摄次数。对于漫反射室内场景,可能只需要一次曝光;对于具有高动态范围的场景,需要几个。通过记录每次拍摄的曝光量,可以使用预先计算的响应曲线将图像转换为辐射图。

Recovering extended dynamic range from single exposuresf(从单次曝光恢复扩展的动态范围)

大多数商业上可用的胶片扫描仪可以检测到相当接近胶片中存在的全部有用密度。然而,这些扫描仪中的许多(以及Kodak PhotoCD工艺)都会产生每通道8位的图像,设计用于在屏幕上查看或打印在纸上。然而,打印胶片记录的动态范围要比使用这两种介质显示的动态范围大得多。结果,**这样的扫描仪在一次扫描中只传送检测到的打印胶片动态范围的一部分,丢弃高密度或低密度区域中的信息。**检测到的动态范围的传递部分通常会受到“亮度”或“密度调节”控制的影响。
本文提出的方法实现了两种恢复打印胶片全动态范围的方法,我们将简要介绍大概。在第一种方法中,使用设置为扫描幻灯片胶片的扫描仪扫描打印负片。然后,大多数扫描仪将在所得图像中记录胶片的整个可检测动态范围。

如前所述,同一场景的一系列不同曝光的图像可以用于恢复具有这些扫描仪设置中的每一个的成像系统的响应功能。然后可以使用该响应函数将单个曝光转换为辐射图。不幸的是,由于得到的图像仍然是每通道8比特,这导致量化增加。
在第二种方法中,可以将扫描仪设置为不同的密度调节设置,对胶片进行两次扫描。然后,可以使用同一场景的一系列不同曝光的图像来恢复在这些密度调节设置中的每一个下成像系统的响应函数。然后,可以使用这两个响应函数,使用与第2.2节中类似的技术,将任何单个阴性的两次扫描组合起来。

获得绝对辐射

对于许多应用,如图像处理和图像合成,通过我们的方法计算的相对辐射值是所有必要的。如果需要,可以使用胶片8的ASA以及照片中的快门速度和曝光量来导出转换为绝对辐射所需的缩放项的近似值。有了这些数字,可以在[9]中找到给出薄膜响应近似预测的公式。这种近似可以足以模拟诸如眩光之类的视觉伪影,并预测暗视视网膜反应的区域。如果需要,可以通过拍摄已知辐射度的校准灯具并缩放辐射度值以与灯具的已知辐射度一致来精确地恢复缩放因子。

Color

由红色、绿色和蓝色通道组成的彩色图像可以通过重建成像系统响应曲线来独立处理每个通道。不幸的是,将有三个未知的比例因子将相对辐射率与绝对辐射率联系起来,每个通道一个。因此,这些缩放因子的不同选择将改变辐射图的颜色平衡
默认情况下,算法选择缩放因子,使得值为Zmid的像素将具有单位曝光。因此,具有RGB值(Zmid;Zmid,Zmid)的任何像素对于R、G和B将具有相等的辐射亮度值,这意味着该像素是消色差的。如果成像系统的三个通道实际上对Zmid附近的消色差光有相同的响应,那么我们的程序可以正确地重建相对弧度。
然而,通常对薄膜进行校准,以对特定颜色的光C(如阳光或荧光)作出无色响应。在这种情况下,应缩放三个通道的辐射值,以便像素值(Zmid;Zmid,Zmid)映射到具有相同颜色ra的辐射

Taking virtual photographs

恢复的响应函数还可以用于使用等式1将辐射值映射回给定曝光t的像素值。这个过程可以被认为是拍摄辐射图的虚拟照片,因为得到的图像将展示建模成像系统的响应质量。请注意,所使用的响应函数不必与用于构建原始辐射图的响应函数相同,原始辐射图允许将通过一个成像过程获取的照片渲染为通过另一个成像处理获取的照片

HDR-Transformer——Ghost-free High Dynamic Range Imaging with Context-aware Transformer

Abstract

高动态范围(HDR)去重影算法旨在生成具有逼真细节的无重影HDR图像。受感受野位置的限制,现有的基于CNN的方法在存在大运动和严重饱和的情况下通常容易产生重影伪影和强度失真。在本文中,我们提出了一种新的上下文感知视觉转换器(CA ViT),用于无重影高动态范围成像。CA ViT被设计为双分支架构,可以联合捕获全局和本地依赖关系。具体而言,全局分支使用基于窗口的Transformer编码器来对长距离对象移动和强度变化进行建模,以解决重影问题。对于局部分支,我们设计了一个局部上下文提取器(LCE)来捕捉短距离图像特征

主要思想

多帧高动态范围成像(High Dynamic Range Imaging, HDRI/HDR)旨在通过合并多幅不同曝光程度下的低动态范围图像,生成具有更宽动态范围和更逼真细节的图像。如果这些低动态范围图像完全对齐,则可以很好地融合为HDR图像,在本文中,作者主要提出了实际拍摄到的图像容易受到相机、物体运动的干扰,三张低动态范围图像往往不能很好地得到对齐,直接对三图像做融合的话,所生成的图像容易产生伪影、重影,本文作者根据上述乺提出的问题提出了CA–ViT

相关背景

作者提出:传统的算法通常分为两类,在图像融合前对齐(align)图像或者拒绝(reject)不对齐的像素来去除重影,但精确地对齐图像或者精确地定位不对齐的像素往往难以实现,所生成的HDR图像效果并不好。
因此现在常常以数据驱动的方法来训练CNN,利用CNN来实现图像的融合,而其主要分为两类:①利用单应性或光流法对LDR图像进行预对齐;②设计端到端的隐式对齐模块或者新颖的学习策略来处理重影。但是由于卷积局部性的限制,模型难以建立远程依赖,因此作者在此基础上提出了解决长程依赖的Transformer模型,但同时Transformer也有其固定的缺点以及其应用到HDR任务中的缺陷:①transformer缺乏CNN中归纳偏差的能力(inductive biases),因此在数据量不足的情况下训练时泛化能力较差,模型性能不高;②帧内和帧间相邻像素之间的关系也对恢复图像的局部细节至关重要,而纯transformer结构难以提取局部上下文之前的关系。
因此,本文作者提出了一种上下文感知的ViT(Context-Aware Vision Transformer, CA-ViT),通过双分支架构来同时捕获全局和局部的依赖关系,也就是同时实现全局和局部的建模。对于全局分支,作者使用基于窗口的多头transformer编码器来捕远程上下文关系(即Swin transformer);对于局部分支,作者设计了局部上下文提取器(local context extractor, LCE),通过卷积块来提取局部特征映射,并且通过通道注意力机制在多个帧特征之间选择有用的特征,抑制无用的特征,因此,CA-ViT结构可以使全局和局部以互补的方式发挥作用。基于CA-ViT结构,作者提出了用于HDR成像的transformer结构(HDR-Transformer)。
其主要包括两个模块:特征提取网络和HDR恢复网络,特征提取网络利用卷积运算和空间注意力模块来提取浅层特征,并且进行粗融合,有助于稳定transformer的训练和抑制图像中不对齐的像素。HDR重建模块以CA-ViT为基本组件,从全局和局部两个角度对图像建模,有助于重建高质量的HDR图像,同时无需堆叠非常深的卷积块

Method

CA-ViT:
具体结构如下图所示,主要包括一个全局Swin transformer编码器分支和一个局部LCE分支:
在这里插入图片描述
拟议CA-ViT的说明。如图所示,如图所示,CA-ViT被设计为双分支架构,其中全局分支通过多头Transformer编码器对图像上下文之间的长程依赖性进行建模,而局部分支通过局部上下文提取器探索帧内局部细节和帧内特征关系。图(b)描述了我们使用CA ViT的HDR去重影方法的关键见解。为了去除由手的大幅度运动(用蓝色标记)引起的残余重影伪影,通过全局分支中的自注意来建模重影区域中产生合理内容所需的长程上下文(用红色标记)。同时,利用卷积层可以有效地提取出暴露良好的非遮挡局部区域(用绿色标记),并通过局部分支中的通道注意力进行融合。
在这里插入图片描述
HDR Transformer的网络架构。流水线由两个阶段组成:(a)特征提取网络首先通过空间注意力模块提取粗特征。(b) 然后将提取的特征馈送到HDR重建网络中以恢复HDR结果。HDR重建网络由几个上下文感知转换器块(CTB)组成,它们以所提出的CA ViT作为基本组件。为了更好地利用输入数据,首先依次利用伽马校正,将三张LDR图像I映射到HDR域,生成伽马校正图像,合并后同时输入到网络中在这里插入图片描述

特征提取

将曝光度为“中”的图像视为“参考图像”(reference feature),首先将三组图像数据依次经过卷积层,得到浅层特征F,之后将参考图像的特征f依次与其他非参考图像特征合并,
在这里插入图片描述
之后再将注意力图反乘回非参考特征,得到注意力特征
在这里插入图片描述
空间注意力可以有效地减少由前景物体运动引起的不希望关注的内容,抑制无关内容的重要性。注意力模块中的卷积层也可以增加后续transformer层的归纳偏置

HDR恢复网络及损失函数

该网络主要由多个上下文感知Transformer模块构成(Context-Aware Transformer Blocks, CTB),每个模块由多个CA-ViT、空洞卷积层(dilated convolution layer)以及一个残差连接组成,其中空洞卷积用于提高上下文范围的感受野,残差连接用于稳定模型的优化过程。
由于HDR图像通常是在色调映射后查看的,因此在这里使用μ−law函数计算色调映射域中的损失:
在这里插入图片描述本文同时使用L1损失和感知损失来优化网络参数:
在这里插入图片描述

运行结果

以下均为网络测试后的图片结果,能够很明显的看出将图片在HDR形式下进行了表达,该文源码连接为:点击此处

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值