基于深度学习的光场图像重建与增强综述

摘要:光场能够完整捕捉三维空间中的光线信息,记录光线在不同位置和方向上的强度。这一特性使其能够精准地感知复杂动态环境,为生命科学、工业检测和虚拟现实等领域提供了巨大的研究价值和应用潜力。在光场的拍摄、处理和传输过程中,由于设备限制和外部影响因素如物体运动、噪声、低光照及恶劣天气,光场图像往往包含失真和降质,这严重影响了图像质量并限制了其后续应用。为此,研究人员针对光场图像的不同降质提出了各种重建与增强算法,用于提升光场图像质量。传统的光场图像重建与增强算法依赖于人工设计的先验,且算法设计复杂、效率低、泛化性差。随着深度学习的发展,光场图像重建与增强算法取得了突破性进展,其性能和效率得到显著提高。本文介绍该领域相关的研究背景和光场表示,并针对不同的光场降质,概述和讨论其中的典型算法,内容涵盖空间与视角维度超分辨率重建、去噪、去模糊、去遮挡、去雨雾雪、去反射、低光增强等。此外,本文还概述了光场图像重建与增强算法未来的挑战和发展前景。

关键词:光场;光场图像重建;光场图像增强;深度学习

1引言

光是观测与感知物理世界的关键媒介。人类通过眼睛捕捉场景中物体发出的光线进行感知,获取物体颜色、位置、敏感等属性。成像系统是人类视觉系统的扩展,用于捕获、记录和分析光信息。尽管如此,大多数现有成像系统仅限于二维表示,导致失去三维空间的完整信息。三维世界的光线集合形成光场,是对光线分布的完整表达。与将光线映射到平面传感器的二维成像不同,光场成像[1]关注于捕捉光线在三维空间中的分布,以获取场景的立体信息。光场成像通过记录更高维度的光线数据,提供了比传统二维图像和基于双目立体视觉的3D成像更精确的三维信息。光场成像不仅丰富了人类对三维世界的认知,还推动了生命科学[2-3]、工业探测[4-5]、无人系统[6]以及虚拟现实[7]领域的进步。

随着光场成像与显示技术的进步,以及光场图像同时包含场景的空间和角度信息的特性,光场相机已经从最初用于图像渲染[1]到当前广泛应用于计算机视觉任务,例如新视角图像合成、目标检测、深度信息感知和三维重建等[8-9]。传统的光场图像采集一般依赖于笨重的相机移动平台或相机阵列[10-12]。这些设备体积庞大、成本高昂且操作不便,限制了光场图像的广泛应用。随着便携式光场图像采集设备如Lytro相机[13]的出现,这些问题得到了改善。便携式采集设备采用微型透镜阵列代替大型相机阵列,通过单次曝光即可获取完整的光场图像,实现了轻便、低成本的光场图像采集,极大地促进了光场图像的研究与发展[13-17]。尽管如此,光场相机在同时捕获空间和角度信息时会面临空间分辨率和角度分辨率的权衡问题,导致光场图像的空间分辨率不足。受技术和成本限制,光场相机记录的动态范围不如人眼,面对复杂光照,单曝光捕获的光场图像常无法捕捉全部细节,导致图像过曝或欠曝,影响对比度与噪声水平,进而造成较差的图像质量。当拍摄者拍摄运动物体时,不可避免地在拍摄图像中得到模糊的伪影。当在复杂天气中拍摄时,光场图像易受到雨、雾和雪等恶劣天气的影响,导致光场图像质量进一步下降。质量不佳的光场图像严重制约了其在后续下游应用中的有效性。

为提升光场图像的质量,研究人员们引入了光场图像重建与增强技术。其中,空间超分辨率算法通过多视角信息提升空间分辨率;角度超分辨率算法则从稀疏采样中重建密集视角;联合超分辨率技术同步提高空间和角度分辨率。针对噪声、遮挡、模糊、雨雾雪和反射问题,提出了相应去噪、去遮挡、去模糊、去雨(雨纹和雨滴等)、雾、雪和去反射等算法。为提升光场相机的动态范围,提出了光场高动态范围(HighDynamicRange,HDR)成像。然而,传统的光场图像重建与增强算法依赖于人工设计的特征和规则,需要通过光场图像内部的统计特性设计各类先验信息,泛化性能不足。此外,传统算法大多依赖于复杂的模型设计,需要大量迭代优化计算,算法运行效率低[18]。

近年来,随着以卷积神经神经网络(ConvolutionalNeuralNetwork,CNN)[19]为代表的深度学习技术的快速发展,国内外学者提出了各种基于深度学习的算法用于光场图像的重建与增强,极大地促进了该领域的发展。相比于依赖手工设计特征和规则的传统算法,基于深度学习的算法具有以下特征:

1)重建与增强性能更好。与传统算法相比,基于深度学习的算法在光场图像重建与增强任务中展现出更高的性能。深度网络通过多层结构逐步提取特征,以获取有效的数据表征,从而更有效地捕获和利用图像信息。非线性激活函数赋予深度网络强大的能力,以适应并模拟数据中的复杂模式。此外,借助先进优化技术如梯度下降算法等,网络能够精确调整权重,最小化损失函数,从而提高重建与增强的性能。

2)泛化性能更优越。传统算法在处理光场图像时,往往依赖于针对特定场景手工设计的先验知识。这些算法在某些固定和受限的应用场景中可能表现出色,但当面对复杂场景时,它们的泛化能力通常受到限制。基于深度学习的光场图像重建与增强算法能够利用丰富的外部数据集,这些数据集包含了高清晰度的细节和多样化的纹理信息。这种数据多样性为训练深度学习网络提供了坚实的基础,使得网络能够学习到更加通用的特征表示,从而在面对新的、未见过的低质量场景时也能够实现有效的泛化。

3)自动化程度更高。基于深度学习的光场图像重建与增强算法通过自动提取光场中的浅层和高层特征,显著简化了研究人员在图像分析过程中的工作。传统算法往往依赖于手动设计的先验知识,这一过程不仅繁琐,而且需要深厚的专业知识来确保准确性和可靠性。相比之下,利用深度神经网络的能力,自动从数据中学习有用的特征表示,这样不仅减少了人为设计特征的工作量,也降低了研究和应用的技术门槛。

本文接下来对光场的基本知识、光场的表示以及基于深度学习的光场图像重建与增强算法进行归纳和分析,最后分析挑战和发展趋势。

2 光场成像技术

2.1全光函数与光场表征

光的电磁属性,包括振幅、波长和相位,是人类视觉感知外部世界颜色、位置和明暗的基础。随着科技发展和对高维光信号采集需求的增加,光场的研究与应用显得尤为关键。

光场概念由Gershun在1936年首次提出[20],定义为在均匀介质中沿直线传播的光线所携带的辐射能的分布。由于计算复杂度高,初期未得到广泛验证。1992年,Adelson与Bergen引入七维全光函数来细致表征光线属性[21],包含时间、空间和频率等信息,全光函数表征了观察者在时刻t沿着视角(θ,φ)的方向,在空间位置(Vx,Vy,Vz)观察到的频率为λ、强度为|P(θ,φ,λ,t,Vx,Vy,Vz)|的光线。基于全光函数,在有效的空间、时间、光谱区间内,可以重建任一位置、任一波长和任一时刻下的可能视图。由于处理高维数据存在难度,实际的光场成像问题通常通过引入一些约束条件来简化处理流程,从而降低光场函数的复杂性。动态过程可被视为一系列静止状态的集合,这些状态对应于不同的时间点。因此,在静态光场或动态光场的特定时刻,时间变量t可以省略。在许多光场成像应用中,光谱信息并非必需;实际上,所需的颜色信息可以通过红、绿、蓝三原色的合成原理来生成。基于这一原理,彩色光场可以分解为对应的红、绿、蓝三个单色光场。对于单色光场而言,波长变量λ是多余的。因此,七维全光函数可以被简化为一个五维光场函数P(θ,φ,Vx,Vy,Vz),其中的变量仅与光线的空间位置和方向有关。进一步地,如果假定在有限区域内,同一束光线上的光强保持不变,不随传播距离而变化,那么该区域内的光场函数就具有与空间中光线相同的自由度。直观上,这允许去除表示距离的变量Vz,从而得到一个四维光场函数P(θ,φ,Vx,Vy,)。这样,光场的描述更加简洁,便于在特定应用场景下进行深入分析和处理[22]。

四维光场函数的参数组合并非唯一,不同的参数选择会导致各不相同的光场模型。在光场计算成像领域,参数化四维光场时必须考虑三个关键问题:计算效率、光线集合的控制性以及参数空间的均匀采样,这些问题对于构建高效且准确的光场模型至关重要。因此,1996年,Levoy和Hanraham提出如图1所示得双平面参数化模型,通过光线与两个平面的交点来参数化光线[1]。假设光线从左到右传播并依次穿过透镜平面Π和传感器平面Ω,和平面得交点分别为(u,v)和(x,y),对应的双平面模型可以被形式化为

L:Π×Ω→R,(u,v,x,y)→L(u,v,x,y)。此模型将光辐射作为几何光线处理,可以灵活地选择平面的位置和尺度,从而与实际成像系统建立密切的对应关系,简化了理论并促进了技术发展。现代光场理论和应用主要基于此四维参数模型。

图1  四维光场的双平面表示法示意图

2.2光场成像系统

光场成像系统是捕获四维光场信息的关键工具。目前,这些系统主要分为两大类:多透镜式和编码光圈式,目前大部分光场图像重建与增强基于多透镜式光场成像系统。根据不同的应用场景,多透镜式光场成像系统可以细分为三种类型:微型式、手持式和大规模相机阵列式,如图2所示。

图2不同类型的光场成像系统。(a)微型式光场相机,(b)手持式光场相机,(c)大规模相机阵列

微型式光场成像系统以其紧凑的结构和较小的体积而著称,通常被集成在便携设备中。然而,由于传感器尺寸的限制,这种系统的视角数量较少,成像质量相对较低。手持式光场成像系统主要由主透镜和微透镜阵列组成,其光学结构如图3所示。由于其便携性,手持式光场相机在摄影和工业检测等领域得到了广泛应用。大规模相机阵列式光场成像系统由多个独立相机组成,这些相机按照特定排列方式配置,并通过控制系统进行同步操作。由于其独特的组织结构,这种系统通常具备较高的成像质量和良好的系统扩展性。然而,其复杂的结构和庞大的体积限制了其应用范围,主要用于对室内特定场景进行成像。

图3手持式光场成像系统的光学结构示意图

2.3光场图像可视化

无论使用哪种成像方式,最终获得的光场图像都可以被表达为一个三通道(红绿蓝三基色)的四维张量L∈RU×V×X×Y×3,其中U与V表征光场图像的角度维度,X与Y表征光场图像的空间维度。该光场图像可以被可视化为由U×V个视角图像(又称子孔径图像,Sub-ApertureImage,SAI)作为元素在对应角度坐标组成的图像矩阵,每个子孔径图像的空间分辨率为X×Y,如图4所示。

在实际的光场图像可视化、处理与应用中,往往会对四维光场图像的二维切片进行提取。当固定角度坐标(u,v)为(u*,v*)时,得到的二维切片L(u*,v*,:,:,:)表示角度坐标为(u*,v*)的视角图像,该图像可以被视为不同相机在角度平面上记录的图像。SAIs具有与2D自然图像相似的风格,并可以促进空间信息的提取。然而,当光场以SAIs数组的形式组织时,角度信息隐含在不同SAIs之间,因此很难提取。当固定空间坐标(x,y)为(x*,y*)时,得到的二维切片L(:,:,x*,y*,:)则表示在空间位置(x*,y*)观察到场景不同角度的光线组成的图像,即所谓的亚视角(Sub-View)或宏像素图像(Macro-PixelImage,MacPI);当固定水平方向的空间与角度坐标(x,u)为(x*,u*)时,得到的二维切片L(u*,:,x*,:,:)表示在该水平位置的竖直极平面图像(EpipolarPlaneImage,EPI)。类似地,如果固定竖直方向的空间与角度坐标,则可以得到对应的水平极平面图像。由于空间中的对象可以在不同的角度视图上投影到不同的空间位置,一个EPI包含了倾斜线的模式,其斜率反映了视差值。

图4 光场图像的表示

光场图像重建与增强算法

针对不同的光场图像降质和退化,研究人员提出了多种基于深度学习的算法进行光场图像重建与增强。本节按照任务类型,介绍基于深度学习的光场图像重建与增强算法。

3.1光场图像超分辨率

常见的光场成像系统,如基于微透镜阵列的光场相机,通过记录光线的方向和强度信息,能够捕捉到场景的三维结构。然而,由于技术限制,这些系统通常面临着空间分辨率与角度分辨率之间的折衷,即增加一个维度的分辨率往往会牺牲另一个维度的分辨率。因此,超分辨率技术被引入到光场成像,成为了光场重建领域的重要课题。

光场图像超分辨率是一个典型的逆问题,该问题旨在从一张低分辨率的光场图像重建出其高分辨率的版本[18]。按照关注维度的不同,光场图像的超分辨率可分为空间超分辨率、角度超分辨率与空间角度联合超分辨率。此外,研究人员还构建了光场混合成像系统,使用高清的图片引导光场空间超分辨率。

3.1.1光场图像空间超分辨率

光场图像空间超分辨率的目的是对低空间分辨率的光场进行超分辨率重建,以获得相应的高空间分辨率版本。基于深度学习的光场图像空间超分辨率算法主要利用了深度学习的强大表征能力,通过借助大型外部数据集进行有监督学习,深度模型得以学习低分辨率光场图像与高分辨率光场图像或其目标视角之间的映射关系。

Yoon等人[23]开创性地提出光场图像超分辨率领域的首个深度神经网络LFCNN(LightFieldConvolutionNeuralNetwork)。如图5所示,该网络通过扩展单图像超分辨率网络SRCNN[24],实现了对多通道输入的支持。尽管LFCNN为光场图像空间超分辨率的研究奠定了基础,但其存在一定局限性。特别是将多个视角简单并联的处理方式,难以有效应对视角间的视差问题,并且无法充分利用光场全部视角的信息。因此,此后研究的重点转向了如何更有效地挖掘和整合光场中多视角信息,以实现高质量重建。

图5光场卷积神经网络LFCNN的结构示意图。图中Conv代表的是卷积层。图像素材来源于文献[23]

为了提升光场图像的重建性能,一种常见的方法是采用显式对齐策略来整合与利用多视角信息。例如,Fan等人[24]设计了一个两阶段的卷积神经网络框架。在该框架的第一阶段,通过块匹配算法实现各视角图像的对齐,第二阶段则通过一个多图像块融合网络来整合对齐后的各个视角信息。Farrugia和Guillemot[25]则是首先利用估计得到的光流对齐所有视角,然后通过低秩分解技术降低角度维度的数据复杂性,接着利用神经网络学习降维后的低分辨率与高分辨率光场在低秩空间之间的映射关系,最后通过反向扭曲变形(Warping)和图像补全技术来填补缺失的像素。尽管显式对齐的算法能够有效且直观地整合多视角信息,但是它们通常依赖于块匹配或光流估计等算法,这些算法容易受到误差的影响或在复杂的成像环境中受到干扰。对齐过程中引入的误差会传播到后续的重建阶段,可能导致次优的超分辨率重建结果。因此,隐式建模视角间关系的算法逐渐受到关注,这类算法可以减少对显式对齐技术的依赖。

为了隐式地提取并利用视角间的相关特性,Wang等人[26]提出使用可变形卷积[27]的偏移估计、特征对齐机制进行空间超分辨率重建。Jin等人[28-29]提出对每个参考视角和目标视角用卷积层提取相关特性,然后再融合为光场几何嵌入特征,以完成隐式的建模进行后续重建。Wang等人[30]将各行各列的视角看作视频序列,并使用双向循环神经网络[31]建模各序列的关系,以此来重建高分辨率的光场图像。Zhang等人[32]注意到,不同方向的视角图像序列具有不同方向的视差,并据此提出了多支路的残差光场超分辨率网络ResLF,如图6所示。该算法将沿着水平、竖直、斜角45。和斜角135。等四个不同方向的视角图像序列以及中心视角图像送入不同的网络分支,以提取各自方向的特征,并使用残差模块融合这些特征,重建出高分辨率的中心视角。为了充分挖掘光场空间维度与角度维度之间的关系,Wang等人[33]将空间维与角度维提取出来的特征经过卷积层进一步融合,提出空间-角度交互模块搭建超分辨率网络,Liu等人[34]提出首先提取视角内与视角间相关性特征,并提出让这两类特征互相辅助对方进行特征更新,提取光场中视角间相关特性以丰富各视角的高频细节。由于光场的高维数据特性,光场具有独特的EPI结构,因此众多研究人员将隐式挖掘视角间关联的思想引入到EPI维度[35-37],通过在EPI维度上进行特征提取与多分支融合策略进行高质量的重建。例如,Duong等人[37]提出多向极平面特征提取器,通过多分支的结构,学习EPI中包含的重要信息用于超分辨率。和现有光场图像表示策略不同,Jin等人[38]提出虚缝图像(Virtual-SlitImages,VSI)进行光场表示,该图像与子孔径图像互补。随后Jin等人在虚缝图像上进行特征提取以进行后续重建。Xiao等人[39]从数据增广的角度提出了一种在训练阶段使用的训练数据增广策略,用于在不改变现有网络结构的前提下提升现有网络的重建性能。

图6  多支路的残差光场超分辨率网络。图中ResBlock代表的是残差块。图像素材来源于文献 [32]

利用基于自注意力机制的Transformer模型[40]在建模长程相关性方面的优势,Liang等人[41]提出了一种交替在空间维度和角度维度使用Transformer的LFT算法(如图7所示),用以提取各自维度的长程关联性特征,为超分辨率重建提供信息。Wang等人[42]则引入了内容Transformer和梯度Transformer的概念,通过交替提取水平和竖直视角图像序列的长程相关性,最终通过一个融合Transformer将内容与梯度信息合并,以实现空间超分辨率重建。然而,这些基于Transformer的算法往往需要大量的计算资源,并且在处理具有大深度范围的场景时,其捕捉长距离相关性的能力可能会受到限制。因此,后续研究中提出更加高效且更加轻量化的基于Transformer的算法,以提高重建性能[43-47]。

图 7 LFT 算法框架。(a)LFT 总体流程图,(b)角度 Transformer,(c)空间 Transformer,(d)多头 自注意力。图像素材来源于文献 [41]

随着基于深度学习的光场图像空间超分辨率技术研究的深入,研究人员逐渐认识到现有的算法通常依赖于预设的降质模型,例如双三次下采样、高斯模糊下采样等。然而,实际中高低分辨率图像之间的关系通常是复杂多样且未知的,这导致仅使用预设降质模型训练的深度网络难以适应实际情况。因此,越来越多的研究开始关注面向真实光场图像的空间超分辨率问题。Cheng等人[48]通过实验揭示了一个关键问题:现有光场空间超分辨率算法在面对训练数据集(源数据集)与测试数据集(目标数据集)之间存在显著域偏移时,往往遭遇泛化难题。为了应对这一挑战,Cheng等人[49]提出了一种零样本学习框架,能够仅利用输入的低分辨率光场图像自身生成训练样本对,并使用这些样本对来训练模型,以提高参考视角图像的超分辨率能力。Wang等人[50]结合模糊核和加性噪声构建了一个实用的光场图像退化模型,并构建了一个卷积神经网络将退化先验整合入超分辨率的流程中,能够在有效利用光场图像的空间及角度信息的同时调节多样的退化影响。Xiao等人[51]提出基于显式降质估计的端到端网络结构用于真实光场图像空间超分辨率重建。Xiao等人[52]使用LytroILLUM相机长短焦异步拍摄得到光场图像数据对,构建首个大规模的面向真实场景的光场图像空间超分辨率数据集,如图8所示,并设计了频率感知的深度网络用于空间超分辨率重建。

图8  面向真实场景的光场图像空间超分辨率数据集。(a)数据集采集系统,(b)数据集部分场景示意 图。图像素材来源于文献 [52]

3.1.2光场图像角度超分辨率

光场图像角度超分辨率,亦称视角合成,旨在从角度维度上稀疏采集的光场图像重建出密集采样的视图。这种角度密集采样的光场图像对于光场渲染至关重要,尤其在虚拟现实和增强现实等应用领域中具有显著价值。角度超分辨率作为一种高度依赖场景几何信息的任务,大多数算法需预估深度图以辅助处理。深度学习在光场图像的角度超分辨率中的应用,根据是否依赖深度图可分为两大类。

对于使用深度图的算法,Kalantari等人[53]提出了一种如图9所示的基于扫描平面特征的视差估计网络,并辅以颜色网络融合校正的视角信息来实现视角合成。Meng等人[54]针对融合网络提出了一个附加的置信度网络,用于评估各视角各位置融合时的权重,以优化深度图的估计误差。Shi等人[55]提出同时结合校正后的视角图像及其特征,为新视角的合成提供更丰富的信息。Ko等人[56]设计了一个自适应特征重混合模块,实现更为灵活的信息整合。Jin等人[57-58]将基于深度图的角度超分辨率算法应用于非规则采样的稀疏光场,放宽了对视角采样的限制,并提出利用空间-角度分离卷积[59]构建优化网络,确保输出结果在角度上的连贯性。基于深度图的光场图像角度超分辨率算法能够有效适应具有大视差范围或采样模式不规则的稀疏光场。然而,这类算法的性能在遇到非朗伯表面的场景时会显著下降。相对而言,不依赖深度图的角度超分辨率算法规避了对深度图的需求,主要通过利用四维光场的整体亮度、几何和反射等信息,从全局视角出发对角度超分辨率问题进行建模。

Wu等人[60-61]则在分析极平面图像频谱的基础上,提出了基于CNN的模糊-重建-去模糊框架,以在进行角度维插值时减少混叠效应。在他们后续的研究中,Wu等人对极平面图像进行了更深入的分析,并设计了高效的抗混叠处理算法,如基于剪切的[62]和结合下采样与预滤波的[63]抗混叠算子。借助于先进的注意力机制[64],他们进一步提出了空间-角度注意力网络[65],利用空间和角度的注意力来探索极平面图像的空间和角度维度的信息,以用于角度超分辨率研究。从整体上提取光场四维信息的角度出发,Meng等人[66-67]提出了基于四维卷积的残差密集连接网络。Wang等人[68]提出了一种伪四维CNN算法,使用两个三维CNN分别对横向和竖向视角进行插值。Yeung等人[69]则采用轻量且有效的空间-角度分离卷积代替四维卷积,构建了一个由粗糙到精细的重建网络,从而实现高效的角度超分辨率。Cheng等人[36]关注于光场各二维切片的特性,提出了如图10所示的空间-角度全能卷积,以实现光场信息的轻量级且充分的建模。为了利用多角度极线几何,Liu等人[70]提出了融合不同方向堆叠的输入视图,学习从稀疏采样光场到密集采样光场的映射。Wang等人[42]提出了一种解耦机制,用于进行光场图像角度超分辨率。Liu等人[71]探索稀疏子孔径图像上的多尺度空间-角度相关性,并在宏像素特征上进行角度超分辨率。

图10空间-角度全能卷积示意图。图像素材来源于文献[36]

3.1.3光场图像空间和角度联合超分辨率

光场图像空间和角度联合超分辨率的目标是同时提高光场图像的空间分辨率和角度分辨率。Meng等人[66]提出了一个4D高维网络用于角度超分辨率,该网络包含空间-角度重建部分和细节优化部分,网络结构如图11所示。Chen等人[72]通过结合基于流的视图变形进行初始视图合成,并提出了一种单阶段LFSASR算法,该算法采用语义分割先验来指导频域重建。Zhou等人[73]通过基于深度图的扭曲变形操作合成新视图,然后利用基于EPI的上采样模块来提升空间分辨率。Liu等人[74]提出从输入光场的不同子孔径图像中自适应地聚合有利的像素,以实现每个新视图插值。这种自适应策略使他们算法能够有效地结合输入视图的空间和角度相关性。此外,为了增强重建光场图像的视差结构,他们提出通过特征分离和交互模块来优化中间特征。

3.1.4基于光场混合成像系统的空间超分辨率

如图12(a)所示,在经典的光场混合成像系统中,一个高分辨率相机位于多个低分辨率相机的中心,高分辨率相机捕捉的图片为光场空间超分辨率引入了有益的高频信息。该成像系统最初由Lu等人[75]提出,该系统由一台高分辨率的RGB相机与Stack-Hartmann传感器共同组成。Boominathan等人[76]提出了一种基于块的算法,名为PaSR,以利用混合输入提高分辨率。基于PaSR,Wang等人[77]通过在基于块的超分辨率和基于深度学习的方案组合之间迭代来提高性能。Zhao等人[78]提出了一种名为HCSR的算法,该算法从高分辨率的图像中分离高频细节,并将它们扭曲变形到所有低分辨率光场视图以重建一个高分辨率的光场图像。Jin等人[28]提出一种新颖的端到端基于深度学习的算法,充分利用来自两个互补的输入的特定特性。具体来说,该网络由两部分组成,在Warp-Net中,使用多尺度结构来探索视图之间的长距离相关性,中心视图的高分辨率细节被用来增强从低分辨率视图估计的视差图,而在SR-Net中,高分辨率的特征与每个低分辨率视图的特征能够更充分地融合。Chang等人[79]通过利用高分辨率中心视图的高频信息,获得高质量的深度信息表示,并将这些信息准确地传播到周围的低分辨率视图中。他们提出的模型可以灵活地适应具有不同视差范围的各种场景。Lei等人[80]使用分光镜搭建混合成像系统(系统如图12(b)所示),使用无监督算法重建高分辨率光场图像。Chen等人[81]将该混合成像系统中的高分辨率图像扩展到任意位置,提出基于参考图像的光场图像空间超分辨率网络。该网络包括两个核心模块:光场特征对齐模块和跨域多尺度融合模块。前者利用光流法和可变形卷积技术,逐步实现二维高分辨率特征与低分辨率光场特征的对齐;后者则逐层融合校正后的多尺度光场特征,以实现高质量的重建。除了用于场空间超分辨率外,混合成像系统还可被用于生成光场视频[82]。

3.2光场图像去噪

在低光照条件下成像具有极大的传感器噪声,对于高质量成像提出了挑战。对于基于微透镜阵列的光场相机来说,这一挑战尤其严峻。相机的传感器像素尺寸设计得较小,而且在微透镜下的采样相当稀疏。因此,到达传感器的能量被大大减弱,即使场景照明良好,其原始输出也十分嘈杂。因此,光场图像的去噪具有重要意义。

受到使用卷积神经网络进行单张图像去噪的启发,基于深度学习的光场图像去噪算法往往将含噪的光场图像映射到干净且高质量的光场图像。具体来说,Chen等人[83]引入了各向异性视差分析算法,这是针对该问题的第一个基于CNN的算法,而Guo等人[84]提出了深度正则化光场算法,将压缩光场去噪和重建问题表述为一个带有隐式正则化项的逆问题。然后,使用深度高效的空间-角度可分离卷积子网络构建正则化项,以局部和全局残差学习的形式全面探索信号分布,在变换域利用稀疏性质去除光场图像噪声。然而,稀疏先验在光场去噪任务中尚未得到很好的利用和挖掘,因此Duong等人[85]提出了混合光场去噪网络,如图13所示,它能够利用光场在像素域和变换域的特性,从输入带噪光场图像中恢复高质量的光场图像。

图13混合光场去噪网络的结构示意图。图像素材来源于文献[85]

3.3光场图像去模糊

图像模糊可由多种因素引起,包括相机抖动、物体移动和散焦等。这些模糊因素严重影响了图像的质量,在使用光场相机进行光场图像捕获时尤其突出,从而限制了光场图像在各种应用中的巨大潜力。

Lumentut等人[86]提出一个在6自由度运动下的联合超分辨率和去噪网络结构,用于在提升光场图像空间分辨率的同时消除模糊的影响,他们也提出使用递归网络进行光场图像去模糊[87]。由于这些算法将光场分割成多个分组,导致光场结构的破坏,未能充分利用光场的空间和角度结构信息。为此,Shen等人[88]设计了一种新颖的视角自适应空间卷积去模糊算法,为每个视角计算独特的卷积核,如图14所示。此外,他们还设计出一种深度感知视角注意力机制,通过选择性地整合来自不同视角的信息来对不同深度区域进行去模糊。为了更好保持光场结构,他们引入了角度位置嵌入技术,确保模型能正确恢复不同视角的图像。

图 14  视角自适应空间卷积去模糊算法的结构示意图。图像素材来源于文献 [102]

3.4光场图像去遮挡

去遮挡是计算机视觉领域的一个基本任务。对于单视角图像而言,去遮挡也可以被称为图像补全,是一个不适定的问题,在被遮挡区域填充的内容通常带有任意性。不同于单视角图像,光场图像包含众多视角,因此,在一个视角中被遮挡的区域在其他视角可能是可见的。通过这种方式,4D光场图像中的去遮挡会比单视角图像中的更加可靠,重建的内容也更加准确。通常来说,光场图像去遮挡任务旨在根据有遮挡的多视角光场数据来重建中心视图。

Wang等人[89]首次提出了针对光场图像去遮挡的一个端到端网络DeOccNet,如图15所示。他们构建了一个U形结构的网络,并使用空洞空间金字塔池化层从输入的子孔径图像中提取特征用于后续重建。然而,由于将所有视角图像沿一个维度堆叠忽视了不同视角之间的内部联系,因此导致重建性能受限。为了解决这个问题,Li等人[90]提出了一个基于4D卷积的网络,名为Mask4D。Mask4D提出保持子孔径图像的空间布局,并使用4D卷积来充分提取它们之间的角度信息。Zhang等人[91]提出使用微透镜动态滤波器来寻找偏移图像中被遮挡的背景点,并利用角度信息去遮挡。然后,这些偏移图像被结合以进一步生成背景区域,利用空间信息补充更多的背景细节。Zhao等人[92]利用生成对抗网络对被遮挡区域进行语义修复,将结果与重建的背景合成,生成无遮挡图像。考虑到Transformer结构对于全局感受野建模的强大能力,Wang等人[93]提出了一种基于SwinTransformer和CNN的光场图像去遮挡网络,旨在同时利用全局和局部感受野。Hur等人发现现有的光场图像去遮挡主要集中在稀疏采样的光场图像上,由于视差较大,大多数被遮挡区域在其他视角中是可见的,因此他们关注于密集采样的光场图像上。由于密集光场图像的视差范围较小,大部分背景区域在任何视角中都不可见,为此Hur等人[94]提出一名为ISTY的算法框架,它包含三个部分:提取光场特征,定义遮挡,以及修复被遮挡区域。如图16所示,相比于之前的光场图像去遮挡网络由一个黑盒模型组成,ISTY由三个独立的部分组成,生成遮挡掩膜作为框架的中间表示,有助于算法分析和定位光场图像中存在的遮挡区域。

图 15  光场图像去遮挡网络。(a)DeOccNet 的网络框架示意图。(b)残差空洞空间金字塔池化模块。图 像素材来源于文献 [89]

图 16 ISTY 和现有光场图像去遮挡方法的比较。(a)现有方法示意图。(b)ISTY 示意图。图像素材来源于文献 [94]

3.5光场图像去雨、雾、雪

在户外场景中拍摄图片时,雨、雾、雪等恶劣天气条件会显著降低户外采集的图像质量,影响计算机视觉系统的性能。雨条纹呈半透明状,距相机不同位置呈现不同的大小、方向甚至外观,即雨滴、条状或雾状;雪花呈现不规则的形状,可以看作随机分布的噪声,对图像造成严重遮挡。

针对光场图像雨、雾、雪的去除算法仍处于起步阶段。对于光场图像雨、雾去除任务,Tan等人[95]首先将各个子视图与中心子视图进行对齐。接着,运用鲁棒主成分分析技术,把经过扭曲变形的子视图集合中的每幅图像分解成低秩部分和稀疏噪声部分,通过计算暗视图图像来估算没有雨的视差边缘,而分解后剩余的稀疏部分被认为是雨条纹。最后,这些视差边缘会被重新加入到低秩数据中以重建出一个无雨的光场图像。Ding等人[96]引入了一种基于生成对抗网络的框架,以从有雨光场图像的三维EPI中移除雨条纹。这个网络首先估算出一个深度图,然后检测雨条纹并利用雨滴痕迹与干净背景层之间的相关性来恢复无雨的子视图。Yan等人[97]提出一种基于多尺度高斯过程的光场图像去雨算法,该算法利用4D卷积技术,充分挖掘光场图像中所有子视图所包含的丰富纹理和结构信息。为了精确检测雨条纹,使用基于自指导高斯过程模块,显著提升了网络针对真实场景的泛化能力和处理性能,并最终利用对抗神经网络递归地去除雨条纹并恢复光场图像的背景细节。Jing等人[98]着眼于光场图像雨滴去除任务,提出首个光场图像雨滴去除的深度网络。该网络由重采样模块和优化模块组成,重新采样模块通过重采样位置预测和提出的四维插值策略,生成一个受雨滴污染较少的新光场图像;优化模块则提高了完全被遮挡背景区域的恢复质量,并纠正了由四维插值引起的像素错误。对于光场图像去雪任务,Yan等人[99]提出一个端到端网络,该网络包含一个结合残差网络和卷积长短期记忆网络的雪花检测器,以及一个3DU型光场图像修复网络,网络如图17所示。该网络以3DEPI作为输入,有效整合了子孔径视图的上下文信息与记录在光场图像中的三维场景结构信息进行光场图像去雪。

图 17  光场图像去雪网络示意图。图像素材来源于文献 [99]

3.6光场图像低光增强

由于光场成像技术的复杂性,它在处理在不理想的光照条件下拍摄的光场图像时,容易受到严重噪声和色彩失真的影响。例如,如果拍摄环境的光照条件较差,那么光场图像可能会出现明暗不均、颜色偏差等问题。这些问题不仅会影响图像的视觉效果,也会对后续的图像处理和分析造成困扰。因此研究人员提出光场图像低光增强算法。

现有的光场低光增强算法致力于处理在极暗环境中含有噪声的数据。这些算法需要在保持视角间一致性的前提下提升亮度。Lamba等人[100-101]采集了一个光场低光增强数据集,并提出两阶段L3Fnet算法(如图18所示),包括一个全局表示块来编码光场几何信息和一个视角重建块来恢复每个视角。Zhang等人[102]将Retinex-Net扩展到光场领域,开发了一种基于学习的分解增强算法,将复杂任务分解为几个子任务。Zhang等人[103]利用Transformer实现了高效的低光光场图像恢复,该网络集成了图像去噪、亮度调整、优化处理以及细节增强等功能。他们设计了一种具有高效视角标记方案的角度Transformer块,用以建模全景角度依赖性;同时,还设计了一个多尺度空间Transformer块,旨在对每个视角内的多尺度局部与全局信息进行编码。Wang等人[104]提出了一个多流渐进恢复网络用于低光光场增强。该网络通过设计三种视图堆叠的输入类型来充分利用多视角互补信息。

图 18 L3Fnet 的网络结构示意图。图像素材来源于文献 [100]

这些算法大多由数据驱动,且网络结构基于经验设计,不易解释。为此,Lyu等人[105]提出一种新颖且可解释的端到端学习框架,称为深度补偿展开网络,用于恢复在低光照条件下拍摄的光场图像。该网络采用多阶段结构设计,模仿了以数据驱动方式解决逆成像问题的优化过程。该框架使用中间增强结果来估计照明图,然后在展开过程中使用照明图来产生新的增强结果。此外,该网络在每个优化阶段都包含一个内容相关的深度补偿模块,用于抑制噪声和照明图估计误差。Ye等人[106]提出无监督网络LFIENet,通过融合光场图像和单反相机拍摄的单张图像实现光场图像增强。

3.7光场图像去反射

在摄影和图像处理中,反射是一种常见的降质,尤其是在通过玻璃窗或其他类似透明但具有反射性质的屏障拍摄时。这种现象通常会导致图像中出现不想要的光线斑驳或重影,影响图像的清晰度和美观度。光场成像技术因其在深度感知方面的可靠性以及多个子孔径图像的互补特性,能够准确区分图像中的不同平面,并因此更容易识别和分离背景与反射图像,为去反射提供了有力的解决方案。

Li等人[107]提出MIRM,通过基于深度学习的k-均值聚类将边缘分割为背景层和反射层实现多视角图像去反射。Chandramouli等人[108]提出使用卷积神经网络进行深度估计,并结合传统算法将背景层和反射层分开。Shen等人[109]提出一个端到端的算法,能够有效地从不同的视角图像中提取多尺度空间-角度特征。该算法基于自适应焦点选择策略,通过动态滤波器分别从焦堆(FocalStack)中获得聚焦的背景特征和聚焦的反射特征。通过有效整合这两类互补特征,最终实现了背景层与反射层的分离。Liu等人[110]提出适用于光场图像去反射的数据合成策略,合成如图19所示的带有反射的光场图像,并提出名为DMINet的算法,该算法主要由背景层视差估计模块和中心视角-边缘视角交互模块组成,前者的目标是通过滤除反射干扰来估计背景层的视差,而后者负责充分融合光场图像的多视角信息。

图 19  光场图像去反射数据示意图。(a)背景层,(b)反射层,(c)带有反射的光场图像。图像素材来源 于文献 [123]

3.8光场高动态范围成像

现有的光场相机往往只能捕获有限动态范围的场景信息,因此容易出现欠曝或过曝的问题,这影响了后续的光场应用。直观上,通过在光场成像中引入多曝光采集模式,可以实现光场高动态范围成像。

主要有两类算法可以实现上述要求,其一是通过改变光场相机的内部硬件结构来捕获多曝光信息。例如,Wahab等人[111]使用光学遮罩增强光场相机的渐晕效应,从而在不同子视图中捕获多曝光信息。Hsu等人[112]开发了配备针孔遮罩的HDR光场相机,通过改变针孔大小模拟曝光时间的变化来捕获多曝光信息。然而,由于商用光场相机的模块化和专业化,普通用户难以独立且精确地更改相机硬件。

第二类算法是在不改变硬件的情况下,为光场相机使用不同的曝光参数来捕获多个光场图像,然后将捕获的数据融合,重构出具有高视觉质量的HDR光场图像。例如,Pendu等人[113]提出了一种基于矩阵完成的重构算法,从两个不同曝光的输入LDR光场图像重构HDR光场图像,主要考虑饱和区域的信息恢复。Chen等人[114]设计了一种受相机成像管道启发的无监督损失,用以训练HDR光场融合网络。需要注意的是,上述算法都需要假定所拍摄的场景是静态的。因此,对于动态场景,上述算法不可避免地会产生严重的伪影。因此Chen等人[115]针对动态场景,设计了端到端网络用于高动态范围成像。在数据集层面,采集了如图20所示的场景;方法层面,考虑到光场图像的四维结构,首先设计了一个可变形对齐模块来处理空间域中的动态区域,然后通过聚合操作将校准后的空间特征融合。随后,构建了一个角度信息嵌入模块来挖掘角度信息,以增强聚合后的角度特征。在此基础上,上述两个模块以多尺度方式级联,实现多层次特征提取并增强特征表征能力。最终,利用解码器从增强的多尺度特征中恢复出高动态范围的光场图像。

图 20  采集的光场 HDR 成像基准数据集场景示例。图像素材来源于文献 [115]

4 发展趋势与展望

目前,关于光场成像技术的应用研究已受到越来越多的重视,光场图像重建与增强成为当前的研究热点之一。总结以往的研究成果,该领域未来几年可能的发展趋势包括:

1)新型网络结构在光场图像重建与增强中的应用。自基于CNN的光场图像重建与增强技术首次被提出以来,相关研究普遍采用了这一网络结构。尽管CNN在光场图像处理中取得了显著成就,但随着Transformer、MLP、扩散模型与Mamba等新型网络结构的兴起,它们为光场图像重建与增强提供了新的可行途径[116-117]。光场图像重建与增强与高层视觉任务在本质上存在差异。因此,探索适配于高维光场图像特点的新型网络结构显得尤为重要。

2)轻量化算法在光场图像重建与增强中的部署。自光场理论及成像技术问世以来,其在多个行业中的广泛应用备受瞩目,尤其在虚拟现实、增强现实、工业检测和水下探测等领域。在这些应用中,针对光场图像重建与增强及其他相关处理算法,迫切需要轻量型网络以便在资源受限的终端上部署和执行。设计专门针对光场图像处理的轻量化算法,将是未来研究的重要方向。

3)光场图像重建与增强算法的可解释性研究。尽管光场重建与增强技术已经通过深度网络取得了显著的性能提升,但对于这些网络的内部工作原理和机制的理解,即可解释性,仍然是一个开放性的问题。通常认为,这些网络学习了一个复杂的非线性映射,将降质的光场图像转换为高质量的光场图像。然而,这种映射在网络的不同层级和滤波器上的具体表现形式还是不完全清楚的。为了更深入地理解这些网络,需要深入研究其内部结构和运行机制。这些研究不仅有助于更好地理解网络的内部机制,还可以为网络设计提供新的思路和算法。

4)高质量、大规模、配对的光场数据集构建。由于光场数据采集的复杂性和高成本,以及渲染过程的计算昂贵,导致用于训练和验证算法的大规模配对数据集难以获得。这不仅限制了深度学习模型的训练效率,也制约了算法性能的提升。未来的研究可能集中在开发出更高效的光场数据采集和渲染技术,以减少获取高质量光场数据的时间和成本。此外,通过使用未配对数据或合成数据的创新算法,可以缓解对大规模配对数据集的依赖。同时,迁移学习和域适应技术的进展将有助于光场图像重建与增强模型在不同场景和条件下的泛化能力。

5)通用的光场重建与增强算法框架开发。现有的算法通常只针对单一类型的降质因素或者有限的几种已知降质情况进行设计和优化,然而在真实世界中,由于复杂的环境因素和设备限制,降质模式是多样且不断变化的。因此,未来的研究需要设计能够适应多变降质情况的算法,从而具备更好的普适性和鲁棒性。为了应对多样化的降质问题,可能需要结合多种数据先验和正则化策略,以及探索新的损失函数。

6)迈向光场视频的重建与增强。视频数据由于其包含的时间维度信息更加丰富,对于场景理解和多种下游任务至关重要。因此,未来的研究可以专注于设计新算法,旨在获取和重建出高帧率、高空间分辨率以及高角度分辨率的光场视频,这些特性对于精细的视觉细节尤为重要[118]。通过突破现有的技术限制,并设计出更智能的光场视频处理流程,可以在虚拟现实、运动分析、远程监控等领域实现质的飞跃。这不仅能够为用户提供更逼真的视觉体验,还能为机器视觉系统赋予更准确的环境感知能力。

7)与下游任务的紧密结合。随着对高质量视觉内容需求的日益增长,光场技术在图像和视频处理领域扮演的角色将变得越来越重要。未来,可以期待光场重建与增强成为驱动各种复杂视觉任务的关键技术,如精确的场景重建、动态对象捕捉、高级视觉特效生成以及实时互动式视觉体验等。为了实现这些目标,研究人员们需要继续探索如何将光场数据更好地整合进计算机视觉下游流程中,以提升机器对环境的理解和反应能力。

5 结语

由于光场图像记录了丰富的三维空间光线信息,其在多个领域展现出极高的研究价值和应用前景。然而,在采集、处理和传输过程中,光场图像不可避免地受到各种降质的影响,这严重影响了其质量并限制了进一步应用。随着深度学习技术的发展,光场图像的重建与增强取得了显著进展,无论是在性能还是效率方面都有了大幅提升。本文不仅介绍了相关的研究背景和光场表示算法,还针对不同的光场降质问题概述了典型算法。光场图像的重建与增强对于提高图像质量、拓展应用范围具有重大意义。这些技术不仅能够提升光场图像的视觉效果,还能提升其在生命科学、工业探测、无人系统和虚拟现实等领域的实际应用潜力。未来的研究依然面临诸多挑战,需要开发出更加高效、鲁棒和通用的算法来应对多样化的降质情况,以激发光场图像的巨大潜力。

文章来源:激光与光电子学进展;    ​文章作者:肖泽宇,熊志伟,王立志,黄华​

声明:转载此文目的在于传递更多信息,仅供读者学习、 交流之目的。文章版权归原作者所有,如有侵权,请联系删除。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值