基于深度学习的光场图像重建与增强综述

摘要:光场能够完整捕捉三维空间中的光线信息,记录光线在不同位置和方向上的强度。这一特性使其能够精准地感知复杂动态环境,为生命科学、工业检测和虚拟现实等领域提供了巨大的研究价值和应用潜力。在光场的拍摄、处理和传输过程中,由于设备限制和外部影响因素如物体运动、噪声、低光照及恶劣天气,光场图像往往包含失真和降质,这严重影响了图像质量并限制了其后续应用。为此,研究人员针对光场图像的不同降质提出了各种重建与增强算法,用于提升光场图像质量。传统的光场图像重建与增强算法依赖于人工设计的先验,且算法设计复杂、效率低、泛化性差。随着深度学习的发展,光场图像重建与增强算法取得了突破性进展,其性能和效率得到显著提高。本文介绍该领域相关的研究背景和光场表示,并针对不同的光场降质,概述和讨论其中的典型算法,内容涵盖空间与视角维度超分辨率重建、去噪、去模糊、去遮挡、去雨雾雪、去反射、低光增强等。此外,本文还概述了光场图像重建与增强算法未来的挑战和发展前景。

关键词:光场;光场图像重建;光场图像增强;深度学习

1引言

光是观测与感知物理世界的关键媒介。人类通过眼睛捕捉场景中物体发出的光线进行感知,获取物体颜色、位置、敏感等属性。成像系统是人类视觉系统的扩展,用于捕获、记录和分析光信息。尽管如此,大多数现有成像系统仅限于二维表示,导致失去三维空间的完整信息。三维世界的光线集合形成光场,是对光线分布的完整表达。与将光线映射到平面传感器的二维成像不同,光场成像[1]关注于捕捉光线在三维空间中的分布,以获取场景的立体信息。光场成像通过记录更高维度的光线数据,提供了比传统二维图像和基于双目立体视觉的3D成像更精确的三维信息。光场成像不仅丰富了人类对三维世界的认知,还推动了生命科学[2-3]、工业探测[4-5]、无人系统[6]以及虚拟现实[7]领域的进步。

随着光场成像与显示技术的进步,以及光场图像同时包含场景的空间和角度信息的特性,光场相机已经从最初用于图像渲染[1]到当前广泛应用于计算机视觉任务,例如新视角图像合成、目标检测、深度信息感知和三维重建等[8-9]。传统的光场图像采集一般依赖于笨重的相机移动平台或相机阵列[10-12]。这些设备体积庞大、成本高昂且操作不便,限制了光场图像的广泛应用。随着便携式光场图像采集设备如Lytro相机[13]的出现,这些问题得到了改善。便携式采集设备采用微型透镜阵列代替大型相机阵列,通过单次曝光即可获取完整的光场图像,实现了轻便、低成本的光场图像采集,极大地促进了光场图像的研究与发展[13-17]。尽管如此,光场相机在同时捕获空间和角度信息时会面临空间分辨率和角度分辨率的权衡问题,导致光场图像的空间分辨率不足。受技术和成本限制,光场相机记录的动态范围不如人眼,面对复杂光照,单曝光捕获的光场图像常无法捕捉全部细节,导致图像过曝或欠曝,影响对比度与噪声水平,进而造成较差的图像质量。当拍摄者拍摄运动物体时,不可避免地在拍摄图像中得到模糊的伪影。当在复杂天气中拍摄时,光场图像易受到雨、雾和雪等恶劣天气的影响,导致光场图像质量进一步下降。质量不佳的光场图像严重制约了其在后续下游应用中的有效性。

为提升光场图像的质量,研究人员们引入了光场图像重建与增强技术。其中,空间超分辨率算法通过多视角信息提升空间分辨率;角度超分辨率算法则从稀疏采样中重建密集视角;联合超分辨率技术同步提高空间和角度分辨率。针对噪声、遮挡、模糊、雨雾雪和反射问题,提出了相应去噪、去遮挡、去模糊、去雨(雨纹和雨滴等)、雾、雪和去反射等算法。为提升光场相机的动态范围,提出了光场高动态范围(HighDynamicRange,HDR)成像。然而,传统的光场图像重建与增强算法依赖于人工设计的特征和规则,需要通过光场图像内部的统计特性设计各类先验信息,泛化性能不足。此外,传统算法大多依赖于复杂的模型设计,需要大量迭代优化计算,算法运行效率低[18]。

近年来,随着以卷积神经神经网络(ConvolutionalNeuralNetwork,CNN)[19]为代表的深度学习技术的快速发展,国内外学者提出了各种基于深度学习的算法用于光场图像的重建与增强,极大地促进了该领域的发展。相比于依赖手工设计特征和规则的传统算法,基于深度学习的算法具有以下特征:

1)重建与增强性能更好。与传统算法相比,基于深度学习的算法在光场图像重建与增强任务中展现出更高的性能。深度网络通过多层结构逐步提取特征,以获取有效的数据表征,从而更有效地捕获和利用图像信息。非线性激活函数赋予深度网络强大的能力,以适应并模拟数据中的复杂模式。此外,借助先进优化技术如梯度下降算法等,网络能够精确调整权重,最小化损失函数,从而提高重建与增强的性能。

2)泛化性能更优越。传统算法在处理光场图像时,往往依赖于针对特定场景手工设计的先验知识。这些算法在某些固定和受限的应用场景中可能表现出色,但当面对复杂场景时,它们的泛化能力通常受到限制。基于深度学习的光场图像重建与增强算法能够利用丰富的外部数据集,这些数据集包含了高清晰度的细节和多样化的纹理信息。这种数据多样性为训练深度学习网络提供了坚实的基础,使得网络能够学习到更加通用的特征表示,从而在面对新的、未见过的低质量场景时也能够实现有效的泛化。

3)自动化程度更高。基于深度学习的光场图像重建与增强算法通过自动提取光场中的浅层和高层特征,显著简化了研究人员在图像分析过程中的工作。传统算法往往依赖于手动设计的先验知识,这一过程不仅繁琐,而且需要深厚的专业知识来确保准确性和可靠性。相比之下,利用深度神经网络的能力,自动从数据中学习有用的特征表示,这样不仅减少了人为设计特征的工作量,也降低了研究和应用的技术门槛。

本文接下来对光场的基本知识、光场的表示以及基于深度学习的光场图像重建与增强算法进行归纳和分析,最后分析挑战和发展趋势。

2 光场成像技术

2.1全光函数与光场表征

光的电磁属性,包括振幅、波长和相位,是人类视觉感知外部世界颜色、位置和明暗的基础。随着科技发展和对高维光信号采集需求的增加,光场的研究与应用显得尤为关键。

光场概念由Gershun在1936年首次提出[20],定义为在均匀介质中沿直线传播的光线所携带的辐射能的分布。由于计算复杂度高,初期未得到广泛验证。1992年,Adelson与Bergen引入七维全光函数来细致表征光线属性[21],包含时间、空间和频率等信息,全光函数表征了观察者在时刻t沿着视角(θ,φ)的方向,在空间位置(Vx,Vy,Vz)观察到的频率为λ、强度为|P(θ,φ,λ,t,Vx,Vy,Vz)|的光线。基于全光函数,在有效的空间、时间、光谱区间内,可以重建任一位置、任一波长和任一时刻下的可能视图。由于处理高维数据存在难度,实际的光场成像问题通常通过引入一些约束条件来简化处理流程,从而降低光场函数的复杂性。动态过程可被视为一系列静止状态的集合,这些状态对应于不同的时间点。因此,在静态光场或动态光场的特定时刻,时间变量t可以省略。在许多光场成像应用中,光谱信息并非必需;实际上,所需的颜色信息可以通过红、绿、蓝三原色的合成原理来生成。基于这一原理,彩色光场可以分解为对应的红、绿、蓝三个单色光场。对于单色光场而言,波长变量λ是多余的。因此,七维全光函数可以被简化为一个五维光场函数P(θ,φ,Vx,Vy,Vz),其中的变量仅与光线的空间位置和方向有关。进一步地,如果假定在有限区域内,同一束光线上的光强保持不变,不随传播距离而变化,那么该区域内的光场函数就具有与空间中光线相同的自由度。直观上,这允许去除表示距离的变量Vz,从而得到一个四维光场函数P(θ,φ,Vx,Vy,)。这样,光场的描述更加简洁,便于在特定应用场景下进行深入分析和处理[22]。

四维光场函数的参数组合并非唯一,不同的参数选择会导致各不相同的光场模型。在光场计算成像领域,参数化四维光场时必须考虑三个关键问题:计算效率、光线集合的控制性以及参数空间的均匀采样,这些问题对于构建高效且准确的光场模型至关重要。因此,1996年,Levoy和Hanraham提出如图1所示得双平面参数化模型,通过光线与两个平面的交点来参数化光线[1]。假设光线从左到右传播并依次穿过透镜平面Π和传感器平面Ω,和平面得交点分别为(u,v)和(x,y),对应的双平面模型可以被形式化为

L:Π×Ω→R,(u,v,x,y)→L(u,v,x,y)。此模型将光辐射作为几何光线处理,可以灵活地选择平面的位置和尺度,从而与实际成像系统建立密切的对应关系,简化了理论并促进了技术发展。现代光场理论和应用主要基于此四维参数模型。

图1  四维光场的双平面表示法示意图

2.2光场成像系统

光场成像系统是捕获四维光场信息的关键工具。目前,这些系统主要分为两大类:多透镜式和编码光圈式,目前大部分光场图像重建与增强基于多透镜式光场成像系统。根据不同的应用场景,多透镜式光场成像系统可以细分为三种类型:微型式、手持式和大规模相机阵列式,如图2所示。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值