【探讨】光场相机三维重建研究进展与展望

本文链接：https://blog.csdn.net/VOMMA/article/details/137053541

摘要：光场相机利用二维影像同时记录空间中光线的位置和方向信息，能够恢复相机内部的光场，为三维重建提供了新的解决思路。围绕光场相机的三维重建问题，本文综述了光场数据获取手段，梳理和讨论了针对光场相机的标定算法，总结和分析了基于光场影像的三维深度信息恢复方法。在此基础上，介绍了当前主要的公开光场数据和算法。最后，展望了未来的研究方向，以期为后续研究者提供参考。

关键词：光场相机；三维重建；光场采集；相机标定；深度估计；公开光场资源

1 引言

三维重建一直是摄影测量和计算机视觉的一个基本且重要的问题［1，2］。相比于二维图像，三维模型包含了更加丰富的几何、形状和结构信息，为场景理解与交互提供了更多可能。具体地，三维重建技术是让计算机感知周围的三维环境结构、物体的形状以及物体之间的相对位置等。随着传感器技术的飞速发展，三维重建数据呈现爆炸式增长，三维重建技术也开始更多地走进人们日常生活的方方面面，如自动驾驶［3］、虚拟现实［4］、增强现实［5］、机器人［6］、文物保护［7］、人脸识别［8］和医疗健康［9］等。

目前，研究人员在三维重建领域已经进行了诸多研究。根据所用传感器的不同，主要可分为基于传统影像的三维重建、基于激光点云的三维重建以及基于RGB-D相机的三维重建。基于传统影像和激光点云的三维重建在理论和实践中都相对成熟，比如基于传统影像的PTAM（ParallelTrackingAndMapping）［10］、Mono⁃SLAM［11］、ORB-SLAM［12］、ORB-SLAM2［13］和ORB-SLAM3［14］，以及基于激光点云的Cartographer［15］、LOAM（LidarOdometryAndMapping）［16］、Lio-mapping［17］、hdl_graph_slam［18］、Fast-lio［19］和SuMa++［20］等。基于RGB-D相机的三维重建虽然起步稍晚，但也取得许多优秀的成果，比如DVO［21］、KinectFusion［22］、ElasticFu⁃ sion［23］和BundleFusion［24］、RobustFusion［25］等。尽管这些传感器在室内三维重建中得到越来越广泛的应用，但仍存在一些局限。基于激光点云的三维重建虽然重建精度较高，但是重建出来的三维模型没有纹理信息。单目传感器捕捉真实世界的二维影像，要实现三维重建必须对场景进行多次拍摄构建立体，但由于无法恢复场景的真实尺度，因此得到的只是相对尺度的三维模型。大多数的RGB-D相机在自然光环境下表现较差，而且量程有限，随着量程的增加，精度会大幅度降低。

近年来，光场相机取得了较大的发展，已经可以做到与传统工业相机差不多的大小，甚至直接集成入手机［26~30］。与传统相机相比，光场相机不仅捕获空间点所有方向光线的累积强度，而且记录了到达某一空间点各个方向光线的强度大小，因此通过一次拍摄获取到多个视角的信息。利用这些多视角信息，可以进行影像重聚焦、增大影像的景深以及评估场景的深度，且不易受外界环境的影响，为三维重建提供了新的可靠数据源。图1（a）给出了单张光场影像的深度估计结果［31］，图1（b）则给出了利用多次拍摄光场影像恢复的包含绝对尺度的大场景半稠密三维模型［32］。

图1光场三维重建示例

高精度的光场相机三维重建不仅促进了传统三维技术的发展，而且推动了与光场相关领域技术的进步，比如光场超分重建［33，34］、光场显著性检测［35］、光场分割［36］、光场分类与识别［37］和光场拼接［38］等。然而，由于光场相机的内部结构以及光场数据本身的特殊性，基于光场相机的三维重建依然存在较多问题［39，40］。首先，光场相机的内部结构完全不同于传统相机，导致其投影模型和相机畸变模型有别于传统相机。其次，因为光场相机同时捕捉了空间中光线的方向和位置，所以一个空间点会在原始光场数据中成像多次，给光场相机的标定带来了难度。最后，单次拍摄的光场数据，多视角的子孔径图像间的基线较短，传统的多视匹配算法应用于单次拍摄光场数据时效果较差。

针对以上问题，国内外在光场技术方面已经有了较多研究，本文对目前与光场三维重建相关的研究现状和算法，进行了梳理和总结，以期为后续研究人员提供参考和帮助。

2 光场的定义及采集

2.1光场的概念及二平面表示

光场的概念最早是由Gershun于1936年提出［41］，它描述了空间中任意一点在任意方向光线的辐射亮度。为了描述光场，Adelson和Bergaen于1991年提出了全光函数［42］。全光函数包含了光线在空间中的所有基本特性，共7个维度：光线穿过某一点的坐标(Vx，Vy，Vz)、光线的方向(θ,φ)、光线的波长λ和到达某一点的时间t，可以被定义为

P(Vx，Vy，Vz，θ,φ,λ,t)（1）

在大多数情况下，处理图像时并不关心获取影像时的绝对时间t。而且，单色传感器仅捕捉在一个较小的波段范围内的光线。在这种情况下，光线独立于波长λ,因此式（1）中的七维函数可以减少为五维P(Vx，Vy，Vz，θ,φ)。对于RGB彩色传感器，可以把3个波段认为是3个分开的全光函数。

全光函数将光场描述为在空间和时间上连续的函数，但是捕获到的光场仅是整个光场中固定在光线传感器所在区域的部分。虽然有多种方式可以用来表示采集到的光场数据，但其中最简单也最常用的方法是二平面法（TwoPlaneParameterization，TPP）［43］。一方面是因为概念上的简单，另一个更重要的原因是它与目前大多数的光场采集设备具有很好的兼容性［44］。光场采集设备的主镜头和传感器是平行的平面，而且图像传感器上的像素是规则排列的，更容易利用TPP表示光场。图2给出了TPP的示意图。假设四维光场中一条光线同时穿过2个平行的平面Ω和Π,并且与两平面的交叉点分别为(u，v)=Ω和(s，t)=Π,则光场L可表示为

L(u，v，s，t) （2）

利用光线与2个平行平面的交点可以定义所有光线。图2中L1、L2和L3是从三维空间中一点O(Vx，Vy，Vz)出的三条光线。假如反射是朗伯体反射，因为是从同一点射出，则L1、L2和L3的亮度值相等。

图2光场的二平面表示

2.2光场的采集

传统相机通过叠加各个方向到达同一像素的光线，获得物方点在传感器平面上的二维投影。光场获取设备或方法量测每条光线的位置和方向信息，避免了不同方向光线的积分叠加，从而捕获了每条光线的信息并恢复了设备内的光场。根据构造的不同，当前的光场获取设备主要分为4类：多传感器捕获［29，45~49］、时序捕获［50~52］、基于掩模［53，54］和基于微透镜阵列（Micro-LensArray，MLA）［26，38，55~58］的光场相机。图3给出了几种不同类型光场相机的示意图。表1给出了当前的主要光场获取方法。

多传感器光场相机利用分布在平面或球面上的相机阵列同时捕获来自不同视角的光场信息，相机的位置和拍摄的影像分别对应于TPP中的(u，v)和(s，t)。Yang等［45］于2002年利用8×8的视频相机捕捉了动态的光场。同年，斯坦福大学的Wilburn等［46］利用6个CMOS图像传感器来同步记录视频数据获得光场。随后，Wil⁃burn等［47］构建了如图3（a）所示的相机阵列来捕捉光场。Zhang和Chen［48］利用6×8的相机阵列来记录光场，以合成虚拟视角影像，同时通过改变相机位置获得了更好的效果。这些多传感器光场相机体积巨大，为此，Venkataraman等［29］设计了一个微型的光场相机PiCam。PiCam包含4×4的相机阵列，每个相机可以捕捉1000×750像素的影像，而且整个相机机身很小，可以集成到手机。Lin等［49］设计了包含5×5相机阵列的光场显微镜，专门用于微小场景的拍摄。