浅谈如何基于深度方法进行三维重建

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心技术交流群

后台回复【ECCV2022】获取ECCV2022所有自动驾驶方向论文!

后台回复【领域综述】获取自动驾驶全栈近80篇综述论文!

后台回复【数据集下载】获取计算机视觉近30种数据集!

在过去的两个半月,我对于三维重建这个新领域进行了详细的学习。初学时候还是遇到了很多细节问题,比如怎么进行二维点到三维点的转换,怎么验证数据收集对不对,怎么做相机标定等等。经过一段时间的踩坑,慢慢感觉对三维视觉渐渐熟悉起来。这里通过写文章的形式,简单记录下这个过程中我看到的很有意义的三篇论文。

1. 三维重建简介

本文主要介绍如何做场的三维重建。主要解决的问题是,基于给定的场扫描数据,尝试进行进行有效的三维重建,重建得到的形体(如果可以的话,还有染色)达到较高的质量。这里一般会考虑收集以下数据,分别是相机拍摄视频、每一帧对应的姿态、以及相关帧的深度信息。

从这些需要的数据就可以看出来,三维重建任务和一般任务的区别:首先需要的是RGB图像,这个是最基本的要求;此外还需要相机的姿态信息(一般相机姿态仅包括外参。本文提到的相机姿态是相机投影矩阵,也就是相机的内部参数+外部参数。

这里不区分opencv、opengl坐标系下不同矩阵的名称及叫法),这可以帮助我们估计出来,图像中某个像素在三维的位置。最后是深度信息,可以具体的展示当前拍摄到的物体的深度值。全部加总在一起,就可以帮助我们重建出一个标准的物体出来。

2. 三维重建面临的挑战

三维重建算法的主要挑战在形体重建和染色上。一些相关的传统重建算法例如sfm (structure-from-motion), Kinectfusion, bundlefusion等,基于正确的相机姿态以及深度图,已经可以很好的重建出具有丰富纹理的白模场景,因而使用这些算法,对于可闭合区域或刚体的形体,一般可以取得较好的结果。

在色彩重建方面,基于类似深度图融合的rgb-fusion算法可以更进一步的建模场景的色彩信息。但是由于RGB-fusion是通过平滑点阵中的点来建模色彩的,使用了类似指数平滑的思想,因此重建出的色彩比较平均,色彩对比度不强,看起来很模糊,不太满足现实场景的要求。

目前来看,针对三维场景进行染色操作,还是具有相当程度的挑战性。最近的隐式神经表示网络(比如Nerf模型)在色彩建模上则拥有独特的优势,但是需要基于具体测试样例,单独进行训练。如果不做精调而直接使用,效果差强人意。

3. 三维重建经典算法

mobile3Drecon算法

这个算法是由商汤开发的,主要提出了一种可以进行端到端的三维重建的架构。传统的三维重建算法对高复杂度的室内模型效果不是很好,而且训练和测试阶段都需要深度信息支持,才能进行高质量的三维重建。但是用户一般是没有办法收集深度信息的,因而传统方案很难直接用于现实产品中。此外,使用的算子在移动端上并不被很好支持。这些问题对于AR商业化具有很大的影响。

因此,mobile3Drecon(以下简称mobilerecon)进行了一系列优化,希望仅凭输入视频流来实现准确的三维重建。为了获取拍摄场景的姿态,使用了手机自带的imu信息,基于自研的slam算法进行高质量的姿态估测(也可以考虑使用基于关键帧的visual-inertial SLAM系统,在安卓手机ARcore以及苹果手机ARkit有相关实现);为了获取深度信息,使用了深度图估测算法(多维SGM)进行深度估测;并进一步使用基于置信度的方法优化深度图,并使用深度学习网络(编解码结构)进行精调。

重建过程中,会实时收集较多的视频帧。每一帧都用来进行重建,未必会提升整体精度,反而会导致较高的延迟。因此,作者使用了key-frame selection的方法,基于针对性的挑选了若干帧用来做训练、评估,在保证准确度相近或更优的情况下,极大地减少了需要的视频帧,进一步优化了模型运行时间。

模型整体架构图如下(节选自mobilerecon)。

610c84f278a336524e88e41e3cde3344.png
mobilerecon结构图, 版权属于原作者

作者首先使用了IMU进行姿态测量,然后进行了key-frame selection。具体操作是,使用了不同时间戳下,基于baseline的分数来做判断。一般来说,我们不希望给定的输入是有断层(相邻两帧之间毫无关联)的,而希望相邻两帧的输入可以尽可能连续。为了鼓励选择的相邻关键帧对应的视野尽可能靠近,引入了相邻视域的轴夹角,以及相应的baseline共同来判断当前帧是否为合适的关键帧。

之后依次进行深度图估计以及实时三维重建,以获得可用的三维网格重建结果。优化阶段主要优化光学深度损失,来学得合理的深度图估计结果。由于依赖深度图,重建结果的好坏和深度图的估测质量息息相关。

Atlas算法

atlas这个算法是由magicleap这家公司提出的。基本而言,这个算法使用一组视频流+对应相机姿态作为输入,尝试使用输入的视频来直接对场景进行三维重建,并从中尽可能多的利用场景先验作为信息,帮助模型在减少已有参数的同时,进一步的提升模型的表现。相比于以往的深度图估测方法,Atlas对于数据的需求量少了一大截。

这篇论文主要受到MVS和深度图融合的启发,从MVS的角度,合理的深度计算对于整体模型精准建模的帮助很大。这里尝试把原图像投影到目标图像对应的深度平面上并进行匹配,并从中找到正确的深度平面。进一步的,作者使用卷积对原图进行了特征提取,使用了更为鲁棒的特征来进行相应匹配。

作者同时使用了tsdf融合来进行mesh建模。给定计算好的tsdf结果,尝试找到tsdf表面零点交织的位置,使用marching cube来进行提取顶点,之后便可以生成相关的三维mesh网格,经过三维卷积网络精调之后,便可以生成高质量的重建结果。但是进行tsdf融合的前提是,需要有相关的深度测量结果,这对于硬件要求比较高。比较幸运的是,作者使用的scannet数据集,里面提供了相应的图像、姿态、深度信息真值,仅用于训练阶段是可以满足相关要求的。

atlas基于这两点构建模型。首先使用了二维卷积网络对输入图像进行特征提取,之后把这些特征基于相机已知内参、外参反投影到三维空间。这里具体做法是,把每个像素按照光束照射方向映射到三维空间。这样做可以避免目标帧的选择,而且允许我们把整个帧序列融合到三维空间内;融合帧的方式是进行简单的加权。以此作为输入,我们使用三维卷积网络来学习这些特征,以直接预测TSDF在每个顶点位置的值。此外这个网络可以通过简单的追加一个分割头部,来实现三维场景的分割。

这里是atlas整体的框架图:

310538ed644d7f0b7bdbdc04181c5e08.png
Atlas结构图,版权属于原作者

整体来看,每张图片作为输入,会通过一个二维卷积网络,生成对应的三维向量。之后会对每个二维坐标点上的像素值,使用相机投影矩阵,由二维转换到三维空间。这里需要注意的是,所有沿着光照方向照射到的体素,都会被赋值相同的特征(也就是二维图像上点对应的特征)。这些特征会在整个视频序列上积聚,使用平滑的方式进行加权。下面公式介绍了如何进行voxel上特定位置体素的融合。与当前投影点出现的频率(也就是权重W),以及体素值(权重V)有关。

31c294cdc19cb2189ca252c8d6fd2e45.png

整个网络使用了类似encoder-decoder的结构来实现,最终输出分别使用了111的三维卷积来获取tsdf预测值以及相应的分割结果。

对于tsdf的预测,使用了l1 损失,并且对真值进行了log-transform,同时只计算真值对应位置。为了防止网络去学习墙体上的一些缺陷,额外的对整列全部为1的voxel进行了标注,并对这些位置也进行惩罚。这么做的原因是,如果voxel的整列都是1(没有被观测到)那么大概率这个voxel不在这个场景里面。为了加速训练,作者提前计算了tsdf真值并且进行相应的存储,以实现加速目的。

Neuralrecon

Neuralrecon是商汤提出的算法,延续了Atlas算法的核心思想。更进一步的,Neuralrecon尝试使用基于多尺度的方式进行tsdf值预测,来实现更高质量的重建精度。此外考虑到传统三维卷积占用显存大的问题,引入了三维稀疏卷积的方式来进一步提升算子效率,使用了更低的内存占用换取了更高质量的场景重建。此外,作者引入了三维GRU模块,来取代传统的tsdf融合方法,尝试使用可以自学习的GRU模块,让模型的学习更具有选择性。

下图是Neuralrecon的结构:

07e7ece0405deda89015b8f7796c910b.png

Neuralrecon使用了实时渲染的思路,整体会以一个大的Tsdf体素来存储。整体框架的输入是通过视频采集的,帧数比较多,全部使用的话,效率比较低,这里有和mobilerecon一样的问题。因此,每次对于给定的输入图像,并不会每一帧都会使用,而是通过选择其中的关键帧,只使用这些比较有代表性的帧来做渲染。

具体来说,会按照相对平移距离t_max以及相对旋转角度R_max挑选合适的帧。之后会基于N_view(默认值9)个关键帧,计算相应的bounding volume。这里bounding volume作用是去使用一个体素,围住所有的关键帧,并计算出对应的视域。计算时只考虑固定深度下的bounding volume,如果某点的深度过深则不予考虑。

由于是实时渲染,会需要使用当前帧进行三维重建,重建结果会和全局重建融合,因此会有局部(local)坐标与全局坐标的区别。全局坐标基于整个大的tsdf体素来观察每一个点,而一个大的体素可以进一步划分为多个小的voxel, 而局部坐标则是基于当前的voxel去计算当前坐标的。因此,在计算局部重建结果后,与全局结果融合的时候,需要进行坐标转化。总的voxel数量乘以每个voxel的尺度,就是大的体素的尺度。

在重建过程中,会由粗到细,进行三个阶段的精细化训练。训练过程中,每个voxel会预测两个参数,分别为occ score和sdf值。occ score代表了当前voxel处于TSDF截断距离内的置信度,如果未能达到一定阈值,则会判定这个voxel里是空的。此外,Neuralrecon没有使用单视图下预测对应深度图的方式(mobilerecon)来建模,而是采用了直接预测局部坐标下的物体表面值的方式来建模。这样子学得的物体表面会更加平滑,而且在尺度上更加一致。

为了能够使得前后学习到fragments更加一致,作者尝试引入了三维GRU模块。输入特征会先通过三维卷积,进行特征提取,之后把学到的特征和全局隐层特征进行融合,生成更新的隐层特征,用它来预测tsdf值。同时,生成的新的隐层特征会基于voxel,更新掉原来隐层特征的对应位置,以更好的存储全局隐层特征。

这里GRU模块代表了,有多少之前重建的信息被融合到了当前卷积提取的特征上,以及当前卷积提取的特征中,有多少会被融合到隐层特征内,因此,也可以把GRU模块视为一个选择性的注意力机制。下图是进行GRU模块计算的详细公式。图中的SparseConv指的是稀疏卷积,具体实现方式是通过torchsparse实现的。

c1087bb10662b98baa43cdef5ceb8c00.png

训练过程中,需要同时训练occ score以及tsdf预测值。这里使用BCE损失(binary cross-entropy)来训练occ score(置信度处于0-1之间)以及SDF损失来训练sdf预测值。这里的SDF损失和atlas一样,都是使用了l1损失,直接优化预测得到的sdf值以及提前计算好的sdf真值之间的差值,来实现合理的SDF值训练。

4. 结语

本文总结了三种三维重建相关的论文,简单介绍了训练阶段基于深度信息,测试阶段仅需视频就可支持可泛化三维重建的优秀算法。需要注意的是,最近两年隐式神经表达网络在三维重建中起了越来越重要的作用,其中以Nerf为代表的模型,越来越多的出现在顶会论文中。然而,目前已有的Nerf方法无法很好实现场景预测的泛化,仍旧需要精调之后才能得到满意的效果,因此本文没有涉及到相关的论文。如何能够使用nerf模型进行高质量的场三维重建,以及可泛化的场景纹理、色彩学习,是一个非常值得期待的方向,之后也会对相关方向多花时间学习。

参考

  1. Sun, J., Xie, Y., Chen, L., Zhou, X., and Bao, H., “NeuralRecon: Real-Time Coherent 3D Reconstruction from Monocular Video”, arXiv e-prints, 2021.

  2. Murez, Z., van As, T., Bartolozzi, J., Sinha, A., Badrinarayanan, V., and Rabinovich, A., “Atlas: End-to-End 3D Scene Reconstruction from Posed Images”, arXiv e-prints, 2020.

  3. X. Yang, et al.,"Mobile3DRecon: Real-time Monocular 3D Reconstruction on a Mobile Phone" in IEEE Transactions on Visualization & Computer Graphics, vol. 26, no. 12, pp. 3446-3456, 2020.

  4. Angela Dai, Matthias Nießner, Michael Zollhöfer, Shahram Izadi, and Christian Theobalt. 2017. BundleFusion: Real-Time Globally Consistent 3D Reconstruction Using On-the-Fly Surface Reintegration. ACM Trans. Graph. 36, 3, Article 24 (June 2017), 18 pages. https://doi.org/10.1145/3054739

  5. Park, J. J., Florence, P., Straub, J., Newcombe, R., and Lovegrove, S., “DeepSDF: Learning Continuous Signed Distance Functions for Shape Representation”, arXiv e-prints, 2019.

  6. R. A. Newcombe et al., "KinectFusion: Real-time dense surface mapping and tracking," 2011 10th IEEE International Symposium on Mixed and Augmented Reality, 2011, pp. 127-136, doi: 10.1109/ISMAR.2011.6092378.


自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D感知、多传感器融合、SLAM、高精地图、规划控制、AI模型部署落地等方向;

加入我们:自动驾驶之心技术交流群汇总!

自动驾驶之心【知识星球】

想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D感知、多传感器融合、目标跟踪)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球(三天内无条件退款),日常分享论文+代码,这里汇聚行业和学术界大佬,前沿技术方向尽在掌握中,期待交流!

57d37e0981da23d938a0594962e44122.jpeg

  • 2
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值