【论文分享】Mobile3DScanner: An Online 3D Scanner for High-quality Object Reconstruction(2021 IEEE)

Mobile3DScanner: An Online 3D Scanner for High-quality Object Reconstruction(2021 IEEE)

作者:

Xiaojun Xiang [1] --商汤科技
姜翰青[2]–现任商汤科技研究副总监、商汤科技移动智能事业群3D视觉与增强现实部三维重建组负责人、浙江省人工智能学会增强现实分会秘书长、中国图象图形学学会三维视觉专委会委员
章国锋[3]—浙大SLAM、AR届大佬,浙江大学计算机辅助设计与图形学国家重点实验室。

一.引言

主要功能:移动端嵌入式设备在线三维重建,并对大尺寸物体有很强的适应性。由于嵌入式平台的计算与内存资源限制,传统系统只能扫描小尺寸的物体,文章中提出的系统可对大尺寸物体进行三维重建。
适用设备:配备RGBD相机的嵌入式设备。
摘要:
1.提出了一种新的视觉惯性ICP方法来实现前端每个传入帧的实时6自由度位姿精确跟踪,同时在后端保持一个关键帧池,其中关键帧姿态通过局部BA进行优化。同时,通过优化位姿将关键帧深度贴图实时融合到TSDF模型中;
2.提出了一种新的自适应体素大小调整策略来解决移动平台上大尺寸TSDF融合内存不足问题。在后处理过程中,对关键帧位姿进行全局优化,并对关键帧深度贴图进行优化和融合,以获得具有更精确几何体的最终对象模型。
现有方法:
1.结构光三维重建方法:
仅适用于近距离、小场景的室内三维重建。需要结构光发射器,成本高。
2.消费级深度相机+PC机
在线三维重建对计算机性能要求高。
3.单目+slam
点云稀疏,无法重建高质量的3D模型。
主要创新点:

  1. 提出了一种新的视觉惯性姿态跟踪方法,用于实时三维重建目标。本文将迭代最近点(ICP)跟踪与IMU(松耦合)、局部映射和环路闭合相结合,用于移动设备的精确实时目标跟踪。
  2. 本文提出了一种自适应TSDF体素大小调整策略,用于在移动设备上实时扫描大型对象。在线TSDF融合过程中,每当太多体素超过内存限制时,就会动态调整体素大小,以确保在移动平台上无需内存不足的情况下成功扫描大型对象
  3. 对于移动设备上的嵌入式RGBD传感器通常存在深度误差或过度平滑问题,本文通过多视图立体(MVS)从嵌入式传感器中细化深度,以提供更精确的对象深度,从而更好地生成网格。本文将传感器深度作为先验信息纳入多视图半全局匹配(SGM)方法,以获得更精确的深度和更好的几何细节
  4. 在移动设备上提出了一种高效的shape-from-shading(SFS)方法,该方法具有很高的时间效率,可以进一步在线改善对象模型的几何细节。

二.Related works

现有的实时静态目标重建方法一般可分为两类:基于RGBD摄像机的三维扫描和基于图像的多视图重建。
2.1 RGBD 相机 + PC机
RGBD相机在估计深度的同时,使用ICP算法估计相对位姿,如Kinect、Realsense,融合多视角深度信息至TSDF模型中。
KinectFusion: 由于TSDF体素的巨大计算和存储成本;另外在重建较大物体时不断累积的误差会造成“飘移”现象。以上两点原因使得Kinectfusion无法重建大型物体。
BundleFusion:该方法提出一个并行化的优化框架,充分利用了基于稀疏特征以及稠密几何和光度匹配提取的对应关系,实时地估计了BA优化的姿态,并具有从追踪失败中恢复(即重定位)的鲁棒追踪能力。
InfiniTAM:InfiniTAM能够比KinectFusion重建更加大范围的3D环境,其关键因素在于InfiniTAM采用了哈希表的方式来存储隐式的体积表示,极大地节省了内存空间的消耗。
还有一些手持式交互建模设备通过输入关键帧和提取手部运动实现三维重建,但只能针对小型物体。
2.2 RGBD+嵌入式移动设备
MonoFusion提出了一种使用单个网络摄像机进行实时密集重建的方法,MobileFusion提出了一种使用单目摄像机的移动设备上的实时3D对象扫描工具。这两项工作执行基于体积的TSDF融合,无需体素散列,因此只能重建小对象。
对于大场景物体,大多数多视图重建系统无法做到RGBD相机的扫描方法那样重建如此精确的三维对象模型。
2.3 RGBD 点云配准
RGBD配准对于实现精确的SLAM或在线三维重建至关重要。为了提高移动设备上的跟踪稳定性,一些工作将ICP注册与IMU相结合。然而目前的动态对象重建系统通常需要高性能的计算硬件进行在线重建,并且由于复杂的非刚性配准和融合计算,难以重建出高精度的大型对象。

三.系统概述

如果用户希望通过本文的系统扫描自然对象,则该对象应放在水平平面上,如桌子或地面。当用户通过带有后部RGBD摄像头的移动设备扫描对象时,本文的pipeline使用视觉惯性ICP(VI-ICP)方法实时跟踪对象的6自由度位姿,该方法结合IMU和RGBD信息来跟踪前端的6自由度位姿,同时保持后端的关键帧池,使用本地BA模块和循环闭合模块来细化关键帧。通过时空平面跟踪方法在每个关键帧中一致分割对象。同时,使用自适应体素大小调整策略,通过估计的位姿将传入深度融合到TSDF模型以进行实时预览。
当用户完成扫描时,激活对象模型后处理模块以获得最终对象模型。在此后处理中,关键帧位姿在全局BA模块中进行优化,每个关键帧的对象深度由SGM进行优化。优化的关键帧深度通过全局优化的位姿融合到最终的TSDF模型中,然后通过Marching Cubes、Poisson曲面重建和shape-from-shading(SFS)获得最终的3D网格。最后,使用多视图图像映射3D网格模型,以获得最终纹理映射的3D对象模型,如图1所示。在下面的章节中,本文将详细描述管道的主要步骤。

四.实时物体扫描重建

在这里插入图片描述

4.1 视觉惯导位姿追踪

对于每个传入的RGBD帧,本文的系统通过前端实时跟踪线程中ICP和IMU的松耦合定位相机,该线程通过IMU估计预测先验姿势,并将其集成到ICP跟踪中。同时,本文在局部映射线程中优化关键帧的滑动窗口,并在后端的另一个线程中执行循环闭合,以进一步优化跟踪的位姿。
本文按照[32]中的方法进行基于滑动窗口的IMU状态优化,该优化使能量函数最小化,该函数包含[6]中提出的IMU预积分残差、ICP的相对姿态以及与[32]相同的先验约束。本文使用Ceres解算器[34]进行能量最小化,以获得更可靠的IMU状态进行姿势预测。

4.1.1 IMU Estimation

为了获得当前帧的可靠姿势预测,应首先使用前两帧的ICP跟踪结果初始化IMU状态,使用ICP结果初始化6自由度部分,假设匀速运动计算速度,并使用madgwick滤波器计算重力。初始化后,IMU模块可以基于当前帧和上一帧之间的惯性数据提供当前姿势预测。预测的姿态先验将集成到本文的ICP中,以增强当前帧的跟踪鲁棒性,其细节将在第4.1.2给出.然后将ICP跟踪的当前帧姿态作为进一步IMU优化的约束条件,将当前帧的优化IMU状态用于下一帧的姿态预测,形成松耦合的迭代优化。
按照[32]中的方法进行基于滑动窗口的IMU状态优化,

4.1.2 视觉惯导-ICP追踪 (VI-ICP)

以第一帧作为世界坐标系,ICP估计当前帧相对上一帧的位姿,原始ICP算法测量当前帧和参考帧之间的颜色和深度差异,如下式所示:
在这里插入图片描述

ξ–represents the 6DoF pose of the current frame to be esti-mated by ICP
exp(ˆξ)—李代数
Nr------is the set of pixels with valid depths inside the object region of frame
Mr--------from global 3D space to local camera space
在这里插入图片描述

但是ICP也存在固有缺陷,ICP跟踪对深度误差或过度平滑非常敏感,球形和圆柱形等对称结构也会影响跟踪鲁棒性。
IMU传感器能够提供当前帧t的位姿矩阵 ,受到IMU初始化及位姿优化的影响,往往并不准确。但IMU提供的旋转估计与重力方向估计往往是准确的,将IMU估计的旋转部分与重力部分加入ICP位姿优化项:
(位姿是针对世界坐标系,等式1代表将世界坐标系P点逆向旋转IMU估计Rt,然后再正向旋转ICP估计的w;等式2代表上一帧重力方向反向旋转Rr再正向旋转w与当前重力方向的差值)

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

将上述加入ICP能量函数,设置相应权重,这样ICP是由 深度误差、颜色偏差、重力偏差、旋转角偏差共同作用。其中:
在这里插入图片描述

采用高斯牛顿法进行优化,采用从粗到精的多级金字塔方案进行加速。在本文的实验中,本文使用3个级别,每个级别15次迭代,每个迭代通过多线程并行进一步加速,以确保在移动平台上的实时性。
ICP追踪完成后,基于参考帧Ft ,向当前帧Fr投影所有具有有效深度的像素,以评估ICP配准效果。深度差在7mm以内、色差在30以内的像素被视为内点。若外点比率超过0.4,则跟踪失败;若ICP连续5次追踪丢失,则触发全局重定位模块,对于每个成功追踪的帧,检查参考帧Ft 与当前帧Fr相似性。
若Mt与Mr视角之间的距离超过3cm、视角偏差超过1.5°,则更新参考帧,将当前帧作为参考帧。

4.1.3 局部映射与闭环检测

Local mapping
每一帧都有属于自己的localmapping,对于当前帧Ft,找到参考帧Fr匹配的特征点p,恢复到世界点P,找包含世界点P的所有帧集合IMG,找IMG中所有的特征点 构成当前帧的localmapping point。
参考帧:追踪过程中,计算相对位姿参考的帧
关键帧:参考帧的一个子集,主要负责local mapping、纹理映射,包含整个场景。
虽然本文的VI-ICP可以提高跟踪精度,但在长距离扫描大目标时,仍然会积累跟踪误差,这将明显影响融合后的三维模型。因此,需要一个局部映射模块来通过局部姿势优化进一步减少累积误差,在后端使用一个用于全局姿势优化的闭环模块。
后端维护一个候选关键帧缓冲(candidate keyframe buffer,历史参考帧),以及关键帧池(keyframe pool,关键帧以及对应位姿和3D贴图点集),当参考帧被新的替代,旧的关键帧作为局部映射的候选关键帧,并插入到候选关键帧缓冲区。然后局部映射线程被激活,在不超过6个关键帧的滑动窗口内优化关键帧位姿。持续的从candidate keyframe buffer中弹出front candidate,与滑动窗口中的6幅关键帧比较,根据位姿确定的阈值确定是否为候选关键帧,入宫确定为关键帧,做local BA。
LocalBA,改进了ORB_SLAM2,引入深度约束。
本文的能量函数包含一个重投影误差项Ex和一个逆深度先验项Ed,定义如下:
在这里插入图片描述

同时,采用ORB-SLAM2[21]的方法对循环闭合线程进行循环检测和闭合。

4.1.4 360度全局扫描

系统通过允许用户暂停扫描、放下对象并继续扫描其底部,支持360度重建可移动对象。通过采用类似于[44]的暂停和重启策略继续跟踪。本文通过使用DBoW2在关键帧池中查找最相似的关键帧来重新定位当前帧。SVD分解用于通过ORB特征匹配和深度反投影获得的3D-3D对应初始化当前6自由度姿势,然后进行基于ICP的姿势细化。如果ICP有足够的内点,本文认为重新定位成功,并允许用户继续扫描正常。当前帧将作为新的关键帧插入到滑动窗口和关键帧池中,并将新的特征对应关系连接到其他关键帧,以用于进一步的局部BA。
在这里插入图片描述

4.2 前景分割

在这里插入图片描述

需要将扫描物体放在水平平面上。
如第4.1节所述。跟踪和局部映射都聚焦于目标区域,加快跟踪速度,减少深度标定误差对跟踪精度的影响。因此,需要在移动平台上实时运行时间一致的对象分割与跟踪。本文使用三维平面跟踪方案对目标进行时间一致的分割。
对于第一帧,基于点云法线拟合平面,执行了基于RANSAC的平面拟合算法,该算法迭代选择法线与重力一致的点作为种子,以拟合垂直于重力的候选水平面,并收集一组到候选平面距离小于1cm的内点。在整个RANSAC过程中,本文只求解与重力方向相反的平面高度变量。
维护一个全局的平面方程
通过去除平面的内部像素、平面下具有3D位置的像素以及深度无效或遥远的像素,然后进行形态学开放操作和最大连通分量提取,分割出目标区域。本文认为深度超过3m的深度太远了。
对于每个新的传入帧,全局平面以其跟踪的6自由度姿势投影到其上一帧的局部摄影机空间,以获得重力方向相反的平面高度,该高度用作当前帧的RANSAC平面拟合的先验约束。本文限制选择距离投影平面高度不超过5cm的距离,以便RANSAC拟合的当前平面高度与全局平面一致。以与第一帧相同的方式分割对象区域,从而确保时间一致性。跟踪当前帧姿态后,考虑到前端累积的跟踪误差导致全局平面略有变化,将局部相机空间中的拟合平面高度转换为全局3D空间,以更新全局平面方程。本文的对象分割在iPad Pro上实时执行,以跟上姿势跟踪的频率。图4显示了具有令人满意的时间一致性的两个连续帧的对象分割结果。分割的对象区域也可用于TSDF融合和深度细化阶段,以确保仅细化和融合对象深度以形成最终的3D模型。

4.3 TSDF Fusion with Adaptive Voxel Resizing

在这里插入图片描述

自适应体素大小调整案例“Worker”:(a)在体素大小调整之前从TSDF体积提取的网格。(b) 触发体素大小调整后的体积网格。(c) 融合所有关键帧后最终TSDF体积的网格。其中(a)中的4mm TSDF体素大小调整为(b)中的6mm。
在执行视觉惯性跟踪和对象分割时,每个关键帧对象区域内的深度通过其跟踪的6自由度姿势融合到后端另一个融合线程中的全局TSDF模型中。同时,通过前端的查看姿势对融合的TSDF体积进行光线投射,以对当前重建模型进行基于法线着色器的实时渲染,从而允许用户预览扫描对象的哪些部分。
TSDF融合是一种用于整合距离图像的体积方法,以确保增量更新、方向不确定性表示、重建间隙填充以及存在异常值时的鲁棒性,并在文献[3,24]中证明了其有效性。然而,其巨大的内存消耗阻碍了其在大对象重建中的进一步应用。虽然voxel hashing [26]在某种程度上突破了TSDF融合的记忆限制,但在体积占用率逐渐增加的移动设备上扫描和融合大型对象时,仍然会出现内存占用率不断增加。在移动平台上,较大的体素大小可以用较少的体素数量和较少的内存成本来表示对象,但会严重影响物体重建的质量。此外,在扫描之前,本文不知道对象比例的最佳体素大小,以平衡内存限制和重建精度。为了更好地克服这个问题,本文提出了一种自适应体素大小调整策略,使用户能够使用内存有限的移动设备以自适应体素分辨率扫描尽可能大的对象。
本文的TSDF融合遵循[48]中采用的voxel hashing策略。而不是为整个体积分配体素,本文只分配真正被深度贴图融合占据的体素。为了进一步加快体素分配和散列,本文使用sub-volume hashing来表示TSDF,每个sub-volume hashing包含16×16×16 voxels,当由深度融合创建或更新体素时,sub-volume hashing也将被更新,初始体素大小设为6mm。对于深度图上一点x,将其反向投影到三维P点, Each voxel V inside the sub-volumes occupied by the truncation band [−τ,τ] of P is created or updated as follows:
在这里插入图片描述

在这里插入图片描述

在移动设备上,TSDF的内存使用应保持在上限M以下,本文在iPad Pro平台上设置为200MB用于扫描预览。在时间t处进行关键帧深度贴图融合后,当内存开销超过此限制时,通过重新创建新的TSDF sub-volumn大小(δ′=1.5δ)的对象,从而触发体素大小调整,进而减少内存的开销。本文根据新的体素大小分配新的子体积。每个新的子体积应完全包含至少一个旧体素。对于新创建的体素V′,其新的TSDF值通过旧体素的三线性插值计算,如下所示:
在这里插入图片描述

其中N(V’)是V’的8个最近相邻的旧体素。新的权重Wt(V’)可以用与等式(6)相同的插值方法计算。实际上,只要达到内存限制,体素大小调整就会反复触发,
操作系统GPU加速了TSDF融合和体素大小调整。对于案例“Worker”,TSDF融合需要5.5ms/per_keyframe和体素大小调整需要65ms。在iPad Pro上平均每次51毫秒。融合的TSDF体积通过光线投射到当前视图,以便用户实时看到扫描表面,方法与[24]相同。

五.模型后处理

在这个后处理阶段,由于后端有一个关键帧池,其中包含所有关键帧及其对应的3D映射点,本文可以使用这些关键帧进一步优化对象模型的几何精度,并对优化后的模型进行纹理映射,最终创建高质量的纹理三维模型。本文将在关键细节中描述本文的对象模型后处理。
在这里插入图片描述
在这里插入图片描述

5.1 Global Optimization of Keyframe Poses and Depths

本文的全局BA使用与局部BA相同的能量函数,关键帧池中的所有关键帧和贴图点参与全局优化。请注意,第一帧在优化过程中是固定的,以保持世界坐标不变。图6显示了全局BA对案例“Worker”的有效性,轻微的姿势配准漂移彻底减小,以提高跟踪和几何融合的精度。

尽管全局BA有助于减少对象姿势对齐误差,但直接使用优化姿势和输入深度进行三维模型融合不足以实现高质量重建,因为消费者RGBD相机(如iPad Pro上的dToF)的输入深度可能存在深度误差或过度平滑,丢失了几何细节,如图7(b)所示。为了解决这个问题,本文建议通过MVS为所有关键帧估计更精确的深度,因为本文有全局优化姿势的多视图关键帧。对于每个关键帧,本文建议使用SGM方法改进dToF传感器的深度测量,该方法广泛用于双目深度估计和MVS问题,如[9,45]。
下面讲如何结合dToF与MVS进行三维重建,类似于双目的立体匹配
本文改进了[45]中的多视图SGM方法,将dToF深度优先权纳入成本汇总,以利用MVS和dToF的互补优势,根据本文的观察,MVS深度更精确,但在无纹理区域有噪声,而dToF深度更完整,但细节缺失。假设深度测量范围为dmin与dmax,可从dToF传感器预定义的有效深度范围中获取。本文将深度空间均匀采样到L个级别,第l个采样深度可计算如下:(将深度映射到L个level)
在这里插入图片描述

在这里插入图片描述

本文采用Census变换作为特征描述符来计算面片相似性代价。同时,考虑到dToF深度测量具有更高的完备性,本文将这些深度作为优先级来计算多帧代价融合的权重。因此,本文的匹配成本确定如下:
在这里插入图片描述

只关心目标区域,即重建对象。C(x,dl)为双目立体匹配中的Cost Volumn。WHL(dl∈L),最终深度标签x(l)由赢家通吃策略给出,以选择成本量中成本最低的深度级别l’。然后利用亚像素线性插值方法对深度l’进行差值。

5.2 Mesh Generation with Detail Enhancement

在这里插入图片描述

通过优化关键帧姿势和深度,执行最终TSDF融合,以获得比扫描阶段的实时预览更好的几何精度。在扫描和全局位姿优化结束后内存压力大大减轻,因此此网格生成阶段采用了更大的内存限制ˆMp=400MB。考虑到预览TSDF体积的内存使用情况,估计最终TSDF体积的适当体素大小
δp =在这里插入图片描述
,δsand Ms分别表示结束时预览TSDF体积的体素大小和内存开销。
对于底面的重建(PSR),由TSDF体积生成的三角形网格通常是不完整的,因为具有自遮挡的对象的某些局部部分很难被完全扫描。如果无法放置固定物体进行底部扫描,则底部表面明显缺失。因此,PSR[13]被用于处理不完整性,其能力是从具有法线的网格顶点集中拟合水密曲面。对于不可移动的大对象,本文的算法通过在三维平面上添加密集点样本,以反向平面法线作为样本法线,为其重建假定的底面。这些附加采样点与网格顶点结合作为PSR的输入,以获得对象的完整3D网格。
模型细节的增强,采用SFS方法。在TSDF融合和PSR后,本文使用SFS方法从着色线索中改进几何细节。虽然SFS有助于细节恢复,但对于mobileplatform来说,大多数现有的实现远不可行。例如,Intrinsic3D[19]在金字塔层次上精细地细化了数据流程,从而导致计算和内存呈指数级增长。相反,本文提出了一种高效的SFS实现,用于移动平台上的细节增强。
大多数SFS工作是在深度贴图[43]或TSDF体积[19,50]上执行的,这需要额外的计算成本来提取优化的三角形网格。为了在移动设备上提高时间效率,本文通过优化中间三角形法线贴图,然后根据法线贴图的优化更新顶点位置,直接在网格上执行SFS。优化框架与[50]类似,主要区别在于本文优化了三角形法线而不是TSDF。本文基于SFS的细节增强迭代优化人脸法线、人脸反照率和SH系数,以使估计亮度更接近观察到的辐照度。每个网格三角形f的能量函数定义为:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Eg(f) 是亮度B(f)和辐照度I(f)之间的梯度残差。Es(f)表示法向稳定程度,使导出的法线n(f)更接近输入,Er(f) 是平滑导出法线的法线正则化器,Ea(f) 反照率正则化器有助于避免纹理复制问题。这里,N(f)是f的相邻三角形, C(f)表示色度
本文遵循[19,50]中采用的从粗到细的金字塔优化策略,通过循环细分对网格三角形进行上采样。优化框架包含三个层次的金字塔。在第一级,估计照明系数,然后两次优化反照率和法线。在接下来的两个级别中,本文将对网格三角形进行上采样,更新细分网格上的照明系数,并优化一次反照率和法线。本文没有使用传统的高斯-牛顿法,而是将BFGS[16]用于能量优化,即采用线搜索策略的加权拟牛顿法。对于每次优化,30次迭代足以在移动设备上显著减少时间的情况下获得令人满意的结果。此外,只有25%的等式(9)中能量最大的三角形被上采样用于下一级优化,因此参与优化的三角形数量可以得到很好的控制,这对于移动平台的时间效率至关重要。优化后,本文使用[47]中提出的有效方法更新顶点位置。效果如图8所示。

5.3 Multi-view Texture Mapping

在这里插入图片描述

本文可以使用具有优化姿势的所有关键帧的彩色图像对SFS细化的3D模型执行纹理映射。本文遵循[41]中的方法在移动设备上执行多视图纹理映射,并在时间效率方面进行了一些改进。
本文为纹理映射选择一组具有代表性的关键帧,以加快数据计算时间和graph-cuts optimization步骤。基于扫描对象的前提条件,本文可以根据极轴角度的视图方向对所有关键帧进行分类。视角划分:本文定义Φ×θ=6×12个方向单元,其中Φ是仰角的单元数,θ是方位角,将整个3D空间划分为72份。每个关键帧根据其极轴角度分类到相应的bin中。对所有关键帧进行分类后,将从每个bin中选择一个代表性关键帧,在可见公共区域中具有与bin中其他关键帧最相似的颜色,并且所有代表性关键帧构成候选纹理帧集。通过这种方式,本文最多有72个候选帧用于纹理映射,这对于大多数实验案例来说已经足够了。此外,由于每个三角形仅在候选帧的一小部分中可见,因此本文使用[4]中提出的稀疏标签代价来进一步加速图切割。图9中展示了一个示例“农场”,以显示纹理贴图的有效性,在iPad Pro 2020上时间成本为13.93s

六.实验验证

在本节中,本文将对Mobile3DScanner进行评估,它的应用程序由iOS Object-C开发,核心算法用C代码实现。本文报告了本文的工作与最先进的测试方法的定量比较和定性比较,该测试由带有后dToF的iPad Pro 2020捕获,这表明本文的Mobile3DScanner在测试中取得了最佳性能。本文还报告了在iPad Pro上使用本文的系统进行有效在线3D重建的每个阶段的时间消耗

6.1 定量与定性评价

在这里插入图片描述

本文定性和定量地比较了本文的Mobile3DScanner与其他最先进的方法,对iPad Pro捕获的12个静态对象生成的3D模型进行了比较,包括30厘米长的正常大小的可移动对象,如“鹿”,63厘米高的大可移动对象,如“大卫”,以及非常大的不可移动对象,如“狮子”有2.3米长。每种情况的输入分辨率为图像1920×1440,深度图分辨率为256×192,本文将重建的3D模型与Open3D[49]、KinectFusion[24]、InfiniTAM[12]和BundleFusion[3]、3D Scanner App进行比较。对于模型精度评估,本文使用CloudCompare2将重建网格与GT(ground truth)进行比较:本文使用手动粗配准和ICP精细配准将网格与GT对齐,然后评估网格点到GT平面的距离。此例程是通过CloudCompare的内置函数实现的。

在这里插入图片描述
在这里插入图片描述

如图11所示,案例“La Marseillaise”的比较结果表明,Open3D和3D Scanner App都存在由深度误差和dToF过度平滑造成的跟踪漂移,这显著影响最终模型的几何结构KinectFusion、InfiniTAM和BundleFusion具有较少的跟踪漂移,但不能保证几何完整性。此外,由于深度过于平滑,这些方法都缺乏几何细节。相比之下,本文的系统在最终生成的三维模型中具有更好的几何结构和更少的噪声。本文还可以从表1中的模型精度评估中看到,本文的Mobile3DScanner以毫米级精度重建对象模型,这在RMSE和MAE中都是最好的。
时间消耗:
在这里插入图片描述

6.2 本文算法不足之处

适用于漫反射表面特征,对于强反射、黑色吸光表面鲁棒性差。

在这里插入图片描述

由于本文的局部映射和全局BA依赖于特征匹配,因此扫描对象需要包含lambertian特征,这可能是对无纹理对象或反射曲面的限制。在这些情况下,跟踪漂移会累积,并且由于无纹理或非lambertian特征导致的错误特征匹配,环路或BA模块很难纠正。此外,重构反射面是一个众所周知的具有挑战性的问题[11]。深度传感器和SGM都无法估计这些表面的准确深度,这导致重建结果不令人满意,如图12所示。

7.结论:

本文提出了一种新的在线三维扫描系统,用于移动设备的三维物体重建。本文的系统允许用户使用带有嵌入式RGBD相机的移动设备重建扫描对象的高质量密集纹理3D模型。由于移动平台上的计算和内存有限,现有最先进的方法仅支持小对象扫描,与此不同,本文的Mobile3DScanner利用自适应TSDF体素大小调整策略来解决大对象扫描的内存限制。一种新颖的视觉惯性ICP结合局部映射确保了精确的目标姿态跟踪,并通过有效优化姿态、深度和几何结构来细化重建模型的几何细节,从而实现高质量的目标重建。作为未来更好地处理具有无纹理或非朗伯曲面的对象的工作,最好使用非物理跟踪机制。此外,如何使用仅使用单目相机的移动设备在线重建高质量的对象是一个值得未来研究的问题。

参考文献:

[1]Xiang Xiaojun,Jiang Hanqing,Zhang Guofeng,Yu Yihao,Li Chenchen,Yang Xingbin,Chen Danpeng,Bao Hujun. Mobile3DScanner: An Online 3D Scanner for High-quality Object Reconstruction with a Mobile Device.[J]. IEEE transactions on visualization and computer graphics,2021,PP:

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值