BS3D:基于RGB-D图像规模化的三维重建

点云PCL免费知识星球,点云论文速读。

文章:BS3D: Building-scale 3D Reconstruction from RGB-D Images

作者:Janne Mustaniemi  , Juho Kannala  , Esa Rahtu  , Li Liu , and Janne Heikkilä

编辑:点云PCL

来源:arXiv 2023

欢迎各位加入免费知识星球,获取PDF论文,欢迎转发朋友圈。文章仅做学术分享,如有侵权联系删文。未经博主同意请勿擅自转载。

公众号致力于点云处理,SLAM,三维视觉,高精地图等领域相关内容的干货分享,欢迎各位加入,有兴趣的可联系dianyunpcl@163.com。未经作者允许请勿转载,欢迎各位同学积极分享和交流。

摘要

本文提出了一种易于使用的框架,用于使用消费级深度相机实现大规模的3D重建。与复杂和昂贵的采集配置不同,我们的系统支持众包模式。与类似系统相比利用原始深度图进行里程计计算和回环闭合优化,从而实现更好的重建,我们获取了一个大规模建筑的3D数据集(BS3D),并通过训练一个改进的单目深度估计模型来证明其价值,作为一项独特的实验,我们使用彩色和主动红外图像对视觉惯导里程计方法进行了基准测试。

主要贡献

我们提出了一种使用消费级深度相机(Azure Kinect)创建大规模建筑的3D重建的框架。与现有方法不同,我们使用颜色到深度图(C2D)策略实现两者的配准。这允许我们直接利用宽视野(FoV)红外相机拍摄的原始深度图。结合开源SLAM库,我们获得了一个大规模建筑的3D视觉数据集(BS3D),该数据集比图1所示的类似数据集大得多,BS3D数据集包括392k张同步的彩色图像、深度图和红外图像、惯导测量、相机位姿、增强深度图、表面重建和激光扫描,我们的框架将向公众发布,以实现快速、简单和经济的室内3D重建。

50e4b76e578aac7770468e3011532a22.png

图1,使用RGB-D相机和所提出的框架获得的建筑规模3D重建,放大面积大于ScanNet数据集中的任何重建

主要内容

重建框架

该框架使用低成本硬件对大规模的建筑环境进行精确的3D重建,该系统是全自动的,对恶劣的照明条件和快速运动具有鲁棒性,彩色图像仅用于回环闭合检测,因为它们容易受到运动模糊和滚动快门失真的影响,原始深度图可实现精确的里程计和回环闭合变换的优化。图2展示了RGB-D重建框架。

a8705743433705c5157ee227348212db.png

硬件

数据是使用Azure Kinect深度相机拍摄的,由于其受欢迎和价格低廉,非常适合大众人群采购,我们使用笔记本电脑上运行的官方应用程序以30 Hz的频率拍摄同步的深度、颜色和红外图像,使用红外相机的宽FoV模式,原始深度图和红外图像的分辨率为512 x 512像素,当以720 x 1280像素的分辨率拍摄彩色图像时,启用自动曝光,还记录了1.6 kHz的加速度计和陀螺仪读数。

RGB到深度图对齐

大多数RGB-D重建系统期望彩色图像和深度图在空间和时间上对齐,现代深度相机通常可以产生时间同步的图像,因此主要关注的是空间对准,传统上,原始深度图被转换到彩色相机的坐标系,我们称之为深度到彩色图(D2C)对齐,在Azure Kinect的情况下,与红外相机(120 x 120度)相比,彩色相机的FoV要窄得多(90 x 59度),因此,D2C对齐不会利用红外相机的宽视场,因为深度图会被大量裁剪。此外,D2C对准可能会在原始深度图中引入伪影,我们提出了一种称为rgb图到深度(C2D)对齐的替代方案,其中彩色图像被转换。在实验中,我们发现这大大提高了重建的质量,C2D的主要挑战是它需要一个完全稠密的深度图。幸运的是,即使使用低质量的深度图,也可以实现相当好的对齐,这是因为相机之间的基线很窄,而缺失的深度通常出现在远离相机的区域。对于C2D对齐,首先使用线性插值执行深度修复,然后,将彩色图像转换为原始深度帧,为了保持尽可能多的颜色信息,与原始深度图相比,输出分辨率将更高(1024 x 1024像素),之后,使用OpenCV库的实现修复RGB图像中由于遮挡而产生的孔洞,我们注意到,对齐的彩色图像中的微小伪影对基于SIFT的回环闭合检测几乎没有影响。

RGB-D建图

我们使用名为RTAB Map的开源SLAM库处理RGB-D序列,使用迭代最近点(ICP)算法的点到平面变体算法,根据原始深度图计算里程计,使用扫描建图里程计策略,在该策略中,根据从过去关键帧创建的点云图配准传入帧,宽FoV确保ICP里程计很少失败,但如果失败,则会初始化新的地图。对于漂移校正和单个地图的合并,需要回环闭合检测,为此,从对齐的彩色图像的有效区域提取SIFT特征。使用单词包方法检测回环闭合,使用透视n点RANSAC算法估计变换,并使用ICP进行优化。使用GTSAM库和高斯-牛顿算法进行图形优化。

RTAB Map支持多会话建图,这是重建规模化建筑环境时的必要功能,一次收集可能数小时的数据是不现实的。此外,具有稍后更新和扩展地图的能力是一个有用的功能,在实践中,首先单独处理单个序列,然后进行多会话建图,通过查找回环闭合和执行图优化来合并会话,输入是一系列关键帧,以及在单会话建图期间计算的里程计姿态和SIFT特征,这些会话以这样的顺序进行处理,即到目前为止,当前会话和全局地图构建之间至少有一些重叠。

表面重建

环境的三维曲面重建存在许多经典的[14,22]和基于学习的[41,1]表面重建方法,利用深度神经网络的方法,如NeuralFusion,在深度图融合任务中产生了令人印象深刻的结果,神经辐射场(NeRFs)也已适用于RGB-D图像,并展示了出良好的性能。我们在这项工作中没有使用基于学习的方法,因为它们仅限于小场景,至少目前是这样,此外,即使使用强大的硬件,场景特定的深度学习也需要几个小时,由于环境的大规模和大量帧数据,曲面重建是分段进行的,为此,首先从下采样的原始深度图创建点云,每个点都包括视图索引和三维坐标,使用K-means算法将点云划分为可管理的段落,使用可扩展TSDF融合实现为每个段落创建网格,它使用分层哈希结构来支持大型场景重构。

数据集和实验结果

BS3D数据集

BS3D数据是在大学校园使用Azure Kinect收集的,图3显示了数据集的示例帧,由于环境规模大,收集工作分多次进行。

32a1cca5c0840cd71062dc867ab41d30.png

图3,数据集中的示例帧,环境多样且具有挑战性,包括自助餐厅、楼梯、学习区、走廊和大厅

采集的建筑面积约4300m2,数据集由392k帧组成,包括彩色图像、原始深度图和红外图像,在两个坐标系(彩色和红外相机)中提供彩色图像和深度图,为了方便起见,这些图像没有失真,但原始记录也包括在内,我们为每个图像提供全局参考框架中的相机位姿,数据还包括惯导数据、增强的深度图和从网格渲染的表面法线,如图4所示。

ab23bb0ade26077c7f693bc66e08e3ac.png

图4,BS3D数据集包括彩色和红外图像、深度图、IMU数据、相机参数和表面重建,从网格渲染增强的深度贴图和曲面法线。

将该框架与Redwood、BundleFusion和ORB-SLAM3进行了比较,表2显示了不同大小环境的结果,所有方法都能够重建由2.8k帧组成的小环境,当重建由7.3k个框架组成的中型环境(160m2)时,两种方法之间的差异变得更加明显。

b78fb7821605a73ca5312027530a1adf.png

由于里程计故障,BundleFusion仅产生部分重建,如图5所示,所提出的方法提供了最准确的重建。请注意,不可能实现100%的具有重叠区域,因为深度相机无法观察真值的所有部分。

e95507be79ae7b52164cbc8c57841ba0.png

图5,使用Redwood、ORB-SLAM3和所提出的方法获得的重建,颜色表示误差(到最近真值点的距离)

深度估计

我们研究了BS3D数据集是否可以用于训练单目深度估计的更好模型,对于这个实验,使用了基于ResNet50的最先进的LeReS模型。

7e976889bc676ad34dc3ae237dc90d93.png

表3显示了微调改善了iBims-1和BS3D上的性能,微调后的模型在NYUDv2上表现稍差,这并不奇怪,因为NYUD-v2主要包含BS3D中不存在的房间尺度场景。图6中的定性比较还显示了iBims-1上预训练模型的明显有所改进,该模型包含小场景和大场景。

62a4bab3ab741a030cd22f4fe7bbb93c.png

视觉惯导里程计

BS3D数据集包括活动红外图像以及颜色和IMU数据,所以我们评估OpenVINS、ORB-SLAM3和DM-VIO,对10个序列中的每一个进行5次评估(表4)。

25f240d6d9e374cffe13dbe87f76eeb2.png

从表5中的结果可以看出,ORB-SLAM3在评估彩色惯性里程计时具有最低的ATE,这主要是因为环路闭合检测。在大多数情况下,ORB-SLAM3和OpenVINS在使用红外图像时无法初始化。我们得出的结论是,现成的特征检测器(FAST和ORB)在从红外图像中检测良好特征方面非常差。有趣的是,DM-VIO在使用红外图像而不是彩色图像时表现更好,这可能是由于红外相机的全局快门和更宽的FoV。这一结果揭示了使用主动红外图像进行视觉惯导里程测量的巨大潜力,并需要进行新的研究。

9e9a0fb441e1d0dbd7505b738f622e36.png

总结

我们提出了一种使用消费级别深度相机获取高质量3D重建的框架,与局限于较小环境(如房间或公寓)的现有方法相比,进行建筑规模重建的能力有了显著提高,提出的C2D对齐允许使用原始深度图,从而实现更精确的3D重建,我们的方法快速、易于使用,不需要昂贵的硬件,非常适合于众包数据收集,我们获取了规模化建筑3D数据集(BS3D),并证明了其在单目深度估计中的价值,BS3D的独特之处还在于它包含了其他数据集中经常缺失的主动红外图像,使用红外图像进行视觉惯导里程计也是一个十分有前途的新研究方向。

更多详细内容请加入知识星球查看原文。

资源

自动驾驶及定位相关分享

【点云论文速读】基于激光雷达的里程计及3D点云地图中的定位方法

自动驾驶中基于光流的运动物体检测

基于语义分割的相机外参标定

综述:用于自动驾驶的全景鱼眼相机的理论模型和感知介绍

高速场景下自动驾驶车辆定位方法综述

Patchwork++:基于点云的快速、稳健的地面分割方法

PaGO-LOAM:基于地面优化的激光雷达里程计

多模态路沿检测与滤波方法

多个激光雷达同时校准、定位和建图的框架

动态的城市环境中杆状物的提取建图与长期定位

非重复型扫描激光雷达的运动畸变矫正

快速紧耦合的稀疏直接雷达-惯性-视觉里程计

基于相机和低分辨率激光雷达的三维车辆检测

用于三维点云语义分割的标注工具和城市数据集

ROS2入门之基本介绍

固态激光雷达和相机系统的自动标定

激光雷达+GPS+IMU+轮速计的传感器融合定位方案

基于稀疏语义视觉特征的道路场景的建图与定位

自动驾驶中基于激光雷达的车辆道路和人行道实时检测(代码开源)

用于三维点云语义分割的标注工具和城市数据集

更多文章可查看:点云学习历史文章大汇总

SLAM及AR相关分享

TOF相机原理介绍

TOF飞行时间深度相机介绍

结构化PLP-SLAM:单目、RGB-D和双目相机使用点线面的高效稀疏建图与定位方案

开源又优化的F-LOAM方案:基于优化的SC-F-LOAM

【开源方案共享】ORB-SLAM3开源啦!

【论文速读】AVP-SLAM:自动泊车系统中的语义SLAM

【点云论文速读】StructSLAM:结构化线特征SLAM

SLAM和AR综述

常用的3D深度相机

AR设备单目视觉惯导SLAM算法综述与评价

SLAM综述(4)激光与视觉融合SLAM

Kimera实时重建的语义SLAM系统

SLAM综述(3)-视觉与惯导,视觉与深度学习SLAM

易扩展的SLAM框架-OpenVSLAM

高翔:非结构化道路激光SLAM中的挑战

基于鱼眼相机的SLAM方法介绍

如果你对本文感兴趣,请后台发送“知识星球”获取二维码,务必按照“姓名+学校/公司+研究方向”备注加入免费知识星球,免费下载pdf文档,和更多热爱分享的小伙伴一起交流吧!

以上内容如有错误请留言评论,欢迎指正交流。如有侵权,请联系删除

扫描二维码

                   关注我们

让我们一起分享一起学习吧!期待有想法,乐于分享的小伙伴加入免费星球注入爱分享的新鲜活力。分享的主题包含但不限于三维视觉,点云,高精地图,自动驾驶,以及机器人等相关的领域。

分享及合作方式:微信“920177957”(需要按要求备注) 联系邮箱:dianyunpcl@163.com,欢迎企业来联系公众号展开合作。

点一下“在看”你会更好看耶

a1cb172d752f2b745031be7093ebce98.gif

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

点云PCL公众号博客

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值