室内停车场的数据集BeVIS和语义VISSLAM2系统

文章:SLAM for Indoor Parking: A Comprehensive Benchmark Dataset and a Tightly Coupled Semantic Framework

作者:XUAN SHAO, YING SHEN, LIN ZHANG, and SHENGJIE ZHAO

编辑:点云PCL

时间:January 2023

欢迎各位加入知识星球,获取PDF论文,欢迎转发朋友圈。文章仅做学术分享,如有侵权联系删文。

公众号致力于点云处理,SLAM,三维视觉,高精地图等领域相关内容的干货分享,欢迎各位加入,有兴趣的可联系dianyunpcl@163.com。未经作者允许请勿转载,欢迎各位同学积极分享和交流。

摘要

针对室内泊车任务,各种视觉惯性同时定位与建图(SLAM)系统有望通过视觉相机和惯性测量单元的互补作用实现相似的结果。为了比较这些SLAM系统,需要有公开可用的数据集,以客观地展示每个SLAM系统的优缺点。然而,由于在卫星定位系统受限的室内停车环境中获取地面真实轨迹的深刻挑战,这类高质量数据集的可用性十分有限。在本文中,我们建立了BeVIS,一个大规模的基准数据集,具有用于评估用于自主室内泊车开发的SLAM系统性能的视觉(前视图)、惯性和环视传感器。它是首个同时提供原始数据和地面真实轨迹的数据集。在BeVIS数据集中,通过跟踪分散在室内停车环境中的人工地标来获取地面真实轨迹,这些地标的坐标以高精度电子全站仪的方式记录。此外,地面真实轨迹从两个方面进行全面评估,即投影误差和姿态扰动。除了BeVIS外,我们提出了一种新型的紧耦合的语义SLAM框架,即VISSLAM-2,利用视觉(前视图)、惯性和环视传感器模式,专门用于自主室内停车任务。这是首个试图提供用于对地面上的各种语义对象进行建模的通用形式的工作,在BeVIS上的实验表明了所提出的VISSLAM-2的有效性。我们的基准数据集BeVIS可在 https://shaoxuan92.github.io/BeVIS

主要贡献

虽然现有的室内自主泊车VI-SLAM系统已成功地在特定情况下演示了通过将语义信息纳入室内停车环境来实现,但在环境出现意外变化的情况下,这些VI-SLAM系统的性能将受到不同程度的影响。例如,移动车辆的存在可能会导致长时间的大定位误差,而在稳定特征之间缺乏有效的数据关联,然而,地面上的语义对象(停车位、减速带和停车位编号)对于这个特定的自主室内停车应用场景来说是稳定而显著的特征,展现了强大的语义一致性。正如前面提到的,虽然室内停车的任务已经有一段时间了,但缺乏带有地面真实轨迹和可靠成熟的SLAM系统的合适基准数据集。在本文在试图解决这些问题,本文的主要贡献如下:

(1)建立了一个称为带有视觉(前视)、惯性和环视传感器的基准数据集(BeVIS),用于评估开发用于室内自动泊车的SLAM系统的性能。在BeVIS中,通过跟踪分散在室内停车环境中的人工地标来获取地面真实轨迹,这些地标的坐标以高精度电子全站仪(ETS)的测量方式记录,确保了对不同SLAM系统的客观评估。据我们所知,BeVIS是一个提供原始数据和地面真实轨迹的大规模数据集,这是第一次这样做,BeVIS已经发布给社区,将促进室内泊车系统的相关研究。

(2)在BeVIS中,车辆的真值轨迹被全面评估,分别从两个方面,即重投影误差和姿态波动,重投影误差用于量化估计三维点的真实投影与相机之间的接近程度,至于姿态波动,则反映了车辆静止时估计的相机姿态的波动。结果证明了我们提出的地面真实轨迹获取方法的有效性。

(3)提出了一种紧密耦合的语义SLAM系统,名为VISSLAM-2,受到参考文献VISSLAM的启发,专门针对自主室内停车任务,与VISSLAM相比,VISSLAM-2是第一个尝试提供一般形式来对地面上的所有语义对象进行建模的框架,它的优越性已通过广泛的定性和定量实验得到证实。

相关工作

SLAM基准数据集

为了评估不同SLAM系统的性能,建立了几个基准数据集。根据采集数据时的不同传感器设置,这里回顾了两类数据集:视觉SLAM数据集和视觉惯性SLAM数据集。

Visual SLAM Datasets:TUM Mono VO数据集和TUM RGB-D数据集[42]是评估视觉SLAM系统的两个典型基准数据集,TUM Mono VO数据集用于评估单目里程计。Visual-inertial SLAM Datasets:除了视觉图像外,视觉惯性SLAM数据集还包括来自IMU的运动数据,为构建强大的VI-SLAM系统提供了额外的信息。KITTI 和Malaga Urban [4]是在户外环境中收集的两个流行的数据集,其中也给出了地面真实轨迹。现有数据集中用于获取地面真实轨迹的方法不适用于没有 GPS 信号的室内停车场环境,或者无法保证真实轨迹的完整性。本文旨在建立一个使用 ETS 产生地面真实轨迹的基准数据集 BeVIS,该方法既经济实惠,又适用于室内停车场环境。BeVIS 和其他用于评估 SLAM 系统的数据集的差异如表1所示。

0efd2e1bb0732db35bf79ef3449977f3.png

VI-SLAM系统

根据传感器融合的类型,VI-SLAM系统可以大致分为两类,即松耦合方法[25,47]和紧耦合方法[5,8,23,27,31-33],需要注意的是,这些VI-SLAM系统构建的地图只提供几何信息,缺乏对环境的语义理解,为了获得周围环境的语义理解,VI-SLAM系统最近开始融合语义特征,构建语义VI-SLAM系统。该领域的首个包括参考文献[9,10,12,38]。Salas-Moreno等人[38]提出了一种面向对象的SLAM++,其中语义对象事先进行手动编辑,使用迭代最近点法获得行驶过程中的相机姿态。为了减少驾驶过程中的尺度模糊和漂移,Frost等人[12]提出了一种SLAM系统,在这种系统中,将环境中的语义对象纳入到一种捆绑调整式的框架中。然而,这些系统中使用的特征是人工制作的,限制了它们在具有不规则和意外对象的复杂场景中的应用。

深度学习技术的快速发展使得越来越多的鲁棒特征提取策略出现,这些策略已经提高了许多VI-SLAM系统的定位精度[6, 17, 18, 34-36]。Yang等人[50]提出了一种实时单目平面SLAM系统,从三维平面模型中提取平面特征,在低纹理环境中实现了较好的效果。Sünderhauf等人[43]基于最近邻方法将标签与语义对象相关联,这些标记的语义对象被用作语义地标,以有效提高SLAM系统的定位精度。Yang等人[49]提出了一个通用的SLAM系统CubeSLAM,用于单目三维物体检测和建图,在CubeSLAM中,利用联合相机-物体-点优化方案构建姿态和尺度约束进行图优化,实现了SLAM系统的物体级建图和定位。为了处理环境中的动态物体,基于ORB-SLAM2系统,提出了Mask-SLAM[21]和DynaSLAM[3]系统。Mask-SLAM和DynaSLAM系统通过多视角几何技术将所有先验动态对象分割出来,Nicholson等人[28]开发了一种基于因子图的SLAM系统,联合估计相机姿态和环境的三维地标表示。

然而,上述SLAM系统的一个明显缺点是它们在行驶过程中容易出现跟踪不一致的情况,具体而言,构建用于自主室内停车的SLAM系统时,正确的数据关联对于提高其定位精度和稳健性至关重要,但是,环境中动态物体(如移动车辆或行人)的高频出现会通过欺骗这些SLAM系统的数据关联来破坏位姿估计的质量。相比之下,地面上的语义对象(停车位、减速带和停车位ID)包含室内停车环境中最稳定和一致的信息。不幸的是,很少有SLAM系统能够感知到地面上的这些显著特征,第一个利用在地面上检测到的对象的工作是参考文献[53]中建立的。Zhao等人在周围视图图像中检测到停车位并将其纳入到SLAM系统中,然而,Zhao等人的系统中使用了人工地标以促进定位,而停车位对于优化系统的贡献很小。据我们所知,利用在地面上检测到的对象的最新工作是参考文献[41]中建立的,Shao等人 [41] 提出了VISSLAM系统,在其中包含了周围视图中的停车位进行优化,然而,VISSLAM中选择的周围视图特征是停车位特定的,在停车位被停放的车辆遮挡的情况下会导致跟踪不一致,此外,VISSLAM中使用的两个相邻停车位的属性是特定于场景的,而不是完全通用于不同的室内停车环境,其中不存在相邻停车位,我们提出的VISSLAM-2和其他用于自主室内停车的SLAM系统之间的差异总结在表2中。

64594622a77836f303e8fc08b0a2a793.png

BeVIS基准数据集

本研究为评估自主室内停车SLAM系统性能而建立的大规模基准数据集,建立BeVIS的流程如图1所示。

1829fe96fdb7c68578aadc204efa483c.png

图1. 建立的BeVIS的流程,其中包括四个主要步骤:平台建立、传感器校准、数据采集和真值轨迹获取,平台建立保证了一个改装的电动车,具有多传感器布置,用于感知室内停车场环境,传感器校准负责所有安装在车上的传感器的内参和外参校准,之后,在不同的室内停车场环境下驾驶车辆进行感知和导航数据的采集,并进行难度等级划分的分类过程,最后,通过ETD的辅助获取BeVIS中的真值轨迹。

从图1可以看出,涉及四个主要步骤:平台建立、传感器校准、数据采集和地面真实轨迹获取。平台建立确保采用改进的电动汽车,配备多传感器系统来感知室内停车环境。传感器校准负责所有安装在车辆上的传感器的内外参校准。接下来,在不同的室内停车环境中驾驶车辆时,采集感知和导航数据,随后进行难度级别的分类处理,最后,在BeVIS中获取地面真实轨迹的辅助工具是一种在室内停车环境中既经济实惠又适用的ETS(扫描仪)。

平台建立

选择一辆电动车作为数据采集的基础平台,该车辆配备了两种类型的传感器,感知传感器和导航传感器,接下来,我们简要描述了所有的车载传感器。

 • 前视感知传感器:平台上的前视感知传感器是一个针孔全局快门可见光相机,MYNTEYE D-1000-50,可以捕捉车辆前方的图像,该相机可以提供分辨率为1,280×720,帧率为30帧/秒的图像,前视感知传感器的水平视场角(HFOV)、垂直视场角(VFOV)和深度视场角(DFOV)分别为64°、38°和70°,相机中的红外辐射模块提高了它对室内停车环境中不同照明条件的适应性。

 • 环视感知传感器:平台上的环视感知传感器由四个鱼眼相机Leopard Imaging OV-10640-490组成,安装在电动车的前、左、后和右侧,形成一个环视相机系统,每个鱼眼相机在环视系统中的分辨率、视场角和采集频率分别为1,280×1,080、190◦和30帧/秒。 

• 导航传感器:平台上的导航传感器是一款消费级别、重量轻的6自由度IMU,与前视相机刚性连接,它可以通过其加速度计和陀螺仪提供平移和定向测量,反映车辆的自我运动。如图1(a)所示,环视系统中每个相机的方向约为45度地面朝向,捕捉车辆周围的地面图像,通过校准环视相机系统和地面平面之间的外参数,可以将四个鱼眼图像处理成一个俯视图环视图像,前视相机比环视系统中的前视相机更高,面向直前,以确保视野宽广。

传感器标定

 传感器校准包括所有传感器的内部校准和外部校准,内参校准可以提前以离线方式实现。在图1(b)中,虚线表示移动车辆时的临时变化姿态,绿色圆圈和蓝色矩形包含了与车辆刚性连接的传感器,其中包括前视相机、IMU和环视相机系统。对于外参校准,计算刚体变换矩阵TBA,该矩阵允许从一个坐标系A重新投影任何点到另一个坐标系B,根据不同类型的传感器,外参校准可分为三个方面:相机-IMU校准、相机-地面校准和环视相机系统校准。在BeVIS中,我们使平台上所有相机校准数据可访问,以便用户可以进行自己的校准,即使我们提供了我们的校准结果,如表3所示,数据可以分为两类:

• intrinCalib-1/2: 它们用于前视摄像头和四个鱼眼摄像头在全景视觉系统中的内参标定,通过在每个摄像头前放置手持的 9 × 6 格点板,记录不同位置的图像。 

• extrinCalib-1/2/3: 它们用于所有摄像头的外参标定,首先在地面上建立了一个 10m × 10m 的标定区域,分成 10 × 10 个大小为 1m 的正方形,选择一个点 P,所有摄像头都能看到足够多的标定区域正方形,将电动汽车停放在 P 点上,同时采集全景视觉系统和前视摄像头记录的图像。

cb9a0a5d31c813ab6510bae2feea2d54.png

数据采集

在传感器校准之后,BeVIS中的序列是在四个典型的室内停车场内以约10-40 km/h的速度驾驶改装电动车时采集的,请注意,对于前视相机和全景相机系统,它们是通过捕捉由多线程数据采集函数控制的图像来进行“软件”同步的,对于这些相机,它们每个理论上可以以30 fps或更高的速率捕获图像,但是,为了确保图像质量,每个相机的数据采集频率应该在某种程度上降低,车上安装的传感器将在驾驶过程中以同步的方式捕获感知和导航数据,我们通过以下两种方式确保所收集图像的高质量。首先,对于相机的选择,我们选择了常用的工业相机,以确保所有相机都可以输出高分辨率、高质量的图像,其次,在数据采集期间,我们调整了每个相机的采集频率,以便每一帧都能成功采集并保存,根据BeVIS中收集到的序列的不同特点,我们将其手动分类为“简单”、“中等”和“困难”三个级别。具体来说,考虑了环境和轨迹特征,环境特征包括室内停车环境中动态物体的数量、照明条件以及室内停车环境中特征的数量。轨迹特征涉及每个轨迹的总持续时间/回合数、车辆的平均速度以及车辆的初始运动(平移和旋转)的规模,请注意,如果车辆的初始平移和旋转很大,那么车辆上的所有六个轴都可以被充分激励以获得更好的IMU初始化。BeVIS中每个序列的特征如表4所示。

574d04fa33dd9832ec25736154f9820a.png

地面真实轨迹获取

实际上,在建立BeVIS时,地面真实轨迹对于不同SLAM系统的客观评估至关重要,不幸的是,由于当前的地面真实轨迹获取方法在GNSS缺失的室内停车环境中不适用,或由于运动捕捉系统的高成本而无法保证轨迹的完整性,它们通常是不可用的。为解决这个问题,我们提供了一种有效且成本低廉的地面真实轨迹获取方法。

a6c8811bda60f3c41cce3263a770595e.png

图2. 地面真实轨迹获取方法。该方法涉及三个步骤:人工地标部署、坐标测量和相机姿态估计,人工地标部署确保了具有人工地标的定制室内停车场,坐标测量负责测量ETS测量的这些人工地标的3D坐标,随后,车辆上的前置摄像头可以通过在人工地标上方进行跟踪来进行定位。

正如图2所示,它包括三个步骤:人工地标部署、坐标测量和相机位姿估计。具体而言,人工地标部署确保定制的室内停车环境中的人工地标可以被轻松检测,坐标测量负责测量ETS测量误差较小的这些人工地标的三维坐标,之后,在室内停车环境中行驶时,车辆上的前视摄像机可以通过跟踪这些人工地标来定位。人工地标部署,人工地标部署的目的是确保定制的室内停车环境中可以轻松检测到的人工地标,在这一步骤中,选择广受欢迎的可打印的视觉标记(AprilTags)作为人工地标,AprilTags的概念与QR码类似,但它们被设计为编码更小的数据负载,从而可以在室内停车环境中更加稳健地检测到,每个AprilTag由一个有效的四边形区域(quad)表示。如图2(a)所示,通过在室内停车场均匀放置AprilTags,可以创建一组分散在整个停车场中的人工地标。

评估地面真实轨迹获取方法

为了全面评估我们提出的地面真实轨迹获取方法的性能,我们定义了两个度量标准,即重投影误差(RPE)和姿态波动(PV)。RPE是几何误差,对应于投影点和其测量对应物之间的图像距离。它用于量化一个3D点的估计值如何重新创建该点的真实投影。至于PV,它反映了车辆静止时估计的相机姿态在X、Y和Z方向上的整体波动情况。计算PV的公式如下:

051764ed5c620542e981962f83df15c5.png

其中,N是每个序列中图像的总数,trans(TCW )是第i张图像的相机姿态的平移部分,表示相机在X、Y和Z方向上的运动,公式中的E(trans(TCW ))是该序列中所有相机姿态的平移部分的平均值,当车辆静止时,其安装的相机的姿态应该是稳定不变的。因此,较小的PV表示估计的相机姿态具有更高的精度。与此同时,我们收集了九个图像序列来定量评估地面真实轨迹获取方法的性能。这些序列中,有五个序列是在室内停车场的“直线”区域内收集的,另外四个序列是在“拐角”区域内收集的,每个序列的特点,序列中图像的数量,每个图像中可见的AprilTag数量,测量这些AprilTag坐标的调查点数量以及所有这些AprilTag到相机的平均距离,详见表5。

069d9195f2cad51200304e445d1d3fad.png

VISSLAM-2室内停车场的导航系统

VISSLAM-2是在文献[41]中提出的VISSLAM的基础上设计的,旨在用于室内停车场的导航,VISSLAM-2是一个紧耦合的语义SLAM系统,完全探索周围视野中检测到的语义对象在其优化框架中,具体而言,为增强系统对不同照明和低纹理条件的鲁棒性,从周围视图图像中提取地面上的语义对象,包括停车位、减速带和停车位ID,并且在VISSLAM-2中引入了由这些语义对象引发的强语义约束,与仅在室内停车环境中包含相邻停车位的VISSLAM相比,VISSLAM-2提供了一种通用形式来建模地面上的各种语义对象,这里将详细介绍VISSLAM-2的联合优化模型,包括其公式和所有涉及的误差项。

联合优化模型的构建

首先,我们介绍VISSLAM-2中的测量值和未知参数。给定前视图图像中的关键点Z,环视图像中的IMU测量M和语义观测O,VISSLAM-2的联合优化方法确定了最优的相机姿态T,与Z匹配的地图点P以及环视图像的地标L。这样一个优化问题可以表示为:

b3e80c960b917c77b39882263c79bfa1.png

为了找到T、P和L的最优估计值,在一个紧密耦合的目标函数中同时优化视觉、惯性和环视误差项EV、EI和ES。

环视误差项公式如下:

6a691e9995c00e37bd418488dea3ae27.png

分别是先验误差项和观测误差项。

语义对象检测和定位

VISSLAM-2中使用的语义对象检测框架受到我们先前工作中专门用于停车位检测的类似架构的启发[51]。具体而言,我们提出了一个两阶段的对象检测框架,首先检测停车位的标记点,减速带的端点和停车位ID的中心。然后,对于停车位和减速带的检测,使用另一个分类模块来判断两个标记点/端点是否属于同一个停车位/减速带。第i个环视图地标在时刻t的位置Lyti可以通过以下方程获得,Lyti = Tt−1Oit,其中Oit是时刻t前视摄像头坐标系中第i个语义观测的位置,可以通过校准前视摄像头坐标系和地面坐标系之间的变换矩阵获得。Tt是在时刻t前视相机在世界坐标系中的姿态,由视觉里程计返回。

先验误差项

Prior Error Term指的是先验误差项,用于表示各个观测的先验信息。在VISSLAM-2中,p(L)代表着所有环视图地标的位置的先验分布。具体来说,p(L)表示地标的先验位置分布,根据已知的先验位置和标准差计算出的高斯分布。优化过程中,要尽量让每个环视图地标的位置满足其先验分布,以利用先验信息来约束优化过程,提高系统的鲁棒性。

6d13f5f57b0f24caca7a198273788570.png

图4. 先验误差项的概述。当在环视图像中检测到地面上的语义对象时,可以自动获取其在地面坐标系中的坐标。因此,任何两个观察到的地面上的语义对象之间的空间关系自然地反映在环视图像中。

环视误差项

Surround-view Error Term 指的是VISSLAM-2联合优化模型中的误差项ES,表示预测和观测到的语义对象在环视图像中位置之间的差异。为了形成这个误差项,可以将它分为两部分:先验误差项EPrior和观测误差项EObs。先验误差项代表了所有环视地标位置的先验分布。观测误差项表示基于估计的相机姿态预测地标位置和环视图像中语义对象观测位置之间的差异。实质上,环视误差项模拟了任何两个观测到的地面语义对象之间的空间关系在环视图像中自然反映的约束。图4提供了此误差项的概述。当在环视图像中检测到地面上的语义对象时,它们在地面坐标系中的坐标可以自动获得,从而使所有观测到的语义对象之间的空间关系在环视图像中得以反映。

实验结果与讨论

 BeVIS和其他系统的比较 

为了促进自主室内停车的SLAM研究,我们建立并发布了BeVIS数据集可以公开访问,实际上,邵等人[41]发布了一份自主室内停车数据集,这是该领域中公开可用的数据集,在本文中称为同济室内停车数据集(TJIP)。两个数据集的信息总结如表6所示。从表6可以看出,从规模和成像条件的角度来看,BeVIS比TJIP好得多。此外,与TJIP相比,BeVIS首次提供了地面真实轨迹。提供了相机校准序列和地面真实轨迹获取方法的评估序列。因此,以下实验都在BeVIS上进行。

07de7a3869f75f3f35869a6d76fa5096.png

影响GT轨迹获取方法性能的因素 

我们选择了四个因素来探索它们对地面真实轨迹获取方法性能的影响:AprilTags的数量、平均大小、平均距离以及这些AprilTags被测量的调查点的数量。在这个实验中,将X、Y和Z方向的姿态波动作为性能指标,并将结果显示在图5中。

21a62ab848b3a3368dc3aaa9f62998a7.png

图5. 选择因素对位姿在三个方向上的影响结果,这些因素包括(a) AprilTags的数量,(b) AprilTags到相机的平均距离,以及(c)测量AprilTags的调查点数量。

AprilTag的数量:每个AprilTag由四个角点对应的地标表示。从图5(a)可以看出,随着地标数量的增加,相机姿态在X、Y和Z方向的波动显著减少。

AprilTags到相机的平均距离:由于所有AprilTag都是相同大小的,较大的D表示相机距离AprilTag更近。从图5(b)可以看出,当D减小时,也就是平均距离增加时,该方法将不会报告稳定的结果。此外,为了保证相机姿态的稳定结果,D应大于1.2e-3,这是一个经验阈值。

测量AprilTags的观测点数量:从图5(c)可以看出,如果所有AprilTags都在同一测量点上测量,则可以保证更一致和稳定的相机姿态。否则,相机姿态将不稳定。此外,我们计算了从GT-straight-01到GT-corner-09序列的RPE和PV值,以评估BeVIS中地面实况轨迹的准确性。结果详见表7。从表7可以看出,平均PV和RPE值分别为5.49厘米和0.37像素,两者都证明了我们提出的地面实况轨迹获取方法的有效性。此外,“直线”区域和“拐角”区域的RPE和PV值都大于前者,这主要是因为“直线”区域中AprilTags到相机的平均距离大于“拐角”区域。

71d517ee368c68f36d599acfe6abb326.png

VISSLAM-2的定量评估

为了定量评估VISSLAM-2,选择了四个评估指标,分别是重访误差(RE)、绝对轨迹误差(ATE)、相邻语义对象之间的距离(DAS)和平均处理时间(APT)。根据表格8,我们可以发现BeVIS基准数据集中VISSLAM-2的平均重访误差(RE)为0.033米,表明我们提出的VISSLAM-2方法是有效的。

4ffe4e117c1a28baf5150f3ebfba9c3e.png

从表格9中,我们可以发现所有序列的平均ATE为0.438米,这表明了我们的VISSLAM-2的有效性。此外,在ES优化之后,每个序列的ATE都有所降低。此外,可以在表格9中发现sATE,它是将估计的轨迹与地面真实轨迹缩放到相同尺度后的差异,比ATE要小。但与ATE相比,sATE并不反映真实轨迹差异,因为估计轨迹的尺度与地面真实轨迹的尺度不同。此外,ATE与ORB特征点数量之间的关系已在图6中描述。如图6所示,通过增加提取的特征点数量,可以提高VISSLAM-2的ATE。实际上,如何在速度和准确性之间达到平衡是一个常见的实际工程问题。这实际上取决于最终用户更加重视哪个因素。在我们的系统中,当使用的特征数量为1,000时,ATE可以降至0.438米,处理速度可以达到14 fps。根据我们的经验,这样的映射精度和处理速度可以满足自主停车任务的需求。

bb05ffaca8a3fce96a61fabe18651725.png

我们记录了VISSLAM-2在使用1,000个ORB特征点时每帧的平均处理时间。结果显示在表10中,可以看出,VISSLAM-2的APT为0.071秒,达到了14 fps,在低速室内停车场中运行是合格的。此外,使用不同数量的ORB特征点的VISSLAM-2的APT也显示在图7中。实际上,通过减少提取的特征点数量可以提高VISSLAM-2的帧率,当特征点数量设置为500时,运行速度得到了显著提高,因此,如果需要更高的帧率,则可以减少提取的特征点数量。

264cba5149ab7982a46c62de3b0c6a9b.png

ce6b4d88dd6a4474870c4e86fbfb86ac.png

图7. VISSLAM-2使用不同ORB特征点数量的平均处理时间。

VISSLAM-2与其他两种最先进的单目SLAM方法PTAM和ORB-SLAM2在RE和ATE指标方面进行了比较。比较结果如表11所示。可以看出,VISSLAM-2在三种方法中实现了最低的RE和ATE,表明其在精度方面具有优势。此外,当使用类似数量的特征时,VISSLAM-2的处理时间相对于PTAM较低,并且与ORB-SLAM2的处理时间相似。总体而言,量化比较表明,VISSLAM-2在精度和效率方面优于其竞争对手。

a53ca68b0c39428c60da2dfeaffbfe05.png

VISSLAM-2在BeVIS中的定性结果

为了定性地验证所提出的VISSLAM-2的有效性,我们在BeVIS中评估了其定位和建图结果。图8显示了SLAM-easy-01的建图结果。图8(a)从俯视角度描绘了室内停车场的草图。图8(b)说明了在优化过程中同时考虑视觉和IMU误差项的结果。它记录了行驶路径并在室内停车场中映射了3D地标。然而,地面上对于自主室内停车至关重要的语义对象未纳入地图中。图8(c)展示了VISSLAM-2的结果,其中不仅包含了3D地标,还包括了环视图像中检测到的语义对象。从图8(c)可以发现,相邻停车位之间的距离以及减速带与停车位之间的距离与真实场景的空间分布一致,说明了VISSLAM-2的有效性。此外,图8(d)说明了我们的VISSLAM-2估计的轨迹与真实轨迹之间的差异。从图8(d)可以看出,估计的轨迹和真实轨迹大致重合,证明了VISSLAM-2定位结果的更高精度。BeVIS中其他序列的建图结果如图8(e)-(g)所示。请注意,地图中缺少一些停车位。这是因为这些停车位的入口点已经磨损或被停放的汽车遮挡。

88403e916561c1dacc603368c1963090.png

图8. VISSLAM-2的定性结果。(a) SLAM-easy-01室内停车场的示意图。(b) 在优化过程中使用视觉和惯性误差项的建图结果。(c) VISSLAM-2的建图结果(此处省略了停车位ID以进行显示)。(d) 估计轨迹与地面真值轨迹之间的差异。(e)SLAM-moderate-02的建图结果。(f)SLAM-difficult-03的建图结果。(g)SLAM-difficult-04的建图结果。

VISSLAM-2的消融研究 

我们通过比较VISSLAM-2和使用不同优化策略的两个基线来演示我们框架中不同误差项如何影响优化结果。这两个基线是:

(1)V-ISLAM:一种基于视觉惯性误差项的系统,不考虑环绕视图语义特征的融合;

(2)VIS-TSLAM:一种仅在跟踪阶段中将环视视图语义特征纳入优化的系统。结果如表12所示。

946d13d197ede818218629b615d6319c.png

从表12可以看出,V-ISLAM在RE、ATE和APT三个评估指标方面都能达到令人满意的性能,分别为0.239 m、0.501 m和0.055秒。但由于在行驶过程中不提供语义信息,因此V-ISLAM不适用于自主室内停车。至于VIS-TSLAM的性能,我们可以发现,如果仅在跟踪阶段中将从环视图中提取的语义特征纳入优化,则优化结果会受到影响,并且会出现大的RE和ATE误差。但如果在跟踪的所有阶段中都将环绕视图语义特征纳入优化,就像VISSLAM-2一样进行局部地图构建和闭环检测,RE、ATE和DAS三个评估指标都可以大幅减少,证明了VISSLAM-2的有效性。此外,VISSLAM-2的APT约为0.071秒(超过14 fps),对于以适度速度运行的自主停车系统来说是可以接受的。

总结

本文首先建立了一个名为BeVIS的大型数据集,其中包含使用多种传感器(包括前视觉、惯导和环视)同步采集的数据,BeVIS中的真值轨迹是通过跟踪分布在这四个室内停车场中的人工地标获得的,这些地标的坐标使用高精度设备ETS以测量方式记录,从而可以客观地评估用于自动室内停车的不同SLAM系统。这些真值轨迹从两个方面全面评估,即重投影误差和姿态扰动。据我们所知,作为评估用于自动室内泊车的SLAM系统性能的基准数据集,BeVIS是第一个提供原始数据和地面真实轨迹的大型数据集,此外提出了一个紧密耦合的语义SLAM框架,即VISSLAM-2,利用前视觉、惯性和环视传感器模式,特别是针对自动室内停车任务,它是首个尝试提供用于建模环视对象的通用形式的工作,其有效性通过对BeVIS的广泛实验得到验证。

参考文献

【VISSLAM】Xuan Shao, Lin Zhang, Tianjun Zhang, Ying Shen, and Yicong Zhou. 2020. A tightly-coupled semantic SLAM system with visual, inertial and surround-view sensors for autonomous indoor parking

更多详细内容后台发送“知识星球”加入知识星球查看更多。

3D视觉与点云学习星球:主要针对智能驾驶全栈相关技术,3D/2D视觉技术学习分享的知识星球,将持续进行干货技术分享,知识点总结,代码解惑,最新paper分享,解疑答惑等等。星球邀请各个领域有持续分享能力的大佬加入我们,对入门者进行技术指导,对提问者知无不答。同时,星球将联合各知名企业发布自动驾驶,机器视觉等相关招聘信息和内推机会,创造一个在学习和就业上能够相互分享,互帮互助的技术人才聚集群。

以上内容如有错误请留言评论,欢迎指正交流。如有侵权,请联系删除

扫描二维码

                   关注我们

让我们一起分享一起学习吧!期待有想法,乐于分享的小伙伴加入知识星球注入爱分享的新鲜活力。分享的主题包含但不限于三维视觉,点云,高精地图,自动驾驶,以及机器人等相关的领域。

分享与合作方式:微信“cloudpoint9527”(备注:姓名+学校/公司+研究方向) 联系邮箱:dianyunpcl@163.com。

点一下“在看”你会更好看耶

5cbca645705b9c2374effa4753af97de.gif

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

点云PCL公众号博客

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值