AR设备单目视觉惯导SLAM算法综述与评价

10 篇文章 15 订阅
5 篇文章 5 订阅

点云PCL免费知识星球,点云论文速读。

标题:Survey and evaluation of monocular visual-inertial SLAM algorithms for augmented reality

作者:Jinyu LI, Bangbang YANG, Danpeng CHEN, Nan WANG, Guofeng ZHANG1

编译:particle

欢迎各位加入免费知识星球,获取PDF论文,欢迎转发朋友圈分享快乐。

摘要

尽管VSLAM/VI-SLAM已经取得了巨大的成功,但是由于缺乏合适的标准的基准,从增强现实的角度定量评估各种SLAM系统的定位结果仍然困难。实际中的AR应用,由于用户可能不小心移动了AR设备,并且实际环境可能相当复杂,因此很容易遇到各种具有挑战性的场景(例如快速运动、强旋转、严重的运动模糊、动态干扰等)。此外,AR应用应尽量减少图像跟踪丢失的频率,并能够从故障的丢失状态中快速准确地恢复,以获得良好的AR体验。现有的SLAM数据集通常只提供姿态精度的评估,而且它们的相机运动很简单,不适合常见的移动AR应用场景。基于上述情况,我们建立了一个新的视觉惯性数据集和一系列AR的评价标准,并对现有的单目VSLAM/VI-SLAM方法进行了详细的分析和比较。特别是选择了8种具有代表性的单目VSLAM/VI-SLAM方法/系统,并在我们的基准上对它们进行了定量评价。我们的数据集、样本代码和相应的评估工具可以在网站找到: http://www.zjucvg.net/eval-vislam/.

在这里插入图片描述

主要内容

文章开始介绍了视觉SLAM以及VI-SLAM的基本理论,并且最终将两种的SLAM都归结为优化方程,比如视觉SLAM总结为优化相机位姿以及三维特征点的函数

在这里插入图片描述
这种优化称为捆集调整(BA)[1],即SfM和VSLAM的核心模块。

对于单目惯性SLAM,通过IMU的数据来恢复和优化单目SLAM中的绝对尺度问题,所以VI-SLAM结合了视觉测量和惯性测量的方式,可视为是VSLAM的扩展方法。所以VISLAM中的BA函数定义为:

在这里插入图片描述
接下来文章将着重介绍AR应用中的各种SLAM方案,并进行对比与评价。众所周知,SLAM系统可以通过滤波或优化来求解状态。基于此的SLAM方法可以分为基于滤波的方法和基于优化的方法。并且用于图像跟踪的前端部分也不尽相同。一些方法利用关键点匹配来优化重投影误差。也有一些方法直接使用图像像素最小化光度误差。这里将介绍一些有代表性的单目VSLAM/VI-SLAM方法。

基于滤波的SLAM

MonoSLAM是最早的单目VSLAM系统之一。由于它使用扩展卡尔曼滤波器来解决相机姿态问题,所以它是一个基于滤波的SLAM系统。对于Kalman更新步骤,所使用的观测值是标准针孔模型的重投影

基于优化的SLAM

基于滤波的SLAM系统不可避免地存在累积误差。据调查,基于优化的SLAM方法比基于滤波的方法具有更高的精度[2],首先介绍基于关键帧优化方法的PTAM,然后介绍了在PTAM之后的ORB-SLAM,它将图像跟踪、局部地图维护和回环检测放在三个线程中,在整个系统中使用ORB特征来提高系统的健壮性。ORB-SLAM使用了两种初始化的方式:单应矩阵模型和极线约束模型,并选择最佳模型初始化前两个关键帧。所以当有足够的运动时,系统会自动初始化。ORB-SLAM的开源激发了许多新的作品,包括基于惯性的ORB-SLAM.

OKVIS是设计用于融合惯性测量VI-SLAM系统,OKVIS的核心优化问题是一个既有重投影误差又有IMU运动误差的滑动窗口优化问题。而VINS Mono是一个强大的视觉惯性SLAM系统。与ORB-SLAM相比,它有许多新的亮点,拥有稳健的初始化与尺度估计。

基于直接法的SLAM

以上介绍的SLAM前端需要提取特征点,可以概括为特征点法的SLAM,直接法一般是求解最小化图像的光度误差作为SLAM的前端。直接法和间接法各有利弊。在大多数情况下,特征点法对几何噪声(如镜头畸变或卷帘效应)更为稳健,而直接法对几何噪声可能敏感。另一方面,直接方法对光度噪声更为鲁棒,因为使用了具有强度梯度的所有图像区域(边缘、无特征的墙等)。具有代表性的是DSO(Direct Sparse Odometry)

接下来主要就是介绍基于视觉与惯导的数据的采集以及对采集硬件的介绍,并且与常见的开源数据及进行了对比,同时也介绍了一些相机与IMU对齐和标定的工作。

在这里插入图片描述
并且文章介绍到使用了安卓和IOS设备采集各种场景的数据。并将数据集应用到以上的8中SLAM方案中,从跟踪精度,包括绝对误差、相对误差等进行比对,初始化的质量与快慢,以及跟踪的鲁棒性,重定位的耗时等方面进行评价和对比

实验结果

在这里插入图片描述
采集场景的介绍

在这里插入图片描述
VI-SLAM的跟踪精度的对比

在这里插入图片描述
初始化的时间对比

在这里插入图片描述
重定位的耗时对比

总结

现有的单目VSLAM和VI-SLAM方法,选择了8个有代表性的系统对我们的基准进行定量评估。虽然我们的视觉惯性数据是由手机采集的,但是评估仍然是在PC机上进行的,由于PC机的计算能力远远大于手机,所以SLAM结果不能真实反映手机上的实际SLAM效果。实际上,许多SLAM系统不能在手机上实时运行。PTAM和VINS Mono的移动版本已经上市。SenseSLAM是专门为移动AR开发的,能够在移动手机上实时跟踪。

由于文章的篇幅限制,有兴趣可以查看文章主页http://www.zjucvg.net/eval-vislam/,查看论文《Survey and evaluation of monocular visual-inertial SLAM algorithms for augmented reality》

参考文献

【1】Triggs B, McLauchlan P F, Hartley R I, Fitzgibbon A W. Bundle Adjustment—A Modern Synthesis. Vision Algorithms: Theory and Practice. Berlin, Heidelberg: Springer Berlin Heidelberg, 2000: 298-372

【2】Strasdat H, Montiel J M M, Davison A J. Visual SLAM: why filter? Image and Vision Computing, 2012, 30(2): 65–77

如果你对本文感兴趣,请点击“原文阅读”获取知识星球二维码,务必按照“姓名+学校/公司+研究方向”备注加入免费知识星球,免费下载pdf文档,和更多热爱分享的小伙伴一起交流吧!
在这里插入图片描述

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
视觉惯导SLAM(Simultaneous Localization and Mapping)算法是一种结合了视觉传感器和惯性传感器的SLAM算法,用于实现机器人在未知环境中的自主定位和地图构建。 视觉惯导SLAM算法的基本思路是将视觉传感器和惯性传感器的信息进行融合,利用视觉传感器提取出的特征点和惯性传感器提供的姿态信息,实现机器人在三维空间中的定位和地图构建。 具体来说,视觉惯导SLAM算法由以下几个步骤组成: 1. 特征提取:利用视觉传感器提取出当前图像中的特征点,如角点、边缘等。 2. 特征匹配:将当前图像中提取出的特征点与前一帧图像中的对应特征点进行匹配,以确定机器人在三维空间中的运动。 3. 姿态估计:利用惯性传感器提供的姿态信息,结合特征匹配得到的运动信息,对机器人的姿态进行估计。 4. 地图构建:根据当前图像中的特征点和机器人的姿态信息,构建机器人所在环境的地图。 5. 闭环检测:利用地图中的特征点和机器人当前位置的信息,检测是否经过了之前的位置,以解决误差累积问题。 6. 优化:对机器人的姿态和地图进行优化,以进一步提高定位和地图构建的精度。 视觉惯导SLAM算法的优点是能够充分利用视觉传感器和惯性传感器的优势,实现高精度的定位和地图构建。但同时也存在着计算复杂度高、传感器数据的同步问题和误差累积等挑战。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

点云PCL公众号博客

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值