翻译:A Benchmark for the Evaluation of RGB-D SLAM Systems
摘要:
本文提出了一种用于RGB-D SLAM系统评估的新的基准。我们用运动捕捉系统的高精度、时间同步的地面真相相相机姿态记录了来自微软Kinect的大量图像序列。在视频帧速率(30赫兹)中,序列包含全传感器分辨率(640×480)的颜色和深度图像。从八个高速跟踪摄像机(100 Hz)的运动捕捉系统获得地面真实轨迹。数据集由记录在办公室环境和工业大厅中的39个序列组成。数据集涵盖了大量的场景和相机运动。我们提供的序列与缓慢运动调试以及更长的轨迹有无闭环。大多数序列是从手持Kinect中记录的,具有不受限制的6自由度运动,但我们还提供了安装在先锋3机器人上的Kinect的序列,该Kinect是在杂乱的室内环境中手动导航的。为了促进不同方法的比较,我们提供了用于视觉里程计系统漂移评估和SLAM系统全局姿态误差评估的自动评估工具。基准网站[1]包含所有数据、场景的详细描述、数据格式的规范、示例代码和评估工具。
介绍
公共数据集和基准极大地支持了对算法的科学评价和客观比较。在计算机视觉领域中成功的基准测试的几个例子已经表明,公共数据集和清晰的评估度量可以显著地帮助推动最先进的状态。在机器人技术中,一个高度相关的问题是所谓的同时定位(SLAM)问题,其目标是从传感器数据中恢复相机轨迹和地图。SLAM问题已经被详细研究了传感器,如声纳、激光、摄像机和飞行时间传感器。最近,新型低成本的RGB-D传感器,例如Kinect变得可用,并且使用这些传感器的第一SLAM系统已经出现[2]–[4]。其他算法专注于融合深度图到相干3D模型〔5〕。然而,所计算的3D模型的精度很大程度上取决于如何精确地确定个体相机姿态。有了这个数据集,我们提供了一个完整的基准,可以用来评估在RGB-D数据上的视觉SLAM和测距系统。为了刺激比较,我们提出两个评价指标,并提供自动评估工具。
我们的数据集包括39个序列,我们记录在两个不同的室内环境。每个序列包含颜色和深度图像,以及来自运动捕捉系统的地面真实轨迹。我们仔细校准和时间同步Kinect传感器到运动捕捉系统。校准后,我们测量运动捕捉系统的精度,以验证校准。所有数据可在创作共享属性许可证(CC-3)网上获得。
http://vision.in.tum.de/data/datasets/rgbd-dataset
该网站包含关于数据格式、校准数据和示例代码视频的附加信息,以便对数据集进行简单的视觉检查。
相关工作
同时定位和映射(或结构efrom-.)问题在机器人[6]-[12]和计算机视觉[9],[13]-[16]中都有很长的历史。过去已经探索了不同的传感器模式,包括2D激光扫描仪[17]、[18]、3D扫描仪[19]-[21]、单目相机[9]、[14]-[16]、[22]-[24]、立体声系统[25]、[26]以及最近RGB-D传感器,例如Microsoft Kinect[2]-[4]。
激光和摄像机的SLAM系统,有几个著名的数据集,如Freiburg、因特尔、rawseeds和newcollege集[ 27 ]–[29 ]。盖革等人。〔30〕最近提出了一种基于地面真实姿态的立体图像的视觉测径基准。然而,没有提供深度图,因此需要额外的预处理步骤。波梅洛等。〔31〕在运动捕捉工作室中记录了来自Kinect的无纹理点云的数据集。也有相关的鲍等人的工作。[32 ] WHO旨在评估语义映射和定位方法。然而,在他们的数据集从Kinect相机姿态估计的彩色图像,使地面真理是不够准确的为我们的目的。据我们所知,因此,我们的数据集是适合视觉SLAM的评价第一RGB-D数据集(和视觉里程计)系统,因为它包含的颜色和深度图像和相关的地面真实相机的姿势。我们的基准的早期版本是最近提出的[ 33 ]。从我们收到的反馈,我们扩展了原有的数据集的动态序列,更长的轨迹,并从安装在移动机器人Kinect记录序列。
仅次于数据本身,SLAM解决方案的基准测试需要合适的评估度量。一个常用的评价指标,甚至不需要地面真理是衡量内在的错误后,地图优化,如重投影误差或者,更普遍的是,2的χ错误[ 12 ],[ 34 ]。然而,明显低χ2错误不保证良好的地图或轨迹的准确估计,平凡不使用任何传感器的数据导致零误差。因此,从实践的角度,我们提倡类似于奥尔森等人。[ 34 ]:通过比较其输出评估整个系统的端到端性能(地图或轨迹)与地面的真相。例如,地图可以通过叠加在楼层平面图上并搜索差异来进行评估。虽然,在原则上,差分图像两者之间的映射可以自动计算[ 35 ],往往表现为只有肉眼判断寻找薄结构,扭结或鬼像双壁。
地图比较的选择是通过比较估计摄像机运动轨迹与真实评价SLAM系统。两种常用的方法是相对位姿误差