在超难数据集上登顶CVPR 2020 SLAM挑战赛，旷视用了这样的方案

旷视

于 2020-09-16 18:22:30 发布

阅读量1.2k

点赞数

文章标签：定位大数据编程语言计算机视觉人工智能

本文链接：https://blog.csdn.net/Megvii_tech/article/details/108633708

版权

旷视研究院SLAM组在基于TartanAir数据集的CVPR2020 SLAM挑战赛中包揽冠军。他们采用SuperPoint和SuperGlue进行特征提取和匹配，动态调整阈值以应对环境变化，并利用BoW进行回环检测。在Mono和Stereo Track中，分别针对单目和双目图像处理，实现了鲁棒的定位与建图。

摘要由CSDN通过智能技术生成

相信做SLAM（即时定位与地图构建）的同学都知道或者领略过TartanAir，这个CMU于今年3月发布的超难数据集的“风采”。据CMU研究人员介绍，构建该数据集的目的就是为了推动视觉SLAM的极限。而在完全基于该数据集举办的 CVPR2020 SLAM 挑战赛上，旷视研究院 SLAM 组以绝对优势包揽该挑战赛全部赛道的冠军。本文对团队的方案进行了介绍，希望与同学们交流讨论。

实时定位与地图构建（Simultaneous Localization and Mapping，SLAM）技术是机器人导航控制领域一项极为重要的基础技术，虽然近年来SLAM领域发展迅猛，但算法在各类环境下的鲁棒性问题仍然有待探索，这其中数据集扮演着关键角色。

一个典型的SLAM工作：利用视频序列同时估计相机姿态和构建环境地图，视频源于Direct Sparse Visual-Inertial Odometry using Dynamic Marginalization, Lukas von Stumberg, Vladyslav Usenko, Daniel Cremers, 2018 IEEE International Conference on Robotics and Automation (ICRA)

当前已有的数据集虽然极大推动了领域的发展，但与实际应用当中的场景丰富度与运动模式相比，它们依然存在较大提升空间。为此 TartanAir 数据集横空出世，作为对真实世界数据不足的补充，基于虚幻引擎强大拟真能力构建的 TartanAir，包含大量风格迥异、环境变量多元的场景。

另外，正是由于使用了虚拟环境，团队才能从各种视角、运动模式出发来收集数据样本，这在真实世界的数据收集中往往十分困难。